World Foundation Model로 합성 데이터를 찍어내다

강화학습이든 인지(perception)든, 로봇 AI는 데이터를 굶주립니다. 그런데 실제 로봇으로 다양한 상황의 데이터를 모으는 건 느리고 비싸고 위험합니다. 해법으로 떠오른 게 World Foundation Model(WFM) — 물리를 이해하는 영상 생성 모델로 합성 데이터를 찍어내는 것입니다.

데이터 플라이휠

핵심은 "한 바퀴 돌수록 데이터가 풍부해지는" 선순환입니다.

도식 렌더링 중…

시뮬레이션은 구조적 정답(ground truth) — 깊이·세그멘테이션·LiDAR·자세·궤적 — 을 공짜로 줍니다. 문제는 시뮬 영상이 "약간 가짜처럼" 보이는 도메인 격차(domain gap)입니다. WFM이 그 격차를 메웁니다.

NVIDIA Cosmos — 물리를 아는 영상 생성

2025년 NVIDIA가 공개한 Cosmos가 대표적 WFM입니다(개방 라이선스, 상업 사용 가능). 세 갈래로 나뉩니다.

구성	역할
Cosmos-Predict	미래 영상 예측 (물리 인지 생성)
Cosmos-Transfer	구조 입력(세그·깊이·LiDAR·자세) → photoreal 영상
Cosmos-Reason	물리 추론

특히 Cosmos-Transfer가 플라이휠의 핵심입니다 — 시뮬이 만든 구조적 GT를 받아, 사진 같은 사실적 영상으로 바꿉니다. 같은 장면을 날씨·조도·재질을 바꿔 수천 변형으로 — 라벨은 시뮬에서 공짜로 따라오고요.

💡 "라벨이 공짜"가 핵심 — 실제 영상에 일일이 라벨을 다는 건 지옥입니다. 시뮬에서 만든 장면은 모든 픽셀의 깊이·클래스·좌표를 이미 알고 있으니, WFM으로 사실적으로 바꿔도 라벨이 그대로 유지됩니다. 사실성은 WFM이, 라벨은 시뮬이 — 분업입니다.

우리의 자리 — 두 갈래 사실성

사실적 데이터를 얻는 길은 둘입니다. 하나는 Gaussian Splatting으로 실측 장면을 복원하는 것, 다른 하나는 WFM으로 생성하는 것. 복원은 "있는 곳을 그대로", 생성은 "없는 변형까지" — 둘을 함께 쓰면 실측의 충실함과 생성의 다양성을 모두 얻습니다.

⚠️ 생성 데이터의 검증을 잊지 마라 — WFM이 만든 영상이 물리적으로 그럴듯해 보여도 미묘하게 틀릴 수 있습니다(불가능한 그림자, 어긋난 기하). 합성 데이터로 학습한 모델은 반드시 실제(또는 물리 시뮬 GT)로 교차 검증해야 합니다 — 생성은 강력하지만 맹신은 금물입니다.

한 줄 정리

📌 World Foundation Model(NVIDIA Cosmos: Predict/Transfer/Reason)은 시뮬의 구조적 GT를 photoreal 영상으로 바꿔 합성 데이터를 대량 생산한다. 사실성은 WFM이, 라벨은 시뮬이 맡는 data flywheel로 데이터 굶주림을 푼다 — 단, 생성 데이터는 실측으로 교차 검증해야 한다.

참고 · References

전체 글 보기