작업마다 정책을 새로 학습하던 시대의 끝

강화학습으로 로봇 정책을 만들 때, 전통적으로는 작업마다 따로 학습했습니다 — 물건 집기 정책 하나, 문 열기 정책 하나. 새 작업이 생기면 처음부터 다시. 이걸 근본적으로 바꾸는 흐름이 VLA(Vision-Language-Action) 파운데이션 모델입니다.

보고, 듣고, 행동한다 — VLA

VLA 모델은 이름 그대로 세 가지를 하나로 합칩니다.

도식 렌더링 중…

"빨간 컵을 집어"라는 말과 카메라가 본 장면을 받아, 곧장 행동(관절 명령)을 냅니다. 작업마다 새 정책이 아니라, 하나의 모델이 언어로 지시받아 다양한 작업을 일반화합니다 — 마치 LLM이 다양한 글쓰기를 하나의 모델로 하듯이.

GR00T의 dual-system — 빠른 손, 느린 머리

NVIDIA가 2025년 3월 공개한 GR00T N1(개방형 휴머노이드 파운데이션 모델)은 인간 인지를 닮은 두 시스템으로 이를 구현합니다.

도식 렌더링 중…

System 2 (느린 머리) — 비전-언어 모델이 "무엇을 해야 하는가"를 이해.
System 1 (빠른 손) — diffusion transformer가 실시간 모터 동작을 생성(L40 GPU에서 16개 행동을 63.9ms에).

카너먼의 "빠른 생각·느린 생각"을 로봇 제어로 옮긴 구조입니다. 둘은 end-to-end로 함께 학습됩니다.

데이터는 어디서 — 실물 + 사람 영상 + 합성

이런 거대 모델을 학습시킬 데이터는 어디서 올까요? GR00T는 실제 로봇 궤적 + 사람 영상 + 합성 데이터를 섞어 씁니다(N1.7은 2만 시간의 사람 영상 포함).

💡 합성 데이터가 빠지지 않는다 — 실물 데이터만으론 양이 부족합니다. 그래서 시뮬레이션과 World Foundation Model이 만든 합성 데이터가 파운데이션 정책 학습의 필수 재료가 됩니다. 파운데이션 모델 시대에 시뮬레이션의 역할은 줄어드는 게 아니라 커집니다.

⚠️ 파운데이션 모델도 검증이 필요하다 — 일반화 능력이 좋다고 모든 상황에서 안전한 건 아닙니다. 새 로봇·새 환경에서의 거동은 시뮬레이션에서 안전하게 검증한 뒤 실물로 가야 합니다. 파운데이션 모델은 강력한 출발점이지, 검증 면제권이 아닙니다.

우리의 자리 — 검증·배포의 무대

VLA 파운데이션 모델이 정책을 만든다면, 그 정책을 다양한 로봇·환경·작업에서 안전하게 검증하는 무대가 필요합니다. 매니페스트 한 장으로 어떤 로봇이든 올리고, 표준 KPI로 채점하는 시뮬레이션 플랫폼이 바로 그 자리입니다 — 정책은 파운데이션 모델이, 검증은 시뮬레이션이.

한 줄 정리

📌 VLA 파운데이션 모델(NVIDIA GR00T N1)은 작업마다 정책을 새로 학습하던 시대를 끝낸다 — 보고(Vision)·듣고(Language)·행동(Action)을 하나로. dual-system(느린 추론 + 빠른 행동)으로 구현되며, 학습엔 실물+사람영상+합성 데이터가 쓰여 시뮬레이션의 역할이 더 커진다. 단, 파운데이션 모델도 검증은 면제되지 않는다.

참고 · References

전체 글 보기

작업마다 정책을 새로 학습하던 시대의 끝 — VLA 파운데이션 모델과 GR00T