BiWM 철회가 드러낸 월드 모델 경쟁의 다음 과제

BiWM은 AI 생성 게임에 필요한 방향을 정확히 겨냥했다. 인터랙티브 비디오 월드 모델을 닫힌 데모가 아니라 다른 연구자가 따라가 볼 수 있는 제작법으로 만들겠다는 방향이다. 그런데 현재 arXiv 버전은 철회됐다.

이 순서 자체가 뉴스다. 6월 8일 제출된 논문은 사전 학습된 비디오 백본을 카메라로 조작 가능한 월드 모델로 바꾸는 양방향 자기회귀 프레임워크를 설명했다. 6월 10일 개정된 arXiv 페이지에는 저자들이 일부 시각화 결과가 잘못된 런타임 설정으로 만들어졌다는 사실을 발견해 논문을 철회한다고 적혀 있다. 그 오류가 시각 비교의 신뢰성에 영향을 주며, 수정된 버전을 나중에 제출하겠다는 설명도 붙었다.

게임 제작자에게 이 철회는 BiWM을 무시해야 한다는 뜻이 아니다. 오히려 경고문으로 읽어야 한다.

월드 모델 연구는 이제 데모 클립을 넘어가려 한다. 중요한 질문은 모델이 인상적인 1인칭 장면을 만들 수 있느냐가 아니다. 다른 팀이 파이프라인을 재현할 수 있는가, 조작 경로를 이해할 수 있는가, 긴 실행을 테스트할 수 있는가, 그리고 그럴듯한 영상과 실제 상호작용을 구분할 수 있는가다.

BiWM이 제시한 제작법은 비교적 단순하다. 먼저 사전 학습된 비디오 백본에 카메라 제어를 파인튜닝으로 주입하고, 이어 Distribution Matching Distillation으로 더 빠르고 조작 가능한 실행을 만든다는 구조다. 논문은 Wan, HunyuanVideo, LTX 계열 등 여러 비디오 백본에 같은 접근을 적용할 수 있고, 저비트 학습과 추론도 선택할 수 있다고 설명한다. 핵심 포지션은 기존 인과적 월드 모델 파이프라인에 대한 양방향 대안이다.

이 포지션이 중요한 이유는 주변 연구들도 같은 병목으로 모이고 있기 때문이다. minWM은 실시간 인터랙티브 비디오 월드 모델을 위한 오픈소스 인과적 파이프라인을 제시한다. 변환, 증류, 스트리밍 추론, 스크립트, 체크포인트, 문서화가 모두 포함된다. Matrix-Game 3.0은 메모리 기반 일관성을 갖춘 720p 실시간 장기 실행 시스템을 주장한다. Yume-1.5는 텍스트 제어와 키보드 탐색을 앞세운다. PackForcing과 Light Interaction은 긴 컨텍스트와 반복 추론 비용을 줄이려 한다.

흐름은 분명하다. 월드 모델 연구는 시스템 엔지니어링으로 바뀌고 있다. 제어, 지연 시간, 메모리, 히스토리 압축, 증류, 재현 가능한 추론이 실제 경쟁 지점이 됐다.

AI 생성 게임에는 좋은 소식이다. 하지만 이것이 곧 게임 엔진이라는 뜻은 아니다. 카메라로 조작 가능한 비디오 모델은 사용자가 그럴듯한 장면 안을 움직이게 할 수 있다. 플레이 가능한 생성 게임에는 규칙, 객체 식별, 충돌, 인벤토리, 점수, 실패 조건, 지속 상태, 멀티플레이 경계, 모더레이션, 그리고 제작자가 모델의 오해를 고칠 수 있는 편집면이 필요하다.

영상은 문이 있는 것처럼 보이게 할 수 있다. 게임 시스템은 그 문이 잠겨 있는지 알아야 한다.

BiWM의 철회는 이 구분을 더 선명하게 만든다. 시각 비교는 월드 모델 논문에서 가장 설득력 있는 부분이 되곤 한다. 그 시각 결과가 잘못된 런타임 설정에서 나왔다면 안전한 해석은 “방법이 실패했다”가 아니다. “현재 증거는 벤치마크 우위 주장으로 쓰기에는 안정적이지 않다”에 가깝다.

이 분야의 다음 중요한 이정표는 또 다른 비행 데모가 아니다. 조작 가능한 비디오를 검토 가능한 상태, 안정적인 상호작용 규칙, 제작자가 편집할 수 있는 구조와 연결하는 공개 스택이다. 공개 또는 준공개 제작법은 polished clip만 보고 판단하는 문화를 줄이고, 파이프라인 자체를 검증하게 만든다.

BiWM은 수정된 형태로 돌아올 수 있다. 그 전까지 이 논문의 가치는 인프라를 더 솔직하게 다루기 시작한 분야의 스냅샷에 있다. 월드 모델은 재현 가능한 제작법으로 이동하고 있다. 게임 구조는 그 위에 별도로 지어져야 한다.

이 한국어 기사는 영어 원문을 번역한 것이며, 번역 과정에서 오류가 있을 수 있습니다. 이 글은 Wonder Bricks AI Agent의 도움을 받아 작성했으며 SunnyLabs가 편집했습니다.