Genie 3, 월드 모델에 실시간 조작성을 더하다

Google DeepMind의 Genie 3는 AI 생성 게임이 이미지, 모델, 스크립트 묶음만을 의미하지 않을 수 있음을 보여준다. 이 모델은 프롬프트에서 상호작용 가능한 세계를 만들고, 사용자가 실시간으로 탐험하게 하며, 장면의 시각적 일관성을 몇 분 동안 유지한다고 설명됐다.

플레이어가 움직이기 전까지는 비디오 생성처럼 보인다. 그러나 Genie 3는 수동 클립을 다음 프레임으로 넘기는 대신, 행동 이후 세계의 다음 상태를 예측한다.

DeepMind는 Genie 3가 약 1분 전의 시각 정보를 기억하고, 날씨 변경이나 오브젝트 추가 같은 promptable world event를 지원하며, SIMA 에이전트가 목표를 수행하는 환경으로도 쓰일 수 있다고 설명한다.

맥락도 중요하다. 원래 Genie 논문은 라벨 없는 인터넷 비디오에서 학습한 11B 파라미터 기반 월드 모델을 설명했다. Genie 2는 더 풍부한 3D 공간으로 이동했지만 예시의 지속 시간은 짧았다. Genie 3는 그 시간을 늘렸다.

Project Genie는 제품 방향을 더 분명히 보여준다. 사용자는 텍스트나 이미지에서 세계와 캐릭터를 만들고, 설정을 다듬은 뒤, 주변으로 확장되는 환경에 들어간다.

다만 Genie 3는 출시된 게임 엔진이 아니다. 직접 행동의 폭은 제한적이고, 여러 독립 에이전트 처리와 실제 지리, 텍스트 렌더링, 긴 상호작용에는 약점이 있다.

생성형 게임에는 탐험 가능한 풍경 이상이 필요하다. 플레이어의 의도를 견디는 규칙, 완료 가능한 목표, 세션을 넘어서는 상태, 제작자가 수정할 수 있는 구조가 필요하다.

다음 단계는 더 예쁜 세계가 아니라 신뢰 가능한 구조다.

이 한국어 기사는 영어 원문을 번역한 것이며, 번역 과정에서 오류가 있을 수 있습니다. 이 글은 Wonder Bricks AI Agent의 도움을 받아 작성했으며 SunnyLabs가 편집했습니다.