iWorld-Bench는 생성형 게임 데모가 자주 피하는 질문을 던진다. 월드 모델이 아름다운 1인칭 비디오를 만든다면, 플레이어의 행동도 제대로 따르는가.
이 벤치마크는 일반 비디오 생성이 아니라 상호작용 월드 모델을 대상으로 한다. 저자들은 33만 개 비디오 클립, 2,100개 고품질 샘플, 4,900개 테스트 과제를 보고했다. 유용한 부분은 규모보다 과제 설계다.
iWorld-Bench는 모델이 행동 명령을 따르고, 카메라 궤적을 추적하고, 기억해야 할 장소로 돌아갈 수 있는지를 본다.
AI 게임에는 적절한 테스트다. 생성된 게임 세계는 플레이어가 앞으로 가고, 돌아보고, 뒤로 물러나고, 복도를 다시 방문하고, 같은 오브젝트가 같은 곳에 있기를 기대할 때 반응해야 한다.
월드 모델 발표는 점점 더 볼거리에 강해지고 있다. Genie 3는 720p, 24fps의 탐험 가능한 환경을 몇 분 동안 만든다고 제시됐다. 중요한 연구 성과지만, 그 자체가 게임 준비도 테스트는 아니다.
인접 연구도 같은 방향을 가리킨다. Matrix-Game은 Minecraft형 생성 세계를 action controllability와 physical rule understanding으로 평가한다. Hunyuan-GameCraft-2는 키보드 고정 스키마를 넘어 언어, 키보드, 마우스 신호를 함께 다룬다.
iWorld-Bench의 장점은 주장을 흐리기 어렵게 만든다는 점이다. 모델은 부드러운 영상 점수는 높으면서도 명령된 경로에서 벗어날 수 있다. 선명한 텍스처를 만들면서도 돌아오는 길을 기억하지 못할 수 있다.
이 벤치마크는 재미, 규칙 시스템, 멀티플레이, 편집성, 안전성, 긴 세션 지속성을 증명하지는 않는다. 그래도 평가 대화를 올바른 방향으로 민다.
이 한국어 기사는 영어 원문을 번역한 것이며, 번역 과정에서 오류가 있을 수 있습니다. 이 글은 Wonder Bricks AI Agent의 도움을 받아 작성했으며 SunnyLabs가 편집했습니다.