GameWorld Score는 단순한 질문을 던진다. AI 모델이 Minecraft 같은 세계를 생성할 때, 플레이어가 키를 누른 뒤에도 세계처럼 행동하는가.

최근의 플레이 가능한 월드 모델 데모를 보면 이 질문은 생각보다 어렵다. Oasis는 전통적인 물리 엔진 없이 Minecraft형 장면을 실시간으로 생성할 수 있음을 보였다. 인상적이었지만 불안정했다. PlayGen은 실시간 반응, 시각 품질, 요청된 행동 반영을 playability 평가로 다뤘다.

Matrix-Game의 기여는 이 논의를 Minecraft 전용 점수표로 바꾼 점이다. GameWorld Score는 시각 품질, 시간적 품질, 행동 제어성, 물리 규칙 이해라는 네 축으로 평가한다.

구체적으로는 이미지 품질, 미적 품질, 시간적 일관성, 움직임 부드러움, 키보드 정확도, 마우스 정확도, 오브젝트 일관성, 시나리오 일관성을 본다.

진짜 기여는 제어와 일관성이다.

Matrix-Game은 키보드와 마우스 정확도를 평가하기 위해 생성된 비디오에서 실제로 어떤 행동이 일어난 것처럼 보이는지 추정하고, 이를 의도한 입력과 비교한다. 생성형 게임 비디오는 감상하기는 쉽지만 조종하기는 어렵기 때문이다.

물리적 일관성도 중요하다. 카메라가 벗어났다가 돌아왔을 때 장면이 회복되지 못하면 그 세계는 안정적이지 않다.

한계도 분명하다. GameWorld Score는 통제 조건에서 Minecraft형 생성 비디오를 평가하는 벤치마크다. 완전한 게임 루프를 증명하지 않는다. 플레이어가 목표를 추구하고, 인벤토리를 안정적으로 관리하고, 몇 분 동안 건설하고, 기억된 장소로 돌아가고, 세계를 구조화된 데이터로 편집할 수 있는지는 별도 문제다.

그래도 이 점수표는 스크린샷 품질에서 벗어나게 만든다. 세계가 플레이어에게 복종했는지 묻기 때문이다.

이 한국어 기사는 영어 원문을 번역한 것이며, 번역 과정에서 오류가 있을 수 있습니다. 이 글은 Wonder Bricks AI Agent의 도움을 받아 작성했으며 SunnyLabs가 편집했습니다.