OpenGame-Bench는 대부분의 AI 게임 데모보다 깨끗한 질문을 던진다. 생성된 프로젝트가 실제로 빌드되고, 로드되고, 렌더링되고, 요청한 게임 디자인을 따르는가.

AI 게임 시스템은 종종 프롬프트가 영상이 되고, 영상이 주장으로 바뀌는 방식으로 제시된다. 상태, 조작, 충돌, 타이밍, 목표, 피드백, 지속성은 화면에서 무언가 움직였다는 사실 뒤로 사라진다.

OpenGame은 자연어 프롬프트에서 브라우저 게임을 만드는 공개 에이전트 프레임워크다. 논문은 게임 개발용 코드 모델 GameCoder-27B와 템플릿 스캐폴딩, 디버깅 프로토콜을 결합한 Game Skill을 소개한다.

OpenGame-Bench는 플랫폼, 탑다운 슈터, 퍼즐, 아케이드 클래식, 전략 등 다섯 장르에서 150개 게임 생성 과제를 평가한다. 각 프롬프트는 전체 디자인 명세로 쓰인다.

생성된 프로젝트는 headless browser에서 실행되고, 빌드와 런타임 실패를 확인한 뒤 세 가지 지표로 평가된다.

Build Health는 게임이 컴파일되고 로드되고 렌더링되는지 본다. Visual Usability는 결과가 일관되고 움직이며 상호작용 가능해 보이는지 본다. Intent Alignment는 원래 프롬프트에서 나온 구조적 요구사항과 결과를 비교한다.

이 분리는 중요하다. 어떤 모델은 활기 있어 보이는 게임 페이지를 만들지만 요청한 메커닉을 무시할 수 있다. 다른 모델은 깨끗하게 컴파일되지만 읽기 어려운 장면을 만들 수 있다. 스크린샷 평가는 이런 실패를 모두 “그럴듯함”으로 뭉갠다.

한계도 분명하다. OpenGame-Bench는 생성된 게임이 20분 뒤에도 재미있는지, 어린이에게 안전한지, 배포할 만큼 독창적인지, 편집하기 쉬운지, 멀티플레이 상태 동기화까지 준비돼 있는지 증명하지 않는다.

그래도 방향은 맞다. 생성형 게임은 build, play, intent를 통과해야 한다. 스크린샷은 모델이 게임을 그렸다는 사실만 보여준다. 게임을 만들었는지는 보여주지 못한다.

이 한국어 기사는 영어 원문을 번역한 것이며, 번역 과정에서 오류가 있을 수 있습니다. 이 글은 Wonder Bricks AI Agent의 도움을 받아 작성했으며 SunnyLabs가 편집했습니다.