오늘 뉴스레터는 GameCraft-Bench의 플레이 가능한 AI 생성 Godot 게임 벤치마크, PUBG Ally의 AI 팀원 라이브 베타, Nvidia ACE와 Unreal Engine 캐릭터 도구, 생성 AI에 대한 개발자 반응, NaukNauk의 장난감 애니메이션 투자 유치, DeepMind의 AI 제어 로드맵, 게임 에이전트와 교육용 게임 생성 및 아동 대상 AI 안전 연구를 다룹니다.
밤사이 바뀐 것
- GameCraft-Bench가 15개 게임 계열의 140개 Godot 과제로 구성된 엔드투엔드 게임 생성 벤치마크 사이트와 arXiv 논문을 공개했다.
- 공개 리더보드에서 Claude Code와 Opus-4.7 high 조합은 전체 41.46%, Codex와 GPT-5.5 high 조합은 39.49%를 기록했다. 저자들은 다수 에이전트가 40% 아래에 머문다고 설명한다.
- TechRadar에 따르면 PUBG Battlegrounds의 Ally Duo Mode가 PUBG Arcade에서 베타로 열렸다. Nvidia ACE 기반 AI 팀원을 6월 말까지 실제 플레이어 환경에서 시험한다.
- Creative Bloq는 PUBG Ally와 Nvidia ACE를, 스크립트형 NPC에서 Unreal Engine 작업 흐름 안의 에이전트형 캐릭터로 넘어가는 흐름으로 설명했다.
- GamesRadar+는 게임 개발자들이 생성 AI에 반대하는 이유를 다룬 장문 기사와, Pocketpair의 John Buckley가 Palworld 팀이 플레이어 반응 때문에 생성 AI를 쓰지 않는다고 말한 별도 인터뷰를 냈다.
- Axios는 NaukNauk이 장난감 사진을 짧은 영상으로 바꾸는 AI 앱으로 2,000만 달러를 투자받았고, 베타 사용자 100만 명을 넘긴 뒤 정식 전환했다고 보도했다.
- Axios는 Google DeepMind가 더 강한 자율 에이전트를 감시하고 억제하기 위한 AI Control Roadmap을 공개했다고도 전했다.
주요 항목
GameCraft-Bench는 코딩 에이전트가 진짜 게임을 만들 수 있는지 묻는다
GameCraft-Bench는 오늘 가장 직접적인 AI 게임 소식이다. 대부분의 데모가 건너뛰는 질문을 정면으로 다룬다. 에이전트가 자연어 게임 아이디어를 실제 게임 엔진 안의 완성된 플레이 가능 프로젝트로 바꿀 수 있는가?
이 벤치마크는 Godot 4, 140개 과제, 15개 게임 계열을 사용한다. 플랫폼 게임, 전략 게임, 타이쿤, 오픈월드 과제, 로그라이크, 비주얼 노벨, 슈터, 시뮬레이션, 리듬 게임, 레이싱, 스포츠까지 포함된다. 제출물은 코드 조각으로만 평가되지 않는다. 에이전트는 완성된 Godot 프로젝트와 리플레이 가능한 상호작용 경로를 함께 내야 하고, 검증기는 게임을 실행하고 그 경로를 재생해 플레이 증거를 기록한 뒤 점수를 매긴다.
점수는 AI 게임 데모에 붙은 기대를 식히는 데 도움이 된다. 프로젝트 사이트는 Claude Code와 Opus-4.7 high 조합을 전체 41.46%, Codex와 GPT-5.5 high 조합을 39.49%로 표시한다. 최고 항목도 메커닉, 콘텐츠 깊이, 기능적 시각 피드백, 표현 완성도 사이에서 고르지 않다. 저자 요약은 에이전트가 알아볼 수 있는 메커닉은 종종 만들지만, 완성도 있는 상호작용 시스템으로 조립하는 데는 아직 약하다고 본다.
AI 게임 제작자에게 중요한 변화는 방법론이다. GameCraft-Bench는 플레이 가능성을 스크린샷이나 빌드 성공이 아니라 실제 관찰되는 행동으로 본다. 생성 게임이 실행은 되지만 피드백, 진행, 결과, 콘텐츠가 부족해 완성품처럼 느껴지지 않는 문제와 맞닿아 있다.
PUBG Ally는 에이전트형 캐릭터를 라이브 베타로 옮겼다
PUBG Ally는 연구 논문도 엔진 로드맵도 아니다. PUBG Battlegrounds 안에서 돌아가는 라이브 베타다. 그래서 AI 캐릭터를 평가하는 방식도 달라진다.
TechRadar는 Ally Duo Mode가 PUBG Arcade에서 2주 베타로 제공되며, 6월 말까지 이어진다고 보도했다. AI 팀원 Ella는 Nvidia ACE 기반이고, 작은 언어 모델을 쓰며, 음성과 텍스트를 지원하고, 최소 8GB VRAM을 가진 Nvidia GPU가 필요하다고 설명했다. 초반 평가는 조심스럽다. Ella는 인간 팀원보다는 인위적이고 말이 많은 쪽에 가까워 보이며, 실제 플레이어 반응을 더 받아야 한다.
Creative Bloq의 Unreal Fest 보도는 개발자 쪽 구조를 짚었다. Nvidia ACE는 행동, 대화, 검색 기반 계층을 연결해 캐릭터가 일반 챗봇처럼 새지 않고 게임 상태 안에 머물도록 돕는다. 게임 AI에서는 아주 현실적인 문제다. 말은 잘하지만 매치 상황을 무시하는 캐릭터는 좋은 팀원이 아니다.
지금 얻을 수 있는 신호는 AI 팀원이 완성됐다는 것이 아니다. 지연 시간, 밸런스, 팀 음성, 플레이어 반응, 하드웨어 조건이 한꺼번에 드러나는 장소에서 실제 시험이 시작됐다는 점이다.
개발자 반응은 출시 전략에도 영향을 준다
GamesRadar+의 두 기사는 이번 주 AI 게임 뉴스의 반대편을 보여준다. 하나는 개발자들이 생성 AI를 윤리, 환경 비용, 저작권, 신입 일자리, 창작 통제, 결과물 품질 문제로 보는 이유를 모았다. 다른 하나는 Pocketpair 퍼블리싱·커뮤니케이션 책임자 John Buckley가 Palworld 팀은 플레이어가 원하지 않고 아티스트들이 직접 만드는 일을 좋아하기 때문에 생성 AI를 쓰지 않는다고 말한 내용이다.
이 흐름이 중요한 이유는 Steam 공개 표시가 이미 AI 사용을 플레이어에게 보이게 만들었기 때문이다. 스튜디오가 에셋, 음성, 현지화, 마케팅에 생성 AI를 쓸지 결정하는 일은 제작 파이프라인만의 문제가 아니다. 시장에서 어떻게 읽힐지도 함께 결정된다.
업계에 하나의 답이 있는 것은 아니다. PUBG Ally는 AI 동료를 플레이어 앞에 내놓고 있다. Epic과 Nvidia는 AI 캐릭터 기반 도구를 만들고 있다. 동시에 일부 개발자는 “사람이 만든 게임”이라는 메시지로 플레이어 우려에 답하려 한다.
NaukNauk은 장난감 사진을 AI 영상으로 바꾼다
NaukNauk은 AI 게임 엔진은 아니지만, 놀이, 팬덤, 수집품, 가족용 미디어 제작과 가까워 오늘 창작 도구 묶음에 들어간다. Axios는 NaukNauk이 2,000만 달러를 투자받았고, 장난감 사진 한 장과 프롬프트로 음악이나 음성이 들어간 15-20초 영상을 만드는 앱으로 베타를 끝냈다고 보도했다. 공식 사이트도 사진 한 장에서 피규어가 춤추고, 싸우고, 이야기를 하게 만드는 흐름을 설명한다.
Axios에 따르면 NaukNauk은 베타 사용자 100만 명을 넘겼고 직원은 20명 미만이다. 기사에는 Pokémon, Star Wars, bricks 같은 카테고리도 나온다. 그래서 이 앱이 게임 제품은 아니더라도 라이선스와 플랫폼 정책은 계속 볼 만하다.
Wonder News 독자에게 겹치는 지점은 분명하다. AI 창작은 빈 텍스트 프롬프트에서 사람들이 이미 갖고 있는 놀이 대상 쪽으로 옮겨가고 있다. 아바타 제작, 장난감 같은 게임 월드, 리믹스 가능한 창작 앱과 맞닿은 사용자 행동이다.
DeepMind의 제어 로드맵은 에이전트 팀이 볼 만한 또 하나의 기준이다
Axios는 Google DeepMind가 더 자율적인 에이전트를 위한 AI Control Roadmap을 공개했다고 보도했다. 이 로드맵은 사이버보안에서 아이디어를 빌려 고급 에이전트를 수동적인 소프트웨어 도구가 아니라 감시와 억제가 필요한 시스템처럼 다룬다.
이 항목은 오늘 뉴스레터 전체를 안전 기사로 만들지 않고도 AI 게임 도구와 연결된다. 게임 제작 에이전트에는 저장소 접근, 파일 쓰기, 테스트 실행기, 에셋 도구, 엔진 편집기, 때로는 클라우드 권한이 필요하다. 에이전트가 더 자율화될수록 무엇을 허용할지, 누가 도구 사용을 감독할지, 의도한 작업 안에 머물렀다는 증거를 어떻게 볼지가 중요해진다.
이 소식은 WorkBench Revisited와도 잘 맞는다. 이 논문은 업무용 에이전트의 과제 완료율과 의도치 않은 유해 행동 비율이 크게 개선됐다고 보고하면서도, 되돌리기 어려운 실수가 여전히 남는다고 본다. 공통점은 단순하다. 에이전트 능력과 감독 방식은 이제 함께 평가된다.
AI 게임과 월드
- GameCraft-Bench: 140개 Godot 과제가 전체 프로젝트, 리플레이 경로, 실행 가능성, 메커닉, 콘텐츠 깊이, 시각 피드백, 표현 완성도를 평가한다.
- PUBG Ally 베타: Krafton과 Nvidia의 AI 팀원은 모델 데모가 아니라 실제 멀티플레이어 환경에서 밸런스와 플레이어 반응을 시험한다.
- Unreal 작업 흐름 안의 Nvidia ACE: ACE는 행동, 대화, 검색, 음성, 게임 상태를 연결해 에이전트형 캐릭터가 게임 루프 안에서 반응하도록 한다.
- AI 보조 GTA식 프로토타입: GamesRadar+가 다룬 Ziwen의 공개 AI 에이전트 GTA식 프로젝트는 제품 출시가 아니라 커뮤니티 신호지만, 공개 프로토타입이 얼마나 빨리 관심을 얻는지는 보여준다.
- UE6와 UE5.8 맥락: Epic의 UE6 로드맵과 UE5.8 MCP 플러그인은 최근 대표 주제로 다뤘기 때문에 오늘은 배경으로만 남긴다. 그래도 엔진과 에이전트 도구 흐름의 일부다.
엔진, 도구, 스타트업
- NaukNauk: 2,000만 달러 투자 유치는 범용 영상 생성뿐 아니라 실제 장난감과 연결된 놀이형 AI 영상 앱도 커지고 있음을 보여준다.
- NaukNauk 공식 작업 흐름: 공식 사이트는 사진, 행동 프롬프트, 템플릿으로 장난감 컬렉션을 움직이게 만들고 팬 커뮤니티에 공유하는 방식을 설명한다.
- Palworld의 no-AI 입장: Pocketpair는 플레이어 선호와 내부 아티스트의 선택을 생성 AI를 피하는 이유로 든다. AI 도입 압력이 모두에게 같은 것은 아니다.
- 개발자 반발: GamesRadar+의 장문 기사는 저작권, 노동, 에너지 사용, 팀 사기, 결과물 품질 문제를 함께 다룬다.
- 에이전트 권한 맥락: Arcade.dev는 최근 이미 다뤘기 때문에 오늘 앞에 세우지 않았지만, 파일을 고치고 엔진을 실행하고 빌드를 공개할 수 있는 게임 도구에는 같은 권한 문제가 따라온다.
연구와 벤치마크
- OmniGameArena: UE5 기반 벤치마크는 솔로, PvP, 협동 플레이를 아우르는 12개 게임을 쓰고, 반성 기반 개선을 보는 Improvement Dynamics Curve를 더했다.
- GUI Agents for Continual Game Generation: PlaytestArena와 Play2Code는 게임 생성을 코딩 에이전트와 GUI 플레이테스터가 주고받는 루프로 본다. 논문은 Play2Code의 루브릭 통과율을 66.8%로 보고한다.
- GamED.AI: 교육용 게임 프레임워크는 교사의 문제를 단계형 멀티 에이전트 작업, 메커닉 계약, 품질 게이트를 거쳐 플레이 가능한 게임으로 바꾼다.
- WorkBench Revisited: 업무용 에이전트 벤치마크는 최고 에이전트의 과제 완료율을 89%, 의도치 않은 유해 행동을 2.5%로 보고한다. 2024년 비교 지점의 26%보다 낮다.
- KIDBench 맥락: 아동 대상 LLM 안전 연구는 교육과 가족용 창작 도구에 중요하지만, 어제 이미 다뤘기 때문에 오늘은 대표 항목이 아니라 배경으로 둔다.
플랫폼, 정책, 플레이어 신호
- DeepMind AI Control Roadmap: Axios 보도는 일반 에이전트 안전 항목이지만, 실제 도구 접근을 가진 창작 에이전트에도 감시와 억제라는 질문을 남긴다.
- Roblox 연령 확인: The Verge의 최근 데모 보도는 소셜 창작 플랫폼에서 나이 확인이 중요한 층이 됐음을 보여주지만, Roblox도 이번 주 반복 보도됐기 때문에 오늘 대표 주제에서는 뺐다.
- Steam AI 공개 표시: Steam 역시 최근 여러 차례 앞에 세웠기 때문에 오늘은 배경이다. 그래도 공개 표시는 플레이어 인식과 개발자 메시지에 계속 영향을 준다.
- 아동 대상 AI 딥페이크 피해: 최근 보도된 아동 사이의 AI 생성 합성 이미지 문제는 게임 도구 뉴스는 아니지만, 청소년 창작 플랫폼을 둘러싼 가족 안전 분위기의 일부다.
다음에 볼 것
- GameCraft-Bench의 코드, 데모, 리플레이 경로가 게임 생성 에이전트의 공통 회귀 테스트로 쓰이기 시작하는지.
- PUBG Ally의 플레이어 피드백이 유용한 팀원 행동을 보여줄지, 아니면 지연 시간과 밸런스와 소통 문제를 더 드러낼지.
- Nvidia ACE 사례가 멋진 캐릭터 데모를 넘어 재현 가능한 개발자 도구로 이어지는지.
- 더 많은 스튜디오가 Steam 이벤트와 여름 쇼케이스에서 “생성 AI 미사용”을 마케팅 포인트로 내세우는지.
- NaukNauk이 장난감과 팬덤 카테고리의 IP 문제를 관리하면서 성장할 수 있는지.
- DeepMind의 AI 제어 작업이 코딩 에이전트와 게임 에이전트 팀이 직접 시험할 수 있는 구체적인 도구로 이어지는지.
이 한국어 기사는 영어 원문을 번역한 것이며, 번역 과정에서 오류가 있을 수 있습니다. 이 글은 Wonder Bricks AI Agent의 도움을 받아 작성했으며 SunnyLabs가 편집했습니다.