오늘 Wonder News는 Godot의 AI 작성 엔진 기여 금지 계획, 게임 속 생성 AI를 둘러싼 개발자와 스토어 반응, 미국 수출 통제 이후 복구된 Anthropic 모델 접근, 코딩 에이전트 연구, 생성된 게임과 3D 장면이 실제로 실행되는지 확인하는 벤치마크를 다룬다.
첫 소식은 Godot이다. 오늘 소식 가운데 게임 제작과 가장 직접적으로 연결된다. 쟁점은 좁다. 널리 쓰이는 오픈소스 엔진에 어떤 코드가 들어올 수 있고, 리뷰 이후 누가 그 코드를 책임질 수 있는가.
밤사이 달라진 것
- PC Gamer는 Godot이 기여자 규칙을 고쳐 AI가 작성한 코드, AI가 제출한 풀 리퀘스트, 사람끼리의 기여자 대화에 들어간 AI 생성 문구를 금지할 계획이라고 보도했다.
- 같은 보도에 따르면 사소한 AI 보조 사용은 공개를 전제로 허용될 수 있고, 사람이 쓴 원문을 기계 번역하는 것은 계속 허용된다.
- GamesRadar+는 Dusk와 Iron Lung 제작자 David Szymanski가 특히 창작 작업에서의 생성 AI 사용을 강하게 비판했다고 보도했다.
- 다른 GamesRadar+ 보도는 Steam의 AI 공개 표시를 더 눈에 띄게 만들고, 검색 결과에서 AI 보조 게임을 숨길 수 있는 브라우저 확장 프로그램이 나왔다고 전했다.
- Tom’s Hardware는 Steam의 AI 공개 표시가 개발자에게 불리하다고 비판한 Tim Sweeney의 최근 발언을 다뤘다.
- The Guardian과 Axios는 미국 수출 통제가 해제된 뒤 Anthropic Fable 5 접근이 복구됐고, 안전·보안상 민감한 요청은 더 낮은 위험의 모델 경로로 처리될 수 있다고 보도했다.
- 최근 arXiv 연구들은 풀 리퀘스트, 유지보수, 브라우저 게임, Godot 프로젝트, Unreal 방식 생성, 3D 장면 편집, 게임 플레이 월드 모델을 통해 코딩 에이전트를 평가하고 있다.
엔진 정책과 창작자 반응
Godot은 사람의 책임을 기준으로 선을 그었다
PC Gamer는 Godot 유지관리자들이 AI 작성 코드 기여, AI 제출 풀 리퀘스트, 기여자 대화 속 AI 생성 문구를 거부할 계획이라고 보도했다. 핵심은 개발자가 개인적으로 어떤 도구를 쓰는지를 모두 금지하는 것이 아니다. 유지보수 가능한 기여인지 따지는 규칙이다.
게임 엔진에서는 이 차이가 크다. 엔진 코드는 다른 창작자의 기반이 된다. 유지관리자는 기여자가 변경 내용을 이해하고, 리뷰 질문에 답할 수 있고, 나중에 렌더링, 입력, 임포터, 에디터 동작, 내보낸 프로젝트에서 문제가 생기면 고칠 수 있는지 알아야 한다.
2월 맥락도 중요하다. PC Gamer는 앞서 Godot 유지관리자들이 낮은 품질의 AI 풀 리퀘스트 때문에 기여자가 자기 제출물을 테스트했는지, 이해했는지 계속 의심해야 한다고 말한 상황을 다뤘다. 이번 정책은 그 연장선이다. Godot은 리뷰를 기계가 쓴 패치를 치우는 작업으로 만들지 않고, 사람을 키우는 리뷰와 멘토링을 지키려 한다.
이것은 스토어 정책도, 플레이어에게 보이는 AI 라벨 규칙도 아니다. 엔진 유지관리 규칙이다. 그래서 AI 게임 제작자에게 특히 중요하다. 생성 게임 시스템은 오픈 엔진, 라이브러리, 템플릿, 플러그인 생태계에 기대는 경우가 많고, 그 생태계는 에이전트가 만든 작업을 받아들일 수도 거부할 수도 있다.
개발자들은 게임 속 AI 역할을 두고 계속 갈린다
GamesRadar+는 Dusk와 Iron Lung 제작자 David Szymanski가 게임 속 생성 AI 사용을 비판했고, 자신의 작업에 사용할 생각이 없다고 말했다고 보도했다. 이 항목의 의미는 한 개발자가 산업 방향을 결정한다는 데 있지 않다. 반발이 스토어 라벨을 본 플레이어에게서만 나오는 것이 아니라, 뚜렷한 작가성을 가진 창작자에게서도 나온다는 점이다.
스토어 쪽도 움직이고 있다. GamesRadar+는 Steam의 AI 공개 표시를 더 크게 보여주고 검색 결과에서 AI 보조 게임을 흐리게 하거나 숨길 수 있는 AI warning 브라우저 확장 프로그램을 보도했다. Valve의 공개 시스템 위에 커뮤니티가 만든 층이 올라간 셈이다.
Epic의 입장은 다르다. Tom’s Hardware는 Tim Sweeney가 Steam의 AI 라벨이 개발자에게 낙인을 찍고 성공 가능성을 낮출 수 있다고 주장한 내용을 다뤘다. 세 항목을 함께 보면 압력이 나뉜다. 오픈소스 유지관리자는 책임질 수 있는 코드를 원하고, 일부 창작자는 생성 AI를 예술적으로 해롭다고 보고, 플랫폼 리더들은 AI 라벨이 유용한 공개인지 상업적 불이익인지 다투고 있다.
모델 접근과 코딩 에이전트
Anthropic Fable 5는 돌아왔지만 제약도 남았다
The Guardian은 Anthropic Fable과 Mythos 모델에 대한 미국 수출 통제가 추가 안전장치와 협의 뒤 해제됐다고 보도했다. Axios는 Fable 5가 사용자에게 다시 열렸지만, 안전이나 보안상 민감한 요청은 가장 강한 경로가 아닌 다른 모델 경로로 처리될 수 있다고 전했다.
AI 게임 제작자에게 모델 접근 이슈는 단순하다. 강한 코딩·추론 모델은 도구 체인의 일부가 되고 있지만, 접근성은 정책, 안전성 검토, 제공자별 라우팅에 따라 바뀔 수 있다. 게임 스크립팅, 도구 생성, 에셋 파이프라인, 디버깅, 자동 QA에 프런티어 모델을 쓰는 팀에는 직접적인 변수다.
이 항목은 Godot 소식과 다르다. Godot은 오픈소스 엔진이 어떤 기여를 받아들일지의 문제다. Anthropic은 프런티어 모델을 누가 어떤 안전장치 아래 쓸 수 있는지의 문제다.
연구는 첫 패치 이후의 에이전트 작업을 측정하고 있다
The Shift to Agentic AI 논문은 Codex 사용 데이터를 바탕으로 2026년 상반기 에이전트 도구가 작업 방식을 어떻게 바꿨는지 설명한다. 핵심 결과는 성장과 불균등한 채택이다. 이 기간 Codex 활성 사용자는 5배 넘게 늘었고, 초기 소프트웨어 개발자층 바깥으로도 사용이 퍼졌다.
그 규모 옆에는 유지보수 증거가 있다. To What Extent Does Agent-generated Code Require Maintenance? 논문은 100개 저장소에서 1,000개 넘는 파일과 약 3,200개 변경을 분석했다. AI 생성 파일은 사람이 작성한 파일보다 유지보수 빈도가 낮고, 이후 유지보수 대부분은 사람이 수행한다고 보고한다.
The Quiet Contributions 논문은 대화나 설명이 거의 없이 제출된 AI 생성 풀 리퀘스트를 본다. Comparing AI Coding Agents 논문은 Codex, GitHub Copilot, Devin, Cursor, Claude Code의 풀 리퀘스트 7,156개를 분석하고, 작업 종류가 중요하다고 보고한다. 문서 작업의 수락률은 새 기능보다 높았다.
게임 팀이 에이전트를 쓸 때 볼 신호는 분명하다. 생성된 코드는 오늘 컴파일되는지만 볼 일이 아니다. 게임 루프, 에셋 참조, 에디터 상태, 런타임 부작용이 있는 프로젝트 안에서 이해 가능하고, 리뷰 가능하고, 나중에 고칠 수 있는지도 봐야 한다.
게임 생성 벤치마크
프로젝트 단위 엔진 테스트가 더 어려워지고 있다
JAMER는 오늘 연구 묶음에서 가장 새로운 게임 엔진 벤치마크다. 이 연구는 Godot 프로젝트에서 JamSet과 JamBench를 만들고, 24만 개가 넘는 저장소에서 검증된 프로젝트 8,133개를 걸러냈으며, 수동 검증 프로젝트 300개를 벤치마크로 사용한다. 논문은 규모가 커질수록 문제가 커진다고 보고한다. 한 과제 설정에서 런타임 통과율은 작은 프로젝트의 80.4%에서 큰 프로젝트의 5.7%로 떨어졌다.
중요한 부분은 실패 방식이다. JAMER는 코드 에이전트가 컴파일률은 높이지만 런타임 동작 품질은 높이지 못한다고 보고한다. 이것은 AI 생성 게임 시스템이 계속 부딪히는 간격이다. 프로젝트가 빌드돼도 게임으로는 실패할 수 있다.
GameCraft-Bench는 15개 게임군에 걸친 Godot 과제 140개를 테스트하고, 가장 강한 평가 대상 에이전트가 41.46%에 도달했다고 보고한다. WebGameBench는 브라우저 네이티브 게임을 사용해 실행된 앱을 excellent, usable, unusable로 나누며, 가장 좋은 구성은 usable 76.9%에 도달했지만 excellent는 20.2%에 그쳤다.
OpenGame은 웹 게임 생성을 위한 에이전트 프레임워크와 OpenGame-Bench를 제안한다. 빌드 상태, 시각적 사용성, 의도 정렬을 헤드리스 브라우저 실행과 시각언어모델 판정으로 본다. MUSE는 게임 벤치마크는 아니지만, 생성 게임이 장면의 나머지 부분을 보존하면서 국소 편집을 해야 한다는 점에서 관련이 있다.
Executable World Models for ARC-AGI-3는 빌드가 아니라 플레이 쪽에서 본다. 이 연구는 25개 공개 ARC-AGI-3 게임에서 실행 가능한 Python 월드 모델을 쓰는 에이전트를 보고했고, 7개 게임을 완전히 풀었으며 게임별 평균 Relative Human Action Efficiency는 32.58%였다고 밝혔다.
연구 묶음이 가리키는 평가 표면은 구체적이다. 빌드된 결과물, 런타임 동작, 보존된 상태, 시각 피드백, 플레이어에 가까운 평가다. 저장소, 프롬프트, 생성된 스크린샷만으로는 플레이 가능한 게임의 증거가 부족하다.
시장 맥락
어제 다룬 Financial Times의 출시량 보도는 오늘 첫머리가 아니라 배경으로 유용하다. FT는 ATTN Economy를 인용해 2026년 5월까지 6개월 동안 게임 18만 1,000개가 출시됐다고 전했고, 매출과 다운로드는 여전히 대형 퍼블리셔에 집중됐다고 보도했다.
Axios의 General Intuition 투자 보도도 배경 신호다. 게임 콘텐츠를 AI 학습에 쓰는 연구소가 3억 2,000만 달러를 조달했다. 게임이 AI 학습과 월드 모델 재료로 계속 투자자의 관심을 받는다는 뜻이다. 다만 이것은 스타트업과 투자 소식이지, 생성 게임이 해결됐다는 증거는 아니다.
연결 지점은 좁게 보면 충분하다. 더 많은 도구, 더 많은 투자, 더 많은 생성 실험이 나오는 동시에 엔진 유지관리자, 스토어 사용자, 벤치마크 저자는 책임과 런타임 증거를 요구하고 있다.
다음에 볼 것
- Godot의 최종 기여자 규칙이 엔진 코드에서 어느 정도의 공개된 AI 보조 사용을 허용하는지.
- 다른 오픈소스 게임 엔진, 플러그인, 에셋 파이프라인도 비슷한 사람 책임 기준을 채택하는지.
- Steam 공개 표시 도구가 단순한 스토어 페이지 안내를 넘어 플레이어 필터가 되는지.
- 복구된 Anthropic Fable 5 접근이 안정적으로 유지되는지, 아니면 안전 라우팅과 정부 검토에 따라 다시 바뀌는지.
- 코딩 에이전트 연구가 일반 소프트웨어 저장소와 게임 프로젝트를 분리해 보기 시작하는지.
- JAMER, GameCraft-Bench, WebGameBench, OpenGame이 소스 코드 점수뿐 아니라 플레이 가능한 빌드를 포함한 재현 가능한 리더보드를 내놓는지.
이 한국어 기사는 영어 원문을 번역한 것이며, 번역 과정에서 오류가 있을 수 있습니다. 이 글은 Wonder Bricks AI Agent의 도움을 받아 작성했으며 SunnyLabs가 편집했습니다.