기술

General Intuition은 게임 클립으로 AI의 행동을 가르치려 한다

General Intuition은 행동 정보가 붙은 게임플레이 영상을 action model과 world model 학습에 쓰려 한다. 게임 데이터가 AI 시스템에 예측, 선택, 테스트 능력을 줄 수 있다는 기술적 베팅이다.

Wonder News Editorial 2026년 6월 27일

General Intuition월드 모델AI 게임게임 데이터AI 에이전트

흰 배경에 놓인 Atari 2600 조이스틱. 행동 정보가 붙은 게임 입력과 월드 모델 연구를 상징한다. — Atari 2600 조이스틱. General Intuition이 인용한 이전 월드 모델 연구는 Atari 환경을 핵심 실험대로 삼았다. 사진: Evan-Amos / Wikimedia Commons / 퍼블릭 도메인; 16:9 비율로 리사이즈 및 패딩

General Intuition은 또 하나의 게임 생성기를 내세우는 회사가 아니다. 이 회사의 주장은 더 좁고, 그래서 더 중요하다. 행동 정보가 붙은 게임플레이 영상으로, 장면을 설명하는 데 그치지 않고 세계 안에서 어떻게 행동할지 배우는 AI를 만들겠다는 것이다.

회사는 가상·물리 환경에서 지각하고 예측하고 행동하는 “새로운 종류의 모델”을 만들기 위해 3억 2천만 달러 Series A 투자를 유치했다고 밝혔다. 공식 사이트는 General Intuition을 “공간과 시간 안에서 행동하는” 프런티어 연구소로 설명한다. 게임, 시뮬레이션, 로보틱스 분야의 첫 파트너들이 이미 commercial API를 쓰기 시작했고, 더 넓은 모델 공개 전까지 일부 회사와 선별적으로 협업한다고도 말한다.

이 회사가 공개 게임 제작 제품을 내놓기 전부터 AI 생성 게임과 연결되는 이유가 여기에 있다. 모델이 장면이 어떻게 보이는지만이 아니라 행동이 장면을 어떻게 바꾸는지 배운다면, 많은 생성형 게임 데모가 놓치는 부분에 가까워진다. 첫 장면은 그럴듯하지만, 조작 가능한 행동이 오래 버티지 못하는 문제다.

제품은 소비자용 게임이 아니라 API다

General Intuition의 현재 공개 제품 표면은 파트너 접근이다. 회사는 기술 수요가 있는 파트너에게 연락하라고 안내하며, 더 넓은 공개 전에 몇몇 회사와 commercial API를 통해 협업한다고 설명한다. 첫 영역으로는 게임, 시뮬레이션, 로보틱스를 든다.

이는 프롬프트를 넣으면 플레이 가능한 게임을 바로 내놓는 웹 도구와 다르다. General Intuition은 이미 환경, 에이전트, 시뮬레이터, 게임 시스템을 가진 팀에 모델 능력을 제공하려 한다. 초기 이용자는 일반 창작자보다, 행동 예측을 기존 기술 스택에 붙일 수 있는 회사일 가능성이 높다.

소비자 데이터 기반도 있다. General Intuition은 Pim de Witte의 게임 클립 플랫폼 Medal을 바탕으로 한다. 공식 사이트는 Medal을 세계 최대이자 가장 빠르게 성장하는 gamer moments 플랫폼이라고 부르고, 플레이어들이 매년 수십억 개 게임플레이 클립을 올린다고 설명한다. The Verge는 앞선 보도에서 Medal이 수만 개 게임에서 연간 약 20억 개 비디오 업로드를 받는다고 전했다.

모델 개발자에게 특이한 자산은 영상의 양만이 아니다. 게임플레이 장면, 게임 맥락, 행동 정보가 함께 있다는 점이다. 플레이어가 피하고, 조준하고, 아이템을 줍고, 점프하고, 실패하는 클립은 모델이 무엇이 일어났는지를 플레이어가 무엇을 했는지와 연결할 수 있을 때 더 많은 정보를 준다.

Action model과 world model은 역할이 다르다

General Intuition은 공개 기술 방향을 두 갈래로 설명한다. Action model은 어떤 행동을 할지 결정한다. World model은 그 행동의 결과를 예측한다. 회사는 여러 환경의 행동 정보가 붙은 고유 영상 데이터셋에서 모델이 배운다고 말한다.

이 구분은 중요하다. 행동 제어가 없는 월드 모델은 그럴듯한 영상을 만들 수 있어도 게임 시스템으로는 실패할 수 있다. 신뢰할 수 있는 월드 모델이 없는 action model은 결과를 충분히 이해하지 못한 채 행동을 고를 수 있다. 쓸 만한 게임 에이전트에는 둘 다 필요하다. 다음에 무슨 일이 일어날지 상상하는 능력과, 무엇을 할지 고르는 정책이 함께 있어야 한다.

회사 설명은 이를 놀이의 언어로 풀어낸다. 언어, 이미지, 영상 모델은 의도와 행동과 결과를 통해 배우는 시스템에 비하면 여전히 “책으로 배운” 지능에 가깝다는 주장이다. 이 표현은 마케팅이지만 기술적 요지는 있다. 게임은 목표, 실패, 보상, 타이밍, 공간 배치, 플레이어 입력을 대규모로 함께 볼 수 있는 반복 가능한 환경이다.

어려운 점은 게임 클립이 지저분하다는 것이다. 게임마다 카메라, 인터페이스, 장르, 프레임레이트, 플레이어 실력, 숨겨진 엔진 상태가 다르다. General Intuition의 공개 사이트는 제어 신호를 어떻게 정규화하는지, 클립을 어떻게 걸러내는지, 게임별 입력을 어떻게 매핑하는지, 플레이어 의도와 시각적 잡음을 어떻게 분리하는지 설명하지 않는다. 이런 세부 사항이 이 접근이 견고한 모델이 될지, 큰데 깨지기 쉬운 영상 데이터셋이 될지를 가른다.

이전 연구는 상호작용 가능한 세계를 가리킨다

General Intuition은 이전 연구로 IRIS와 DIAMOND를 함께 제시한다. 이 논문들은 회사 API의 제품 사양은 아니지만, 기술 방향을 이해하는 데 도움이 된다.

IRIS, 즉 “Transformers are Sample-Efficient World Models”는 학습된 월드 모델 안에서 Atari 에이전트를 훈련했다. 논문은 Atari 100k 벤치마크에서 두 시간 분량의 게임플레이에 해당하는 데이터로 평균 인간 정규화 점수 1.046을 냈고, 26개 게임 중 10개에서 인간을 앞섰다고 보고했다.

DIAMOND는 diffusion을 월드 모델링에 썼다. 이 논문은 압축된 이산 latent 표현이 강화학습에 중요한 시각적 세부를 잃을 수 있다고 보고, 월드 모델 안에서만 훈련한 에이전트가 Atari 100k에서 평균 인간 정규화 점수 1.46을 냈다고 보고했다. 저자들은 정적인 Counter-Strike: Global Offensive 게임플레이로 훈련한 diffusion 월드 모델을 상호작용 가능한 neural game engine처럼 시연하기도 했다.

이 결과들이 General Intuition의 새 상용 모델이 잘 작동한다는 증거는 아니다. 대신 계보를 보여준다. 환경을 학습하고, 에이전트가 그 안에서 가능성을 시험하게 하고, 시각적·시간적 충실도를 훈련 루프의 일부로 쓰는 흐름이다. 게임에서는 “그럴듯한 스크린샷을 그릴 수 있는가”보다 “플레이 가능한 상태를 일관되게 유지할 수 있는가”에 더 가깝다.

게임 데이터가 매력적인 이유

게임은 일반 웹 영상에 없는 것을 제공한다. 규칙, 컨트롤러, 목표, 실패, 반복 루프, 밀도 높은 인간 행동이 압축된 세계 안에 들어 있다. 플레이어가 하이라이트, 튜토리얼, 스피드런, 실패 장면, 경쟁 플레이, 이상한 엣지 케이스를 계속 클립으로 남기기 때문에 기록된 플레이도 많다.

그래서 게임 데이터는 게임 제작 외에도 쓸모가 있을 수 있다. General Intuition의 목표는 물리 환경까지 포함하고, 회사는 로보틱스를 파트너 분야로 직접 언급한다. 가상 행동 학습이 공간과 시간 안에서 계획해야 하는 시스템에 도움이 될 수 있다는 생각이다.

물론 전이가 자동으로 일어나지는 않는다. 1인칭 슈팅 게임 클립이 로봇 팔에 컵 잡는 법을 바로 가르치지는 않는다. 하지만 모델 개발자들은 중간 능력을 본다. 시간적 예측, 물체 지속성, 이동, 결과 모델링, 부분 관찰 아래의 제어, 불확실성 속 행동 선택 같은 능력이다. 게임은 물리 세계 데이터 수집보다 싸고 다양하며 기록이 잘 남는다.

AI 게임 제작자에게는 반대 방향의 의미도 있다. 게임 클립으로 훈련한 월드 모델이 게임 같은 결과를 잘 예측한다면, NPC 계획, 자동 플레이테스트, 애니메이션 계획, 레벨 시뮬레이션, 튜토리얼 에이전트, 생성된 메커니즘이 의도대로 작동하는지 확인하는 창작 도구에 쓰일 수 있다.

한계는 연구 문제가 아니라 제품 문제이기도 하다

General Intuition의 공개 사이트에는 상용 모델의 공개 벤치마크가 없다. API 가격, 지연시간, 지원 모달리티, 데이터 보관 조건, 에디터 통합, 파트너 게임의 실제 적용 사례도 공개하지 않았다. 개발자가 모델의 예측 경로, 행동 확신도, 실패 사례를 볼 수 있는지도 말하지 않는다.

이 공백은 게임 도구에서 중요하다. 스튜디오에는 강한 모델만 필요한 것이 아니다. 디버깅 가능한 행동이 필요하다. AI 팀원이 잘못된 전술을 고르거나, 생성 NPC가 막히거나, 자동 플레이테스터가 소프트록을 놓친다면 개발자는 사후 설명이 아니라 확인 가능한 기록을 봐야 한다.

창작자 신뢰 문제도 있다. General Intuition은 창작자와 게임 산업을 대체하지 않고 협업하는 기술을 만들겠다고 말한다. 맞는 방향의 주장이다. 하지만 증명은 제어권에서 나온다. 데이터 사용 동의 방식, 파트너 계약, 게임플레이 클립의 권리 처리, 그리고 도구가 창작자의 판단을 대체하지 않고 더 강하게 만드는지다.

이 회사는 붐비는 월드 모델 경쟁 안에도 있다. DeepMind의 Genie 계열, Runway식 비디오 모델, 로보틱스 월드 모델, 게임 생성 논문, 에이전트 코딩 시스템이 모두 상호작용 예측을 향해 움직인다. General Intuition의 차별점은 게임 데이터라는 진입점과 Medal 기반 파이프라인이다.

다음에 볼 것

다음 이정표는 General Intuition이 인상적인 영상 데모를 내는지가 아니다. API가 파트너에게 유용한 모델 행동을 얼마나 드러내는지다. 예측 결과, 행동 선택, 불확실성, 제어 가능한 롤아웃, 게임 엔진이나 시뮬레이터 통합이 핵심이다.

Wonder News 관점에서 가장 중요한 증거는 게임에 가까운 사례다. 개발자가 이 시스템으로 NPC 정책을 테스트하거나, 생성된 레벨을 시뮬레이션하거나, 플레이어 움직임을 예측하거나, 출시 전 깨진 메커니즘을 잡을 수 있는가. 짧은 클립을 넘어 조작과 규칙을 유지할 수 있는가.

그 답이 공개되기 전까지 General Intuition은 완성된 AI 게임 제품이 아니라 진지한 인프라 베팅으로 읽어야 한다. 그래도 핵심 통찰은 볼 만하다. AI가 행동을 이해해야 한다면, 게임은 가장 풍부한 훈련장 중 하나일 수 있다.

이 한국어 기사는 영어 원문을 번역한 것이며, 번역 과정에서 오류가 있을 수 있습니다. 이 글은 Wonder Bricks AI Agent의 도움을 받아 작성했으며 SunnyLabs가 편집했습니다.

핵심 요약

General Intuition은 가상·물리 환경에서 지각하고 예측하고 행동하는 모델을 만들기 위해 3억 2천만 달러 Series A 투자를 유치했다고 밝혔다.
회사는 여러 환경의 행동 정보가 붙은 영상 데이터셋에서 모델이 배운다고 설명하며, Medal의 플레이어들이 매년 수십억 개 게임플레이 클립을 올린다고 말한다.
공개된 기술 설명은 무엇을 할지 결정하는 action model과, 행동의 결과를 예측하는 world model로 나뉜다.
General Intuition은 게임, 시뮬레이션, 로보틱스 분야의 첫 파트너들이 commercial API를 쓰기 시작했고, 더 넓은 공개 전까지 일부 회사와 선별적으로 협업한다고 밝혔다.
회사가 인용한 IRIS와 DIAMOND 같은 이전 연구는 게임형 월드 모델에서 시각적 세부, 장기 예측, 상호작용 가능성이 왜 중요한지 보여준다.