Sakana AI의 Fugu 출시는 일반적인 모델 공개와 출발점이 다르다. 회사는 개발자에게 하나의 거대한 모델만 믿으라고 말하지 않는다. 대신 어떤 모델이 요청을 처리할지, 모델들이 어떻게 대화할지, 결과를 언제 검증하고 합칠지를 결정하는 오케스트레이터를 제품으로 내놨다.
도쿄에 기반을 둔 Sakana AI는 6월 22일 Fugu와 Fugu Ultra를 공개했다. 둘 다 하나의 OpenAI 호환 API로 접근하지만, 내부에서는 LLM 에이전트 풀을 호출하고 자기 자신을 다시 호출할 수도 있다고 회사는 설명한다. 겉으로는 하나의 모델을 부르는 경험이다. 안쪽의 주장은 더 크다. 학습된 모델이 요청마다 에이전트 작업 구조를 설계한다는 것이다.
이 점은 AI 생성 게임에서 중요하다. 어려운 부분은 첫 번째 그럴듯한 답변이 아니다. 게임 제작 시스템은 계획을 세우고, 코드를 쓰고, 도구를 실행하고, 오류를 읽고, 상태를 보존하고, 동작을 검증하고, 설계를 잃지 않은 채 산출물을 고쳐야 한다. Fugu가 의미 있으려면 한 번에 완성 게임을 만든다는 주장보다 그 루프를 더 잘 돌리는지가 중요하다.
Fugu는 Sakana의 기존 연구 방향과도 이어진다. Sakana는 앞서 연구 일부를 자동화하려는 AI Scientist 작업을 공개했고, 이후 외부 평가들은 그런 시스템이 참신성, 판단, 평가 품질에서 여전히 한계를 보인다고 지적했다. Fugu는 그 야심을 제품 인터페이스 쪽으로 옮긴다. 데모로서의 “자율 과학자”보다 API로 쓰는 “학습된 조율자”에 가깝다.
Sakana는 Fugu를 모델 전문화와 단일 벤더 의존에 대한 대응으로 설명한다. 공개 글은 Anthropic이 6월 12일 미국 정부의 수출 통제 지시에 따라 Fable 5와 Mythos 5 접근을 모든 고객에게 중단해야 했다고 밝힌 일을 언급한다. Sakana의 논리는 교체 가능한 에이전트 풀이 특정 제공자의 접근 제한을 우회하고, 프런티어급 성능에 더 탄력적으로 접근하는 경로가 될 수 있다는 것이다.
제품은 두 가지다. Fugu는 일상적인 코딩, 코드 리뷰, 채팅, 인터랙티브 작업을 위한 낮은 지연시간 기본 모델이다. 데이터, 개인정보, 컴플라이언스 요구에 맞춰 특정 에이전트를 풀에서 제외할 수도 있다. Fugu Ultra는 더 무거운 모델이다. Sakana는 더 깊은 전문가 풀을 조율해 연구, 논문 재현, 사이버보안 분석, 특허 조사처럼 답변 품질이 응답 시간보다 중요한 작업을 겨냥한다고 설명한다.
기술 리포트는 이 구분 뒤에 두 가지 연구 흐름이 있다고 설명한다. Fugu는 작은 언어 모델 백본과 가벼운 선택 헤드가 작업자를 고르는 Trinity 계열을 바탕으로 한다. Fugu Ultra는 Conductor 계열이다. 언어 모델이 자연어로 작업 흐름을 작성하고, 각 하위 작업을 담당할 작업자와 볼 수 있는 맥락을 정한 뒤 결과를 합친다. 리포트는 현재 작업 안에서는 에이전트를 분리해 한 에이전트의 경로가 모두를 끌고 가지 않도록 하고, 여러 턴에 걸친 공유 메모리도 둔다고 설명한다.
벤치마크 표는 강하지만 조심해서 읽어야 한다. Sakana 리포트에서 Fugu Ultra는 Terminal Bench 2.1 82.1, LiveCodeBench 93.2, LiveCodeBench Pro 90.8, GPQA Diamond 95.5, CharXiv Reasoning 86.6, SWE Bench Pro 73.7을 기록했다. 더 빠른 Fugu도 Terminal Bench 2.1 80.2, LiveCodeBench 92.9처럼 여러 평가에서 근접한 점수를 냈다.
그렇다고 Fugu Ultra가 모든 평가에서 모든 모델을 이겼다는 뜻은 아니다. 같은 표에서 SWE Bench Pro는 Sakana 비교 기준상 Claude Opus 4.8이 Fugu Ultra보다 높고, MRCRv2는 GPT-5.5가 앞선다. SciCode도 Ultra보다 Fugu가 약간 높다. Sakana의 더 흥미로운 주장은 좁다. 코딩, 수학, 과학, 디버깅, 검증 전문가를 언제 쓸지 고르면 많은 작업에서 단일 작업자보다 나은 결과가 나온다는 것이다.
게임 도구 제작자가 볼 만한 부분은 리포트의 예시다. Terminal Bench 작업에서 Sakana는 Fugu가 GPT-5.5를 빌더로, Claude Opus 4.8을 디버거로 번갈아 썼다고 설명한다. 또 다른 예시에서는 Fugu Ultra가 한 모델에 소프트웨어 문제를 이해하게 하고, 다른 모델을 불러 새 시각으로 다시 보게 한 뒤, 두 번째 모델이 클라이언트 쪽 동시성 버그를 찾자 경로를 바꿨다고 한다. 이것이 쓸 만한 게임 생성 루프의 형태다. 만들고, 살피고, 첫 판단을 의심하고, 다시 고친다.
제품 페이지의 CAD 과제도 게임 인접 도구 관점에서 눈에 띈다. Sakana는 모델들에게 카메라 조리개 같은 기계식 아이리스를 CAD로 만들게 했다. 회사 설명에 따르면 Fugu Ultra는 바깥 핀을 중심으로 회전하는 날개와 열고 닫히는 구멍을 만들었고, 다른 모델들은 틈, 약한 연결, 충분히 닫히지 않는 구조를 보였다. 게임 벤치마크는 아니지만, 절차적 소품, 물리 장난감, 상호작용 에셋에서 반복되는 기하와 메커니즘 검사의 사례다.
Sakana는 코드 리뷰, 특허 동향 분석, 논문 재현, 보안 평가에 대한 사용자 반응도 공개했다. 다만 이는 회사가 제공한 사용자 평가이지 독립 검증은 아니다. 제품 신호로는 유용하지만, 일반적인 신뢰성의 증거로 과장해서는 안 된다.
가격과 제어권도 중요하다. 제품 페이지에 따르면 Fugu는 하나의 에이전트만 활성화될 때 해당 기반 모델의 표준 요금으로 과금되고, 여러 에이전트가 활성화돼도 각 모델 비용을 합산하지 않고 관여한 최상위 모델 기준의 단일 요율을 적용한다. Fugu Ultra의 종량제 가격은 100만 토큰당 입력 5달러, 출력 30달러, 캐시 입력 0.50달러다. 272K 토큰을 넘는 컨텍스트에는 더 높은 요율이 붙는다. 구독제는 월 20달러, 100달러, 200달러다.
FAQ에는 중요한 제한도 있다. Fugu Ultra는 전체 에이전트 풀을 써야 성능을 낸다는 이유로 특정 모델 제외를 지원하지 않는다. Fugu는 콘솔에서 제외 설정을 제공한다. Sakana는 고객이 학습 데이터 사용을 거부할 수 있다고 설명하지만, 어떤 모델을 어떻게 골랐는지에 관한 라우팅 정보는 독자 기술이라는 이유로 공개하지 않는다. 일본 밖에서도 쓸 수 있지만, EU와 EEA 회원국에는 서비스를 제공하지 않는다고 밝힌다.
금융권 사례도 정확히 써야 한다. Sakana는 Fugu 자료에서 금융 시계열 예측 같은 금융형 작업을 예시로 들고, 과거 공개 보도에는 일본 은행들이 Sakana 투자자로 등장한다. 하지만 이 기사 작성 과정에서 검토한 공개 자료에는 MUFG나 SMBC가 Fugu 자체를 문서 분석 업무에 도입했다는 근거가 없었다. 출처 없이 단정해서는 안 된다.
AI 게임 관점의 한계는 분명하다. Fugu는 게임 생성 시스템의 모델 계층을 개선할 수 있지만, 런타임 증거 계층을 대체하지 않는다. 주변 도구가 플레이 가능한 빌드, 로그, 스크린샷, 리플레이 기록, 에셋 경계, 조작 반응, 성능 예산을 보여주지 못한다면 오케스트레이터도 약한 신호 위에서 추론하게 된다.
그래서 Fugu는 방향을 보여주는 표식으로 읽는 편이 좋다. 경쟁은 원시 모델 점수에서 어떤 모델이 행동하고, 어떤 모델이 검증하고, 소프트웨어 루프를 얼마나 오래 개선할 수 있는지로 옮겨가고 있다. AI 생성 게임에는 또 다른 단일 모델 코딩 점수보다 그 방향이 더 중요하다. 앞으로 중요한 모델은 게임 빌드가 실제로 플레이될 때까지 작업을 이어갈 수 있는 모델일 것이다.
이 한국어 기사는 영어 원문을 번역한 것이며, 번역 과정에서 오류가 있을 수 있습니다. 이 글은 Wonder Bricks AI Agent의 도움을 받아 작성했으며 SunnyLabs가 편집했습니다.