Z.ai의 GLM-5, 코딩 모델 경쟁을 장시간 에이전트 작업으로 옮기다

Z.ai의 GLM-5 출시는 코딩 답변을 더 잘하는 챗 모델을 하나 더 내놓은 정도로 보기는 어렵다. 회사는 이 모델을 “agentic engineering”을 위한 모델로 설명한다. 계획을 세우고, 코드를 고치고, 도구를 실행하고, 실패 결과를 읽고, 다시 시도하는 소프트웨어 작업을 오래 이어가는 능력을 강조한 것이다.

이 차이는 AI 생성 게임에서 특히 중요하다. 플레이 가능한 게임은 코드 답변 하나로 끝나지 않는다. 요구사항, 에셋, 런타임 제약, 입력 처리, 빌드 오류, 브라우저 동작, 성능, 플레이어 피드백이 계속 맞물린다. AI가 실제로 놀 수 있는 게임을 만드는 데 도움을 주려면, 자동완성보다 작업을 오래 붙잡는 주니어 엔지니어 시스템에 가까워져야 한다.

Z.ai에 따르면 GLM-5는 GLM-4.5의 355B 전체 파라미터와 32B 활성 파라미터에서 744B 전체 파라미터와 40B 활성 파라미터로 커졌다. 문서 기준 컨텍스트 길이는 200K 토큰, 최대 출력은 128K 토큰이다. 회사는 DeepSeek Sparse Attention을 적용해 긴 컨텍스트 성능을 유지하면서 배포 비용을 낮추려 했다고 설명한다.

모델 논문은 학습 방식의 변화도 함께 설명한다. GLM-5 팀은 비동기 강화학습 인프라와 에이전트 강화학습 방식을 도입해 장시간 상호작용에서 모델이 더 잘 학습하도록 했다고 밝혔다. 쉽게 말하면 그럴듯한 다음 한 단계를 내놓는 데서 멈추지 않고, 여러 단계를 거치며 결과를 계속 개선하도록 훈련하려는 시도다.

후속 모델인 GLM-5.1은 지속 실행 능력을 더 직접적으로 내세운다. Z.ai는 GLM-5.1이 하나의 작업을 최대 8시간까지 자율적으로 수행하며 계획, 실행, 테스트, 수정, 결과물 전달까지 이어갈 수 있다고 설명한다. 또한 저장소 생성, 터미널 작업, 장시간 개발 워크플로에서 GLM-5보다 개선됐다고 주장한다.

벤치마크 수치는 조심해서 읽어야 한다. Z.ai는 GLM-5가 SWE-bench Verified에서 77.8, Terminal-Bench 2.0에서 56.2를 기록했다고 밝힌다. GLM-5.1 자료에는 SWE-Bench Pro 58.4, NL2Repo 42.7, Terminal-Bench 2.0 Terminus-2 설정 63.5가 제시돼 있다. 다만 이 수치들은 서로 다른 과제 설계, 에이전트 실행 환경, 비교 조건을 가진 벤치마크의 회사 발표치다. 모델의 방향을 보여주는 신호로는 유용하지만, 어떤 모델이든 실제 게임 프로젝트를 끝까지 맡길 수 있다는 증거는 아니다.

접근성도 눈에 띈다. GLM-5와 GLM-5.1은 Hugging Face에서 MIT 라이선스 오픈웨이트 모델로 제공된다. 프로젝트 저장소에는 BF16과 FP8 변형도 정리돼 있다. Z.ai 문서는 glm-5와 glm-5.1 API 호출 예시를 제공하고, 가격표에는 GLM-5가 100만 입력 토큰당 1달러, 출력 토큰당 3.2달러로, GLM-5.1은 입력 1.4달러, 출력 4.4달러로 적혀 있다.

게임 생성 팀에게 당장 중요한 질문은 GLM-5가 프롬프트 하나로 플랫폼 게임을 만들 수 있느냐가 아니다. 여러 프런티어 코딩 모델은 이미 첫 플레이 가능한 초안을 만들 수 있다. 더 중요한 검증은 실패한 빌드를 읽고, 브라우저 콘솔 오류를 이해하고, 프로젝트 구조를 보존하고, 조작감을 깨뜨리지 않으면서 충돌 처리를 고치고, 여러 차례 수정 과정에서도 설계 목표를 잃지 않는지다.

그 지점에서 GLM-5의 포지셔닝은 흥미롭다. 핵심 주장은 새로운 미디어 생성 능력이 아니라 더 긴 소프트웨어 작업 루프다. AI 게임 시스템에는 점점 이런 루프가 필요하다. 아이디어를 만들고, 빌드하고, 실행하고, 실패를 관찰하고, 수정하고, 결과물을 다시 편집 가능한 상태로 남기는 과정이다.

오픈웨이트 공개는 자체 배포를 원하는 팀에도 의미가 있다. GLM-5 계열은 vLLM, SGLang, xLLM, KTransformers, Transformers를 통한 로컬 서빙 경로가 문서화돼 있다. 다만 744B 파라미터급 혼합 전문가 모델은 가볍게 노트북에 내려받아 돌리는 모델이 아니라, 여전히 만만치 않은 인프라를 요구한다.

한계도 분명하다. 에이전트형 엔지니어링이 게임에 도움이 되려면 주변 도구가 올바른 정보를 모델에 제공해야 한다. 자동 플레이테스트, 런타임 로그, 스크린샷 비교, 에셋 검증, 멀티플레이 가정, 안전성 점검, 성능 예산 같은 신호가 필요하다. 모델이 더 오래 코딩할 수 있어도, 시스템이 부실한 피드백만 제공하면 게임을 제대로 검증하기 어렵다.

그래서 GLM-5는 단일 모델 출시라기보다 코딩 모델 경쟁이 어디로 향하는지를 보여주는 표식에 가깝다. 질문은 이제 “코드를 쓸 수 있나?”에서 “소프트웨어가 실제로 동작할 때까지 계속 작업할 수 있나?”로 이동하고 있다. AI 생성 게임에는 바로 그 질문이 중요하다.

이 한국어 기사는 영어 원문을 번역한 것이며, 번역 과정에서 오류가 있을 수 있습니다. 이 글은 Wonder Bricks AI Agent의 도움을 받아 작성했으며 SunnyLabs가 편집했습니다.