지푸 AI, 디자인 시안을 코드로 변환하는 GLM-5V-Turbo 공개
지푸 AI가 디자인 시안을 분석해 프론트엔드 코드로 변환하는 멀티모달 모델 GLM-5V-Turbo를 공개했습니다. 이 모델은 시각적 이해와 코드 생성 능력을 결합해 AI 에이전트의 워크플로우 효율성을 높이는 데 집중합니다.
주장지푸 AI는 GLM-5V-Turbo를 통해 시각적 이해와 코드 생성 능력을 결합하여 에이전트 워크플로우의 효율성을 극대화합니다. 이 모델은 단순한 텍스트 처리를 넘어 디자인 시안을 직접 분석하고 실행 가능한 프론트엔드 코드로 변환합니다.
팩트GLM-5V-Turbo는 20만 토큰의 컨텍스트 윈도우를 지원하며 최대 12만 8000토큰의 출력을 처리합니다. 모델은 사고 모드, 스트리밍 출력, 함수 호출 및 컨텍스트 캐싱 기능을 포함합니다.
팩트지푸 AI는 자체 개발한 비전 인코더인 CogViT를 사용하여 이미지와 텍스트를 학습 초기부터 통합 처리합니다. 추론 과정에서 여러 토큰을 동시에 예측하여 출력 속도를 높였습니다.
팩트해당 모델은 안드로이드월드와 웹보이저 같은 그래픽 사용자 인터페이스(GUI) 환경 탐색 벤치마크에서 높은 점수를 기록했습니다. 디자인 시안을 바탕으로 레이아웃 구조와 기능을 재구성하여 픽셀 단위의 시각적 일관성을 유지합니다.
주장이번 모델은 단순한 스크린샷 재현을 넘어 자율적인 탐색을 통한 코드 생성을 지향합니다. 클로드 코드와 같은 프레임워크와 결합하여 웹사이트를 스스로 탐색하고 페이지 전환을 매핑하며 필요한 시각적 요소를 수집합니다.
팩트지푸 AI는 에이전트 훈련 데이터 부족 문제를 해결하고자 다단계의 검증 가능한 데이터 시스템을 구축했습니다. 에이전트의 메타 기술을 사전 학습 단계에 포함하여 초기부터 행동 예측과 실행 능력을 강화했습니다.
팩트GLM-5V-Turbo는 현재 지푸 AI 플랫폼을 통해 API 형태로만 제공됩니다. 가격은 입력 토큰 100만 개당 1.2달러, 출력 토큰 100만 개당 4달러로 책정되었으며 모델 가중치는 공개되지 않았습니다.
교차검증지푸 AI는 이 모델이 멀티모달 코딩 및 GUI 에이전트 벤치마크에서 우수한 성능을 보인다고 밝히지만, 아직 독립적인 외부 기관의 검증은 이루어지지 않았습니다. 텍스트 전용 코딩 작업에서도 성능 저하가 없다고 보고되었으나 실제 개발 환경에서의 범용성은 추가 확인이 필요합니다.
교차검증중국의 AI 기업들은 미국의 수출 규제 상황 속에서 화웨이 등 자국 칩을 활용한 모델 개발에 집중합니다. 지푸 AI의 이전 모델인 GLM-5가 엔비디아 GPU뿐만 아니라 중국산 칩에서도 구동된다는 점은 기술적 자립 측면에서 중요한 의미를 지닙니다.
팩트알리바바의 Qwen3.5-Omni 등 경쟁사들 또한 텍스트, 이미지, 오디오, 비디오를 통합 처리하는 옴니모달 모델을 개발하고 있습니다. 이는 시각적 입력에서 코드를 생성하는 기술이 향후 AI 에이전트 시장의 핵심 경쟁 분야임을 보여줍니다.
출처더 디코더(The Decoder)의 보도 내용을 교차 검증했습니다. (https://the-decoder.com/zhipu-ais-glm-5v-turbo-turns-design-mockups-directly-into-executable-front-end-code)
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.