AI미검

이미지 생성 효율 10배 높인 GEAR 모델: 알리바바 그룹 등 공동 연구팀 발표

알리바바 그룹을 포함한 공동 연구진이 토크나이저와 생성기를 통합 학습하는 새로운 이미지 합성 프레임워크 GEAR를 공개했습니다. 이 기술은 기존 2단계 학습 방식의 한계를 극복하고 이미지 생성 속도를 10배가량 단축했습니다.

2026년 7월 2일

주장알리바바 그룹(Alibaba Group)을 포함한 다국적 공동 연구진이 이미지 생성 인공지능의 학습 효율을 획기적으로 개선하는 GEAR(Guided End-to-End AutoRegression, 유도형 종단간 자기회귀) 기술을 발표했습니다.

팩트기존 시각 생성 모델은 토크나이저(Tokenizer, 데이터를 압축된 토큰으로 변환하는 장치)를 먼저 학습한 뒤 고정하고, 이후 생성기를 학습하는 2단계 방식을 주로 사용합니다.

팩트이 방식은 토크나이저가 생성기의 학습 난이도를 고려하지 않아 정보 손실이 발생한다는 근본적인 문제를 안고 있습니다.

주장연구진은 GEAR를 통해 토크나이저와 자기회귀(AR, 이전 데이터를 바탕으로 다음 데이터를 예측하는 방식) 생성기를 동시에 학습하는 종단간(End-to-End) 구조를 구현했습니다.

팩트GEAR는 코드북(Codebook, 토큰의 사전) 할당 과정에서 이중 읽기 방식을 도입하여 미분 불가능한 문제를 해결했습니다.

팩트구체적으로 하드(Hard) 브랜치는 자기회귀 모델의 다음 토큰 예측을 담당하고, 소프트(Soft) 브랜치는 표현 정렬 손실(Representation-alignment loss)을 통해 토크나이저를 최적화합니다.

팩트이러한 구조 덕분에 생성기는 자신이 학습하기 쉬운 토큰 분포를 토크나이저가 생성하도록 유도할 수 있습니다.

팩트실험 결과, GEAR는 기존 LlamaGen-REPA 모델 대비 이미지넷(ImageNet) gFID(생성 이미지의 품질을 측정하는 지표) 수렴 속도를 최대 10배까지 단축했습니다.

교차검증본 연구는 아카이브(arxiv)에 공개된 선공개 논문으로, 아직 학계의 공식적인 동료 평가(Peer Review) 과정을 거치지 않았습니다.

교차검증해당 모델은 다양한 양자화기(Quantizer)에서 성능을 입증했으나, 대규모 데이터셋에서의 일반화 가능성이나 특정 도메인 편향성에 대한 추가적인 검증이 필요합니다.

팩트GEAR는 VQVAE, LFQ, IBQ 등 다양한 양자화기 환경에서 일관된 성능 향상을 보였으며, 텍스트 기반 이미지 생성 작업에도 적용 가능합니다.

주장이번 연구는 생성 모델의 학습 패러다임을 분리형에서 통합형으로 전환함으로써 이미지 합성 기술의 새로운 이정표를 제시합니다.

출처arxiv의 선공개 논문(https://arxiv.org/abs/2606.32039)을 참고했습니다.

← 목록으로 돌아가기

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

글로벌 인텔리전스

전체보기 →

TELEGRAM · Clash Report

Cuba's President Miguel Díaz-Canel to Sky News: Elite troops from the American army illegally abducted the president of Venezuela and his wife and extracted them from Venezuela. There were a number of Cubans who were working for the protection of President Maduro. Those Cubans, because of their convictions, they fought those forces. They were outnumbered, they were in a technological disadvantage, and under the surprise of the attack. A military operation designed to take only a few minutes

2시간 전

TELEGRAM · Clash Report

Turkish Foreign Minister Hakan Fidan: While the United States sells vast amounts of weapons and ammunition to many countries that are neither NATO members nor share such extensive strategic interests with the U.S., denying similar sales to Türkiye lacks an explainable rationale from the perspective of the Trump administration.

2시간 전

TELEGRAM · Clash Report

Turkish Foreign Minister Hakan Fidan: There is no issue in U.S.–Türkiye bilateral relations that warrants the two countries being on bad terms.

2시간 전

본 페이지의 정보는 공개 채널을 통해 자동 수집되는 정보로 정보의 정확성·완전성을 보장하지 않으며, Wittgenhaus의 공식 입장이 아닙니다. 이를 근거로 한 판단과 행위의 결과에 Wittgenhaus는 책임을 지지 않습니다.

버블 지표

상세보기 →

많이 본 콘텐츠

메타의 비침습적 뇌-텍스트 변환 인공지능 기술 공개

AI20시간 전

투게더 AI, 8억 달러 투자 유치 및 기업가치 83억 달러 달성

AI20시간 전

데이터브릭스의 대규모 GPU 클러스터 안정성 확보 전략

AI12시간 전

데이터브릭스, dbt 파이프라인 비용 추적 기능 도입

AI12시간 전

기업용 자바 프레임워크 마이그레이션 평가 도구 ScarfBench 공개

AI20시간 전

릴리즈 & 논문

전체보기 →

RELEASES

Anthropicv0.116.0

v0.116.0

이번 릴리즈에서는 `agent-memory-2026-07-22` 베타 API 헤더가 추가되었습니다. 이 변경 사항은 새로운 기능과 관련된 API 지원을 확장합니다.

3시간 전

Anthropicv0.115.1

0.115.1 (20260701) Full Changelog: v0.115.0...v0.115.1(https://github.com/anthropics/anthropicsdkpython/compare/v0.115

1일 전

Anthropicv0.115.0

v0.115.0

이번 릴리즈에서는 Managed Agents 이벤트 델타 스트리밍, 에이전트 재정의, 역방향 페이지네이션, Vault 자격 증명 주입 범위 지정, 에이전트 및 배포 웹훅 이벤트에 대한 지원이 추가되었습니다. API 기능이 전반적으로 향상되었습니다.

2일 전

Anthropicv0.114.0

v0.114.0

이번 릴리즈에서는 claude-sonnet-5 모델에 대한 지원이 추가되었습니다. 또한, agent_toolset에서 작업 디렉토리 내에서 해석되는 절대 경로를 허용하도록 버그가 수정되었습니다.

2일 전

TensorRTv1.3.0rc20

v1.3.0rc20

이번 RC 버전은 TensorRT 백엔드를 지원하는 마지막 버전이며, 다음 버전부터 TensorRT 백엔드가 제거될 예정입니다. DeepSeek V4 준비, MXFP8 가중치 형식 및 CUTLASS W8A8 Linear/MoE 지원, Marlin NVFP4 백엔드 추가 등 다양한 기능이 개선되었습니다. 또한 API 변경 사항으로 `chat_template`이 선택 사항으로 변경되었으며, 여러 버그 수정 및 문서 업데이트가 포함되었습니다.

2일 전

PAPERS

cs.LG

단 한 층으로 충분할까? 단일 Transformer 레이어 학습으로 전체 파라미터 RL 학습 성능 구현하기

1일 전

cs.AI

Theoria: 비형식적 추론 상태에 대한 재작성-수용성 검증

1일 전

cs.CL

Distill to Detect: 카트리지 증류를 통한 LLM의 은밀한 편향 노출

1일 전

cs.CL