MARKETS
KOSPI
KOSDAQ
S&P 500
NASDAQ
USD/KRW
BTC
NIKKEI
WTI
KOSPI
KOSDAQ
S&P 500
NASDAQ
USD/KRW
BTC
NIKKEI
WTI
Wittgenhaus

2026년 5월 25일 월요일

AI 시대, 당신을 더욱 스마트하게

AI검증

바이트댄스, 멀티모달 AI 긴 문맥 학습 효율화 전략 발표

바이트댄스 연구진이 멀티모달 인공지능 모델의 긴 문서 처리 능력을 높이는 새로운 학습 방식을 공개했습니다. 텍스트 전사 대신 질문과 답변 쌍을 활용해 모델의 정보 탐색 역량을 극대화하는 것이 핵심입니다.

2026년 5월 24일

주장바이트댄스 연구진은 멀티모달 인공지능 모델이 긴 문서를 처리하도록 학습할 때, 단순 텍스트 전사보다 질문과 답변 쌍을 활용하는 방식이 훨씬 효과적이라고 분석합니다. 이 방식은 모델이 정보를 단순히 읽는 단계를 넘어, 특정 목적에 따라 정보를 탐색하고 분류하는 능력을 함양하게 합니다.

팩트바이트댄스 시드와 홍콩과학기술대학교 연구진은 알리바바의 큐웬2.5-VL을 기반으로 한 엠엠프로롱 모델을 개발했습니다. 해당 모델은 12만8000 토큰으로 학습했음에도 25만6000 및 51만2000 토큰 길이의 입력에서 안정적인 성능을 유지했습니다.

교차검증기존 텍스트 전사 방식은 오히려 모델의 성능을 초기 상태보다 악화하는 결과를 초래했습니다. 반면 질문-답변 방식은 모델이 긴 문맥 속에서 관련 정보를 찾아내는 능력을 명확하게 향상했습니다.

팩트실험 결과, 긴 문맥 처리 능력은 특정 길이에 고정된 기술이 아니라 다양한 거리의 정보를 유연하게 탐색하는 역량임이 확인되었습니다. 연구진은 매우 긴 문서만 학습하는 것보다 짧은 문서와 긴 문서를 적절히 혼합하는 방식이 더 신뢰할 수 있는 결과를 낸다고 설명합니다.

주장연구진은 인공지능 모델의 긴 문맥 처리에서 가장 큰 병목 현상이 추론 능력이 아닌 관련 구절을 찾아내는 탐색 능력이라고 지적합니다. 따라서 모델 학습 시 계산 작업보다 정보 추출 작업의 비중을 높이는 전략이 최상의 결과를 도출합니다.

팩트엠엠프로롱 모델은 인터널브이엘3-38비와 젬마3-27비 등 규모가 큰 오픈 모델보다 우수한 성능을 보였습니다. 이러한 학습 방식은 모델이 훈련받지 않은 긴 영상 이해와 같은 새로운 작업에도 효과적으로 전이되었습니다.

교차검증이번 연구는 텍스트 전용 언어 모델의 일반적인 관행과 차별화된 결과를 보여줍니다. 긴 질문-답변 데이터로만 학습해도 모델은 기존의 짧은 작업 수행 능력을 대부분 유지하는 것으로 나타났습니다.

주장바이트댄스의 이번 연구는 아키텍처를 복잡하게 수정하는 대신 학습 데이터 구성을 최적화하는 데 집중했다는 점에서 의의가 있습니다. 이는 시각 정보를 압축하고 재정렬하는 딥시크의 방식과 대조적인 접근법입니다.

팩트엠엠프로롱의 학습 전략은 큐웬3-VL-8B와 같이 긴 문맥 처리에 특화된 모델에도 적용 가능합니다. 이는 데이터 최적화가 모델의 규모와 관계없이 보편적인 성능 향상을 이끌어낼 수 있음을 시사합니다.

출처해당 연구 내용은 더 디코더(The Decoder)의 보도를 통해 교차 검증했습니다.

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

버블 지표

상세보기 →

릴리즈 & 논문

전체보기 →

PAPERS