알리바바, 옴니모달 AI 모델 Qwen3.5-Omni 공개
알리바바가 텍스트와 이미지, 오디오, 비디오를 통합 처리하는 옴니모달 인공지능 모델 Qwen3.5-Omni를 발표했습니다. 이 모델은 오디오 이해도 부문에서 구글 제미나이 3.1 프로를 앞서는 성능을 보입니다.
주장알리바바가 새로 선보인 Qwen3.5-Omni는 텍스트와 이미지, 오디오, 비디오를 동시에 처리하는 옴니모달 인공지능 모델입니다. 이 모델은 오디오 작업 분야에서 구글의 제미나이 3.1 프로보다 우수한 성능을 보입니다.
팩트Qwen3.5-Omni는 215개의 오디오 및 시청각 하위 작업에서 최고 수준의 성능을 기록했습니다. 특히 오디오 이해도 부문에서 82.2점을 획득하며 81.1점을 기록한 제미나이 3.1 프로를 앞섰습니다.
팩트이번 모델은 음성 인식 지원 언어를 기존 11개에서 74개로 대폭 확대했습니다. 39개의 중국어 방언을 포함하여 총 113개의 언어 및 방언을 처리하는 능력을 갖췄습니다.
팩트Qwen3.5-Omni는 최대 25만 6000 토큰의 컨텍스트를 처리합니다. 10시간 이상의 오디오와 400초 분량의 720p 비디오를 초당 1프레임으로 처리하는 성능을 보입니다.
주장모델의 핵심 기술인 아리아(ARIA, Adaptive Rate Interleave Alignment)는 실시간 음성 출력의 고질적인 문제를 해결합니다. 텍스트와 음성 토큰을 동적으로 정렬하여 스트리밍 대화 중 발생하는 단어 누락이나 발음 오류를 방지합니다.
팩트연구팀은 모델이 별도의 학습 없이 음성 지시와 비디오 입력만으로 코드를 작성하는 '오디오-비주얼 바이브 코딩' 능력을 발견했습니다. 이는 대규모 멀티모달 학습 과정에서 나타난 창발적 능력으로 평가받습니다.
팩트모델 구조는 씽커-토커(thinker-talker) 설계를 따르며, 하이브리드 어텐션-전문가 혼합(MoE, Mixture of Experts) 아키텍처를 사용합니다. 이는 이전 모델의 순수 전문가 혼합 방식을 대체하여 성능을 개선했습니다.
팩트실시간 대화 기능에는 배경 소음을 구분하는 '의미론적 중단' 기능이 추가되었습니다. 사용자는 대화 도중 음성 명령으로 볼륨과 속도, 감정 등을 실시간으로 조정할 수 있습니다.
교차검증알리바바는 이전 모델들과 달리 Qwen3.5-Omni의 모델 가중치를 공개하지 않았습니다. 현재 이 모델은 응용 프로그램 인터페이스(API) 서비스를 통해서만 접근이 가능하며, 구체적인 라이선스 정보도 아직 발표되지 않았습니다.
교차검증알리바바의 인공지능 개발을 주도하던 준양 린을 포함한 핵심 인력들이 최근 퇴사했습니다. 이러한 내부 인력 이탈은 모델의 향후 개발 속도와 전략에 변수로 작용할 가능성이 있습니다.
출처https://the-decoder.com/qwen3-5-omni-learned-to-write-code-from-spoken-instructions-and-video-without-anyone-training-it-to/
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.