AI검증

알리바바, 옴니모달 AI 모델 Qwen3.5-Omni 공개

알리바바가 텍스트와 이미지, 오디오, 비디오를 통합 처리하는 옴니모달 인공지능 모델 Qwen3.5-Omni를 발표했습니다. 이 모델은 오디오 이해도 부문에서 구글 제미나이 3.1 프로를 앞서는 성능을 보입니다.

2026년 3월 31일

주장알리바바가 새로 선보인 Qwen3.5-Omni는 텍스트와 이미지, 오디오, 비디오를 동시에 처리하는 옴니모달 인공지능 모델입니다. 이 모델은 오디오 작업 분야에서 구글의 제미나이 3.1 프로보다 우수한 성능을 보입니다.

팩트Qwen3.5-Omni는 215개의 오디오 및 시청각 하위 작업에서 최고 수준의 성능을 기록했습니다. 특히 오디오 이해도 부문에서 82.2점을 획득하며 81.1점을 기록한 제미나이 3.1 프로를 앞섰습니다.

팩트이번 모델은 음성 인식 지원 언어를 기존 11개에서 74개로 대폭 확대했습니다. 39개의 중국어 방언을 포함하여 총 113개의 언어 및 방언을 처리하는 능력을 갖췄습니다.

팩트Qwen3.5-Omni는 최대 25만 6000 토큰의 컨텍스트를 처리합니다. 10시간 이상의 오디오와 400초 분량의 720p 비디오를 초당 1프레임으로 처리하는 성능을 보입니다.

주장모델의 핵심 기술인 아리아(ARIA, Adaptive Rate Interleave Alignment)는 실시간 음성 출력의 고질적인 문제를 해결합니다. 텍스트와 음성 토큰을 동적으로 정렬하여 스트리밍 대화 중 발생하는 단어 누락이나 발음 오류를 방지합니다.

팩트연구팀은 모델이 별도의 학습 없이 음성 지시와 비디오 입력만으로 코드를 작성하는 '오디오-비주얼 바이브 코딩' 능력을 발견했습니다. 이는 대규모 멀티모달 학습 과정에서 나타난 창발적 능력으로 평가받습니다.

팩트모델 구조는 씽커-토커(thinker-talker) 설계를 따르며, 하이브리드 어텐션-전문가 혼합(MoE, Mixture of Experts) 아키텍처를 사용합니다. 이는 이전 모델의 순수 전문가 혼합 방식을 대체하여 성능을 개선했습니다.

팩트실시간 대화 기능에는 배경 소음을 구분하는 '의미론적 중단' 기능이 추가되었습니다. 사용자는 대화 도중 음성 명령으로 볼륨과 속도, 감정 등을 실시간으로 조정할 수 있습니다.

교차검증알리바바는 이전 모델들과 달리 Qwen3.5-Omni의 모델 가중치를 공개하지 않았습니다. 현재 이 모델은 응용 프로그램 인터페이스(API) 서비스를 통해서만 접근이 가능하며, 구체적인 라이선스 정보도 아직 발표되지 않았습니다.

교차검증알리바바의 인공지능 개발을 주도하던 준양 린을 포함한 핵심 인력들이 최근 퇴사했습니다. 이러한 내부 인력 이탈은 모델의 향후 개발 속도와 전략에 변수로 작용할 가능성이 있습니다.

출처https://the-decoder.com/qwen3-5-omni-learned-to-write-code-from-spoken-instructions-and-video-without-anyone-training-it-to/

← 목록으로 돌아가기

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

WIRE

글로벌 인텔리전스

전체보기 →

TELEGRAM · Clash Report

Kuwait exported no crude oil in April—the first time since 1991. Production continued, but oil was stored or refined instead, as exports were halted by the Strait of Hormuz blockade. Source: TankerTrackers

2시간 전

TELEGRAM · Clash Report

Zelensky: Our warriors continue enforcing sanctions against Russia’s shadow oil fleet — they struck two such vessels at the entrance to the port of Novorossiysk. These tankers had been actively used to transport oil. Now they won’t be.

2시간 전

TELEGRAM · Clash Report

China’s Ministry of Commerce told Chinese companies: Do NOT comply with U.S. sanctions on certain Chinese oil refiners. The U.S. had sanctioned these firms for buying oil from Iran. China says the sanctions are illegal “extraterritorial” overreach. China is protecting its oil trade with Iran and pushing back against U.S. pressure.

2시간 전

본 페이지의 정보는 공개 채널을 통해 자동 수집되는 정보로 정보의 정확성·완전성을 보장하지 않으며, Wittgenhaus의 공식 입장이 아닙니다. 이를 근거로 한 판단과 행위의 결과에 Wittgenhaus는 책임을 지지 않습니다.

버블 지표

상세보기 →

많이 본 콘텐츠

AI 받아쓰기 앱 8종 기능 및 요금 정책 비교

AI22시간 전

유럽의 기술 주권 이끄는 유망 스타트업 21선 선정

경제22시간 전

미국 정치 양극화와 정보 환경의 위기

국제22시간 전

예멘 해안 유조선 유레카호 피랍 및 소말리아 이동

국제22시간 전

음성·폐 신호 통합 분석 하이브리드 AI 모델 개발

AI22시간 전

릴리즈 & 논문

전체보기 →

RELEASES

vLLMv0.20.1

vLLM v0.20.1

이번 릴리즈는 v0.20.0 버전을 기반으로 하며, DeepSeek V4의 안정성 및 성능 개선에 중점을 두었습니다. 또한 여러 중요한 버그 수정이 포함되었습니다. 주요 변경 사항으로는 DeepSeek V4 모델 지원, 성능 향상을 위한 다양한 최적화, 그리고 CUDA 그래프 및 메모리 관련 버그 수정 등이 있습니다.

9시간 전

LangChainlangchain-openrouter==0.2.3

langchain-openrouter==0.2.3

langchain-openrouter 0.2.3 버전이 출시되었습니다. 스트리밍 시 분할된 `reasoning_details`를 병합하는 버그가 수정되었습니다.

1일 전

LangChainlangchain-mistralai==1.1.3

langchain-mistralai==1.1.3

이번 릴리즈에서는 MistralAI 통합에 대한 기능 개선 및 버그 수정이 포함되었습니다. 주요 변경 사항으로는 휴먼 메시지에 대한 이미지 입력 지원 추가, 모델 프로필 데이터 업데이트, 그리고 `langchain-core`의 최소 버전이 `1.2.21`로 상향 조정되었습니다. 또한, 여러 의존성 패키지가 최신 버전으로 업데이트되었습니다.

1일 전

meta-llama/llama-stackv0.8.0

v0.8.0

이번 릴리즈에서는 Anthropic Messages API를 네이티브로 지원하며, 대화 압축 기능이 추가되었습니다. 또한, 기존 Eval API 및 관련 API가 제거되었고, 문서 전반에 걸쳐 UX 개선 및 최적화가 이루어졌습니다. 보안 취약점 수정 및 CI/CD 파이프라인 개선 작업도 포함되었습니다.

1일 전

LangChainlangchain==1.3.0a1

langchain v1.3.0a1

이번 릴리즈에서는 `create_agent`에 `stream_events` 기능이 추가되었으며, HITL 미들웨어에 `respond` 결정 기능이 포함되었습니다. 또한, 에이전트 상태를 도구 디스패치에 인라인하는 것을 중단하여 성능을 개선했습니다.

1일 전

PAPERS

cs.AI

좋은 터미널 에이전트 벤치마크 과제란 무엇인가: 적대적이고 어렵고 명확한 평가 설계를 위한 가이드라인

3일 전

cs.CV

PRISM: 멀티모달 강화 학습을 위한 블랙박스 온폴리시 증류 기반 사전 정렬

3일 전