AI미검

실시간 시각-언어 상호작용 모델 'JoyAI-VL-Interaction' 공개

사용자의 질문을 기다리지 않고 능동적으로 상황을 판단해 반응하는 실시간 시각-언어 상호작용 모델이 등장했습니다. 연구진은 8B 파라미터 규모의 모델과 이를 구동하는 전체 시스템을 오픈소스로 공개했습니다.

2026년 6월 16일

주장딩위 야오(Dingyu Yao)를 포함한 다국적 연구진은 기존의 수동적인 인공지능 모델을 넘어 인간처럼 실시간으로 상황을 인지하고 반응하는 'JoyAI-VL-Interaction'을 개발했습니다.

팩트기존의 거대 언어 모델은 사용자가 질문을 던져야만 답변하는 방식인 '턴 기반(Turn-based)' 구조에 머물러 있습니다.

주장연구진은 인공지능이 마치 사람처럼 세상에 존재하며 스스로 말할지 침묵할지 결정하는 새로운 상호작용 패러다임을 제시합니다.

팩트이번에 공개된 모델은 8B(80억 개) 파라미터 규모를 갖춘 시각 우선형 상호작용 모델입니다.

팩트이 모델은 매초 스스로 상황을 판단하여 침묵하거나, 직접 반응하거나, 혹은 더 복잡한 문제를 해결하기 위해 배경 모델(Background Model)에 작업을 위임하는 결정을 내립니다.

팩트연구진은 모델의 핵심 기능으로 시각 정보에 기반한 즉각적인 반응성과 시간 흐름을 이해하는 능력인 '시간 인지(Time awareness)'를 꼽았습니다.

팩트실제 6가지 실생활 시나리오에서 인간 평가자들은 기존의 도우바오(Doubao)나 제미나이(Gemini) 기반 영상 통화 보조 도구보다 JoyAI-VL-Interaction을 선호했습니다.

주장이번 연구는 모델뿐만 아니라 음성 인식(ASR), 음성 합성(TTS), 메모리, 시각화 사용자 인터페이스(UI) 등 모든 구성 요소를 연결할 수 있는 배포 가능한 시스템 전체를 오픈소스로 공개했다는 점에서 의미가 큽니다.

교차검증본 연구 결과는 아카이브(arxiv)에 선공개된 논문으로, 아직 학계의 공식적인 동료 평가(Peer Review) 과정을 거치지 않았습니다.

교차검증실시간 영상 스트리밍 환경에서 모델의 판단 정확도가 복잡한 배경이나 저조도 환경에서 어떻게 변화하는지에 대한 일반화 가능성(Generalizability)은 추가 검증이 필요합니다.

팩트연구진은 쇼핑 앱 화면 안내나 슬라이드 자료를 활용한 즉석 강의 등 훈련 과정에 포함되지 않았던 새로운 작업에서도 모델이 능숙하게 대응하는 능력을 확인했습니다.

출처arxiv의 선공개 논문(https://arxiv.org/abs/2606.14777)을 참고했습니다.

주제

오픈소스 AI

관련 콘텐츠

← 목록으로 돌아가기

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

글로벌 인텔리전스

전체보기 →

TELEGRAM · Clash Report

Netanyahu attacks Europe again Hannity: Europe is a continent in decline. Netanyahu: I agree with you. And, you know, I'm not sure they'll defend themselves. Source: Hang Out with Sean Hannity

1일 전

TELEGRAM · Clash Report

Netanyahu: I think that if we cut the Iran threat down to size, we're going to get a lot of peace treaties. Source: Hang Out with Sean Hannity

1일 전

TELEGRAM · Clash Report

Netanyahu: They asked him, "Why are you studying Arabic?" He said, "Because I want to be able to go to London and Paris." If you lose control over your borders, you lose control over your fate and your destiny and your future. Source: Hang Out with Sean Hannity

1일 전

본 페이지의 정보는 공개 채널을 통해 자동 수집되는 정보로 정보의 정확성·완전성을 보장하지 않으며, Wittgenhaus의 공식 입장이 아닙니다. 이를 근거로 한 판단과 행위의 결과에 Wittgenhaus는 책임을 지지 않습니다.