실시간 시각-언어 상호작용 모델 'JoyAI-VL-Interaction' 공개
사용자의 질문을 기다리지 않고 능동적으로 상황을 판단해 반응하는 실시간 시각-언어 상호작용 모델이 등장했습니다. 연구진은 8B 파라미터 규모의 모델과 이를 구동하는 전체 시스템을 오픈소스로 공개했습니다.
주장딩위 야오(Dingyu Yao)를 포함한 다국적 연구진은 기존의 수동적인 인공지능 모델을 넘어 인간처럼 실시간으로 상황을 인지하고 반응하는 'JoyAI-VL-Interaction'을 개발했습니다.
팩트기존의 거대 언어 모델은 사용자가 질문을 던져야만 답변하는 방식인 '턴 기반(Turn-based)' 구조에 머물러 있습니다.
주장연구진은 인공지능이 마치 사람처럼 세상에 존재하며 스스로 말할지 침묵할지 결정하는 새로운 상호작용 패러다임을 제시합니다.
팩트이번에 공개된 모델은 8B(80억 개) 파라미터 규모를 갖춘 시각 우선형 상호작용 모델입니다.
팩트이 모델은 매초 스스로 상황을 판단하여 침묵하거나, 직접 반응하거나, 혹은 더 복잡한 문제를 해결하기 위해 배경 모델(Background Model)에 작업을 위임하는 결정을 내립니다.
팩트연구진은 모델의 핵심 기능으로 시각 정보에 기반한 즉각적인 반응성과 시간 흐름을 이해하는 능력인 '시간 인지(Time awareness)'를 꼽았습니다.
팩트실제 6가지 실생활 시나리오에서 인간 평가자들은 기존의 도우바오(Doubao)나 제미나이(Gemini) 기반 영상 통화 보조 도구보다 JoyAI-VL-Interaction을 선호했습니다.
주장이번 연구는 모델뿐만 아니라 음성 인식(ASR), 음성 합성(TTS), 메모리, 시각화 사용자 인터페이스(UI) 등 모든 구성 요소를 연결할 수 있는 배포 가능한 시스템 전체를 오픈소스로 공개했다는 점에서 의미가 큽니다.
교차검증본 연구 결과는 아카이브(arxiv)에 선공개된 논문으로, 아직 학계의 공식적인 동료 평가(Peer Review) 과정을 거치지 않았습니다.
교차검증실시간 영상 스트리밍 환경에서 모델의 판단 정확도가 복잡한 배경이나 저조도 환경에서 어떻게 변화하는지에 대한 일반화 가능성(Generalizability)은 추가 검증이 필요합니다.
팩트연구진은 쇼핑 앱 화면 안내나 슬라이드 자료를 활용한 즉석 강의 등 훈련 과정에 포함되지 않았던 새로운 작업에서도 모델이 능숙하게 대응하는 능력을 확인했습니다.
출처arxiv의 선공개 논문(https://arxiv.org/abs/2606.14777)을 참고했습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

