MARKETS
KOSPI
KOSDAQ
S&P 500
NASDAQ
USD/KRW
BTC
NIKKEI
WTI
KOSPI
KOSDAQ
S&P 500
NASDAQ
USD/KRW
BTC
NIKKEI
WTI
Wittgenhaus

2026년 6월 17일 수요일

AI 시대, 당신을 더욱 스마트하게

AI미검

실시간 시각-언어 상호작용 모델 'JoyAI-VL-Interaction' 공개

사용자의 질문을 기다리지 않고 능동적으로 상황을 판단해 반응하는 실시간 시각-언어 상호작용 모델이 등장했습니다. 연구진은 8B 파라미터 규모의 모델과 이를 구동하는 전체 시스템을 오픈소스로 공개했습니다.

2026년 6월 16일

주장딩위 야오(Dingyu Yao)를 포함한 다국적 연구진은 기존의 수동적인 인공지능 모델을 넘어 인간처럼 실시간으로 상황을 인지하고 반응하는 'JoyAI-VL-Interaction'을 개발했습니다.

팩트기존의 거대 언어 모델은 사용자가 질문을 던져야만 답변하는 방식인 '턴 기반(Turn-based)' 구조에 머물러 있습니다.

주장연구진은 인공지능이 마치 사람처럼 세상에 존재하며 스스로 말할지 침묵할지 결정하는 새로운 상호작용 패러다임을 제시합니다.

팩트이번에 공개된 모델은 8B(80억 개) 파라미터 규모를 갖춘 시각 우선형 상호작용 모델입니다.

팩트이 모델은 매초 스스로 상황을 판단하여 침묵하거나, 직접 반응하거나, 혹은 더 복잡한 문제를 해결하기 위해 배경 모델(Background Model)에 작업을 위임하는 결정을 내립니다.

팩트연구진은 모델의 핵심 기능으로 시각 정보에 기반한 즉각적인 반응성과 시간 흐름을 이해하는 능력인 '시간 인지(Time awareness)'를 꼽았습니다.

팩트실제 6가지 실생활 시나리오에서 인간 평가자들은 기존의 도우바오(Doubao)나 제미나이(Gemini) 기반 영상 통화 보조 도구보다 JoyAI-VL-Interaction을 선호했습니다.

주장이번 연구는 모델뿐만 아니라 음성 인식(ASR), 음성 합성(TTS), 메모리, 시각화 사용자 인터페이스(UI) 등 모든 구성 요소를 연결할 수 있는 배포 가능한 시스템 전체를 오픈소스로 공개했다는 점에서 의미가 큽니다.

교차검증본 연구 결과는 아카이브(arxiv)에 선공개된 논문으로, 아직 학계의 공식적인 동료 평가(Peer Review) 과정을 거치지 않았습니다.

교차검증실시간 영상 스트리밍 환경에서 모델의 판단 정확도가 복잡한 배경이나 저조도 환경에서 어떻게 변화하는지에 대한 일반화 가능성(Generalizability)은 추가 검증이 필요합니다.

팩트연구진은 쇼핑 앱 화면 안내나 슬라이드 자료를 활용한 즉석 강의 등 훈련 과정에 포함되지 않았던 새로운 작업에서도 모델이 능숙하게 대응하는 능력을 확인했습니다.

출처arxiv의 선공개 논문(https://arxiv.org/abs/2606.14777)을 참고했습니다.

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

버블 지표

상세보기 →

릴리즈 & 논문

전체보기 →

RELEASES

OpenAIv2.42.0

v2.42.0

이번 릴리즈에서는 API 관련 기능으로 관리자 지출 알림, 수동 업데이트, OpenAPI 사양 또는 Stainless 구성 업데이트 기능이 추가되었습니다. 또한 릴리즈 워크플로우 권한 수정 및 예제 API 키에 CI 환경 사용과 같은 빌드 시스템 관련 변경 사항이 적용되었습니다.

2시간 전

microsoft/DeepSpeedv0.19.2

v0.19.2 패치 릴리즈

이번 릴리즈는 FP16 옵티마이저 초기화 시 requires_grad 필터링 수정, AutoSP 컴파일 테스트 순차 실행, ZeRO 1/2/3 멀티 백워드 지원을 위한 engine.coalesce_grad_reduction() 추가 등 다양한 버그 수정 및 기능 개선을 포함합니다. 또한, ZeRO 3 DeepCompile 관련 문제와 ZenFlow 최적화 충돌을 해결하고, Biren SUPA 가속기 지원 및 혼합 정밀도 설정을 위한 기능이 추가되었습니다.

3시간 전

Anthropicv0.109.2

v0.109.2

API 및 SDK에서 지원 중단된 모델이 제거되었습니다. 이번 업데이트는 API와 SDK 모두에 적용됩니다.

1일 전

Transformersv5.12.1

패치 릴리즈 v5.12.1

PEFT의 하한선이 업데이트되었으며, `mistral-common`이 설치된 경우 mistral 토크나이저를 올바르게 해결하기 위한 auto tokenizer 수정이 포함되었습니다. 이는 v5.10.3과 유사하며 메인 릴리즈에 이미 포함된 수정 사항은 제외되었습니다.

1일 전

Transformersv5.10.3

패치 릴리즈 v5.10.3

vLLM이 transformers와 동기화하는 데 필요한 몇 가지 수정 사항이 적용되었습니다. 주요 수정 사항으로는 #45534, #46456에서 발생한 회귀 문제 해결, ProcessorMixin의 {image/video/audio}_token_ids 수정, InternVL 모델 수정 등이 포함됩니다. 또한, 처리 오프셋 수정 및 `peft` 하한선 수정, mistral 공통 백엔드 수정도 이루어졌습니다.

1일 전

PAPERS