LPM 1.0, 단일 사진으로 45분 실시간 영상 생성 기술 공개
연구진이 단 한 장의 사진으로 말하고 노래하는 인물을 실시간 생성하는 인공지능 모델 LPM 1.0을 발표했습니다. 이 기술은 텍스트와 오디오를 결합해 자연스러운 표정을 구현하며 최대 45분간의 영상 스트리밍을 지원합니다.
주장연구진이 단 한 장의 사진으로 말하고 듣고 노래하는 인물을 실시간으로 생성하는 인공지능 모델 LPM 1.0을 공개했습니다. 이 기술은 텍스트와 오디오를 동시에 처리하여 인물의 입 모양과 표정 변화를 자연스럽게 구현합니다.
팩트LPM 1.0은 챗GPT나 더우바오와 같은 음성 인공지능 시스템과 연결되어 실시간으로 시각적 대화 파트너를 생성합니다. 시스템은 최대 45분 길이의 영상까지 안정적으로 스트리밍 처리를 수행합니다.
팩트모델은 사진 속 인물의 얼굴뿐만 아니라 애니메이션과 3D 게임 캐릭터 등 다양한 시각적 스타일을 추가 학습 없이 지원합니다. 다중 세분화 신원 조건화 기술을 사용하여 다양한 각도와 표정의 참조 이미지를 활용합니다.
팩트인공지능은 듣기, 말하기, 일시 정지라는 세 가지 대화 상태를 인식하여 반응합니다. 듣는 중에는 고개를 끄덕이거나 시선을 이동하며, 말하는 중에는 오디오에 맞춰 입 모양과 몸짓을 생성합니다.
팩트프로젝트 매니저 에일링 젱은 이 모델이 실시간 대화뿐만 아니라 기존 오디오를 활용한 오프라인 영상 생성도 지원한다고 밝혔습니다. 이는 팟캐스트나 영화 대사 등 다양한 콘텐츠 제작 분야에 활용 가능합니다.
주장이번 기술은 인공지능이 단순한 텍스트나 음성을 넘어 표정과 눈맞춤을 갖춘 시각적 캐릭터로 진화하고 있음을 증명합니다. 이는 교육과 게임, 고객 서비스 및 가상 동반자 분야에서 큰 가치를 창출합니다.
교차검증현재 LPM 1.0은 순수 연구 프로젝트 단계이며 대중에게 공개된 데모나 코드, 가중치는 없습니다. 연구진은 생성된 영상에 여전히 시각적 오류가 존재하며 실제 영상 품질과는 격차가 있다고 인정했습니다.
교차검증연구진은 적절한 안전장치와 책임 있는 사용 프레임워크가 마련되기 전까지는 공개를 고려하지 않겠다고 강조했습니다. 또한 모든 예시 영상은 실제 인물이 아닌 인공지능이 생성한 가상의 인물임을 명시했습니다.
교차검증이 기술은 실시간 딥페이크 인프라로 악용될 위험이 있어 사기나 조작, 사칭 범죄에 이용될 가능성이 있습니다. 연구진은 이 시스템이 타인을 기만하거나 사칭하기 위한 목적이 아님을 분명히 했습니다.
출처디코더(The Decoder) 보도와 관련 프로젝트 페이지 및 기술 보고서를 교차 검증했습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.