허깅페이스, 센텐스 트랜스포머 v5.4로 멀티모달 검색 지원
허깅페이스가 센텐스 트랜스포머 v5.4 업데이트를 통해 텍스트와 이미지, 오디오, 비디오를 통합 처리하는 멀티모달 검색 기능을 선보였습니다. 개발자는 이를 활용해 더욱 정교한 검색 및 검색 증강 생성 시스템을 설계할 수 있습니다.
주장허깅페이스의 센텐스 트랜스포머 v5.4 업데이트는 텍스트 중심의 기존 검색 환경을 멀티모달로 확장하는 핵심 전환점입니다. 개발자는 이제 이미지와 오디오, 비디오를 텍스트와 동일한 응용 프로그램 인터페이스(API)로 처리하여 더욱 정교한 검색 및 검색 증강 생성(RAG) 시스템을 설계합니다.
팩트센텐스 트랜스포머 v5.4 버전은 텍스트와 이미지, 오디오, 비디오 데이터를 하나의 공유 임베딩 공간에 매핑하는 기능을 제공합니다. 사용자는 이 기능을 통해 텍스트 질의로 이미지나 비디오 문서를 검색하는 교차 모달 검색을 수행합니다.
팩트검색 작업에 최적화된 도구인 encode_query()와 encode_document() 메서드는 입력 데이터 성격에 따라 적절한 명령어 프롬프트를 자동으로 적용합니다. 이는 모델 작성자가 설정한 프롬프트를 활용하여 검색 정확도를 높입니다.
팩트멀티모달 리랭커 모델은 텍스트와 이미지뿐만 아니라 오디오, 비디오 등 다양한 조합의 입력 쌍을 처리하도록 설계되었습니다. rank() 메서드를 사용하면 질의와 문서 리스트 간의 관련성을 점수화하여 순위를 매깁니다.
주장멀티모달 리랭커 모델은 임베딩 모델보다 처리 속도는 느리지만 입력 데이터 쌍 간의 관련성을 더욱 정밀하게 평가합니다. 따라서 고품질 검색 결과가 필요한 검색 증강 생성 파이프라인의 최종 단계에서 리랭커를 활용하는 방안을 권장합니다.
팩트큐웬3-브이엘-2비(Qwen3-VL-2B)와 같은 시각 언어 모델(VLM) 기반 모델을 로컬에서 구동하려면 최소 8기가바이트(GB) 이상의 비디오 램(VRAM)을 갖춘 그래픽 처리 장치(GPU)가 필요합니다. 8비(8B) 모델의 경우 원활한 작동을 위해 약 20기가바이트의 비디오 램을 권장하며, 중앙 처리 장치(CPU) 환경에서는 연산 속도가 현저히 저하됩니다.
팩트모델 로딩 시 리비전(revision) 인자를 사용하는 것은 현재 통합 작업이 진행 중인 모델들에 한해 필수적인 절차입니다. 향후 해당 풀 리퀘스트가 병합되면 별도의 리비전 지정 없이 모델을 간편하게 불러올 수 있습니다.
교차검증서로 다른 모달리티를 하나의 공간에 매핑할 때 발생하는 모달리티 간극(modality gap) 현상으로 인해 교차 모달 유사도 점수는 텍스트 간 유사도보다 낮게 나타날 수 있습니다. 다만 상대적인 순위는 유지되므로 검색 성능 자체에는 큰 지장이 없습니다.
교차검증멀티모달 모델을 사용하려면 각 모달리티별로 추가적인 의존성 패키지를 설치해야 합니다. 이미지와 오디오, 비디오 등 필요한 기능에 따라 센텐스 트랜스포머 이미지, 오디오, 비디오 패키지를 각각 설치해야 정상적으로 작동합니다.
출처허깅페이스 공식 블로그의 멀티모달 센텐스 트랜스포머 관련 게시물을 교차 검증했습니다. (https://huggingface.co/blog/multimodal-sentence-transformers)
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.