데이터브릭스, 에이전트 기반 하이브리드 추론 성능 입증
데이터브릭스가 슈퍼바이저 에이전트를 통해 구조화 및 비구조화 데이터를 결합한 하이브리드 추론 성능을 입증했습니다. 해당 모델은 기존 방식 대비 주요 벤치마크에서 20% 이상 향상된 성과를 기록했습니다.
주장기업 데이터는 분절된 상태에서 가치를 잃습니다. 구조화된 데이터와 비구조화된 데이터를 결합하여 추론하는 과정이 기업의 복잡한 과제를 해결하는 핵심입니다. 데이터브릭스의 슈퍼바이저 에이전트는 다단계 추론을 통해 이러한 통합 분석을 수행합니다.
팩트슈퍼바이저 에이전트는 스탠퍼드 연구진이 발표한 스탁(STaRK) 벤치마크와 데이터브릭스의 칼벤치(KARLBench)에서 기존 최고 수준 모델 대비 20% 이상의 성능 향상을 기록했습니다. 생의학 추론 분야인 스탁 프라임에서는 38%, 금융 분석인 파이낸스벤치에서는 23%의 개선을 보였습니다.
팩트해당 에이전트는 데이터브릭스 내부 프레임워크인 아롤(AROL)을 기반으로 구축되었습니다. 아롤은 수천 개의 동시 대화와 병렬 도구 실행을 지원하며 복잡한 에이전트 오케스트레이션과 문맥 관리 기술을 포함합니다.
교차검증기존의 단일 단계 검색 방식은 벡터 유사도 검색과 재순위화 모델을 사용하지만, 데이터 유형 전반에 걸쳐 쿼리를 분해하는 능력이 부족합니다. 슈퍼바이저 에이전트는 질문을 분해하고 적절한 도구로 라우팅하여 다단계 추론을 수행함으로써 이러한 한계를 극복합니다.
팩트스탁 벤치마크는 아마존 제품 속성, 학술 인용 네트워크, 생의학 엔티티 등 세 가지 도메인을 포함합니다. 특정 저자의 논문 수와 주제를 동시에 찾는 질문에서 에이전트는 에스큐엘(SQL) 조인과 비구조화 데이터 검색을 결합하여 정확한 답변을 도출합니다.
팩트칼벤치는 복잡한 추론 능력을 측정하기 위해 브라우즈컴프, 파이낸스벤치, 피엠벤치(PMBench) 등 6개의 벤치마크를 포함합니다. 슈퍼바이저 에이전트는 철저한 분석이나 자기 수정이 필요한 작업에서 가장 큰 성능 향상을 보였습니다.
팩트브라우즈컴프 테스트에서 슈퍼바이저 에이전트는 5~10개의 상호 연결된 제약을 처리하며 기존 방식 대비 78%의 상대적 성능 향상을 기록했습니다. 단일 단계 모델은 광범위한 쿼리 하나로 대응하려다 세부 통계 데이터를 놓치는 오류를 범했습니다.
팩트피엠벤치 테스트에서 에이전트는 가드레일 유형을 파악하기 위해 각 카테고리별로 개별 검색을 수행했습니다. 이를 통해 단일 질문으로는 찾기 어려운 26개의 세부 정보를 성공적으로 수집하여 포괄적인 답변을 제공했습니다.
주장고품질 검색 시나리오를 위해서는 이기종 데이터셋에 대한 맞춤형 검색 증강 생성(RAG) 파이프라인을 직접 구축하는 방식을 지양해야 합니다. 에이전트가 각 단계에서 적절한 데이터 소스를 선택하고 유용성을 판단하는 다단계 추론 방식이 성능 향상의 핵심입니다.
출처데이터브릭스 공식 블로그(https://www.databricks.com/blog/agentic-reasoning-practice-making-sense-structured-and-unstructured-data)를 교차 검증했습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.