AI검증

데이터브릭스, 에이전트 기반 하이브리드 추론 성능 입증

데이터브릭스가 슈퍼바이저 에이전트를 통해 구조화 및 비구조화 데이터를 결합한 하이브리드 추론 성능을 입증했습니다. 해당 모델은 기존 방식 대비 주요 벤치마크에서 20% 이상 향상된 성과를 기록했습니다.

2026년 4월 14일

주장기업 데이터는 분절된 상태에서 가치를 잃습니다. 구조화된 데이터와 비구조화된 데이터를 결합하여 추론하는 과정이 기업의 복잡한 과제를 해결하는 핵심입니다. 데이터브릭스의 슈퍼바이저 에이전트는 다단계 추론을 통해 이러한 통합 분석을 수행합니다.

팩트슈퍼바이저 에이전트는 스탠퍼드 연구진이 발표한 스탁(STaRK) 벤치마크와 데이터브릭스의 칼벤치(KARLBench)에서 기존 최고 수준 모델 대비 20% 이상의 성능 향상을 기록했습니다. 생의학 추론 분야인 스탁 프라임에서는 38%, 금융 분석인 파이낸스벤치에서는 23%의 개선을 보였습니다.

팩트해당 에이전트는 데이터브릭스 내부 프레임워크인 아롤(AROL)을 기반으로 구축되었습니다. 아롤은 수천 개의 동시 대화와 병렬 도구 실행을 지원하며 복잡한 에이전트 오케스트레이션과 문맥 관리 기술을 포함합니다.

교차검증기존의 단일 단계 검색 방식은 벡터 유사도 검색과 재순위화 모델을 사용하지만, 데이터 유형 전반에 걸쳐 쿼리를 분해하는 능력이 부족합니다. 슈퍼바이저 에이전트는 질문을 분해하고 적절한 도구로 라우팅하여 다단계 추론을 수행함으로써 이러한 한계를 극복합니다.

팩트스탁 벤치마크는 아마존 제품 속성, 학술 인용 네트워크, 생의학 엔티티 등 세 가지 도메인을 포함합니다. 특정 저자의 논문 수와 주제를 동시에 찾는 질문에서 에이전트는 에스큐엘(SQL) 조인과 비구조화 데이터 검색을 결합하여 정확한 답변을 도출합니다.

팩트칼벤치는 복잡한 추론 능력을 측정하기 위해 브라우즈컴프, 파이낸스벤치, 피엠벤치(PMBench) 등 6개의 벤치마크를 포함합니다. 슈퍼바이저 에이전트는 철저한 분석이나 자기 수정이 필요한 작업에서 가장 큰 성능 향상을 보였습니다.

팩트브라우즈컴프 테스트에서 슈퍼바이저 에이전트는 5~10개의 상호 연결된 제약을 처리하며 기존 방식 대비 78%의 상대적 성능 향상을 기록했습니다. 단일 단계 모델은 광범위한 쿼리 하나로 대응하려다 세부 통계 데이터를 놓치는 오류를 범했습니다.

팩트피엠벤치 테스트에서 에이전트는 가드레일 유형을 파악하기 위해 각 카테고리별로 개별 검색을 수행했습니다. 이를 통해 단일 질문으로는 찾기 어려운 26개의 세부 정보를 성공적으로 수집하여 포괄적인 답변을 제공했습니다.

주장고품질 검색 시나리오를 위해서는 이기종 데이터셋에 대한 맞춤형 검색 증강 생성(RAG) 파이프라인을 직접 구축하는 방식을 지양해야 합니다. 에이전트가 각 단계에서 적절한 데이터 소스를 선택하고 유용성을 판단하는 다단계 추론 방식이 성능 향상의 핵심입니다.

출처데이터브릭스 공식 블로그(https://www.databricks.com/blog/agentic-reasoning-practice-making-sense-structured-and-unstructured-data)를 교차 검증했습니다.

← 목록으로 돌아가기

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

글로벌 인텔리전스

전체보기 →

TELEGRAM · Clash Report

Al Jazeera cameraman Ahmed Wishah was killed in an Israeli air strike on a house in the Bureij refugee camp in central Gaza. At least 10 people were killed in Israeli attacks across Gaza on the same day. The Israeli military said, without providing evidence, that he was a "Hamas operative."

1시간 전

TELEGRAM · Clash Report

Trump: There will be NO TOLLS in the Hormuz Strait for 60 days during the Cease Fire Period, and there will be NO TOLLS after the 60 day period has expired, unless they are imposed by and for the United States of America, should the deal not be completed, for services rendered as the Guardian Angel to the countries of the Middle East for purposes of both past, present, and future reimbursement of costs. Thank you for your attention to this matter!!!

1시간 전

TELEGRAM · Clash Report

Tucker Carlson on Iran: They've been talking about this war, as Netanyahu himself said, for 30 odd years. And Trump is the first American president who actually did it. He fell for it. They lured him into the trap and he just jumped. Trump understands how shafted he got. He understands just how fooled he was. And he's clearly bitter about it. And he understands further that in order to get out of this, he needs to make this deal, bad as it may be, because there's no option.

1시간 전

본 페이지의 정보는 공개 채널을 통해 자동 수집되는 정보로 정보의 정확성·완전성을 보장하지 않으며, Wittgenhaus의 공식 입장이 아닙니다. 이를 근거로 한 판단과 행위의 결과에 Wittgenhaus는 책임을 지지 않습니다.

버블 지표

상세보기 →

많이 본 콘텐츠

단백질 설계 오픈소스 생태계 오보(Ovo) 공개

AI18시간 전

콘텐츠 마케팅 성장을 저해하는 과거 프레임워크 탈피

마케팅7시간 전

챗GPT, 예약 작업 관리 기능 도입 및 서비스 고도화

AI13시간 전

이란, 미국에 레바논 휴전 이행 및 이스라엘 통제 촉구

국제18시간 전

인 더 웨이츠: AI 모델 기반 인물 인지도 측정 서비스

AI1시간 전

릴리즈 & 논문

전체보기 →

RELEASES

LangChainlangchain==1.3.10

langchain==1.3.10

langchain 1.3.10 릴리즈에서는 cryptography, aiohttp, pyjwt 라이브러리 버전이 업데이트되었습니다. 또한, 요약 형식 변경 및 특정 스냅샷에 대한 프로바이더 전략 감지 기능이 수정되었습니다. README 설치 및 리소스 문서도 갱신되었습니다.

2일 전

LangChainlangchain-core==1.4.8

langchain-core==1.4.8

이번 릴리즈에서는 Python 3.10 미만 버전에 대한 코드가 제거되었으며, `BaseTool.tool_call_schema` 및 `model_json_schema`에 대한 성능 개선이 이루어졌습니다. 또한, v3 스트리밍 이벤트에서 사용 토큰 세부 정보가 보존되고, 명시적 역직렬화 허용 목록에 대한 테스트가 업데이트되었습니다.

2일 전

Anthropicv0.111.0

v0.111.0

이번 릴리즈에서는 refusal-fallback 미들웨어 요청에 fallback-refusal-middleware 태그를 추가하는 기능이 포함되었습니다. 자세한 변경 사항은 전체 변경 로그를 참조하시기 바랍니다.

2일 전

Anthropicv0.110.0

v0.110.0

이번 릴리즈에서는 새로운 code_execution_20260120 도구에 대한 지원이 추가되었습니다. 또한, 헤더 병합 시 x-stainless-helper가 덮어쓰이는 대신 추가되도록 수정되었으며, 스트림 이벤트 유형이 보존되도록 개선되었습니다.

2일 전

OpenAIv2.43.0

v2.43.0

OpenAI Python 라이브러리가 v2.43.0 버전으로 업데이트되었습니다. 이번 릴리즈에서는 API 관련 변경 사항으로 OpenAPI 사양 또는 Stainless 설정을 업데이트했습니다.