AI검증

슈퍼휴먼과 데이터브릭스의 20만 QPS 추론 플랫폼 구축

슈퍼휴먼이 데이터브릭스 추론 플랫폼을 도입해 초당 20만 건의 요청을 처리하는 인프라를 구축했습니다. 양사는 공동 최적화와 기술 도입을 통해 성능과 운영 효율을 동시에 확보했습니다.

2026년 5월 8일

주장슈퍼휴먼은 자체 구축한 브이엘엘엠(vLLM) 스택을 데이터브릭스 에프엠에이피아이(FMAPI)로 전환하여 인프라 운영 부담을 줄였습니다. 이러한 변화로 엔지니어링 팀은 인프라 관리 대신 제품의 핵심 기능 개선과 인공지능 모델 품질 향상에 집중합니다.

팩트슈퍼휴먼은 현재 초당 20만 건 이상의 추론 요청을 처리합니다. 모든 요청은 피99(P99) 지연 시간 기준 1초 미만으로 응답하며 99.99%의 신뢰성을 보장합니다.

팩트양사는 공동 최적화 작업을 통해 에이치100(H100) 지피유(GPU) 포드당 처리량을 기존 초당 750건에서 1,200건으로 60% 증가시켰습니다. 이는 에프피8(FP8) 양자화 기술과 호퍼 아키텍처에 최적화된 어텐션 커널을 적용한 결과입니다.

교차검증기존 쿠버네티스 라운드 로빈 로드밸런싱 방식은 높은 요청 처리 환경에서 성능 저하를 일으켰습니다. 특정 노드에 요청이 몰리는 핫스팟 현상으로 꼬리 지연 시간이 급증하는 위험이 확인되었습니다.

팩트데이터브릭스는 이를 해결하고자 두 가지 선택의 힘 알고리즘을 적용한 엔드포인트 검색 서비스를 도입했습니다. 두 개의 후보 포드를 샘플링하여 요청이 적은 곳으로 트래픽을 분산함으로써 핫스팟을 방지합니다.

팩트컨테이너 시작 속도를 높이기 위해 이미지 가속 기술을 적용하여 콜드 스타트 문제를 해결했습니다. 지연 로딩 방식을 통해 수 분이 걸리던 컨테이너 구동 시간을 수 초 이내로 단축했습니다.

팩트슈퍼휴먼 머신러닝 팀은 브이엘엘엠의 온라인 양자화 라이브러리를 사용하여 모델 체크포인트를 에프피8 형식으로 사전 변환했습니다. 가중치 양자화만으로 처리량을 30% 이상 개선했습니다.

교차검증자동 확장 전략 수립 시 확장과 축소의 비대칭성을 고려하여 시스템 안정성을 확보했습니다. 확장은 공격적으로 수행하되 축소는 보수적으로 설정하여 트래픽 변동에 따른 지연 시간 급증 현상을 방지합니다.

주장이번 협업은 성능 목표를 사전에 정의하고 공동으로 엔지니어링을 수행한 사례입니다. 대규모 실시간 인공지능 서비스를 운영하는 기업들에게 인프라 파트너십의 새로운 모델을 제시합니다.

출처데이터브릭스 공식 블로그의 슈퍼휴먼 사례 발표 내용을 교차 검증했습니다. (https://www.databricks.com/blog/how-superhuman-and-databricks-built-200k-qps-inference-platform-together)

← 목록으로 돌아가기

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

글로벌 인텔리전스

전체보기 →

TELEGRAM · Clash Report

No commercial ships operated by registered companies have crossed the Strait of Hormuz since Tuesday. Most recent crossings involved shadow fleet, Iranian-owned, or smaller local-trade vessels. Source: WSJ

1시간 전

TELEGRAM · Clash Report

BREAKING: Trump: I am pleased to announce that there will be a THREE DAY CEASEFIRE (May 9th, 10th, and 11th) in the War between Russia and Ukraine. The Celebration in Russia is for Victory Day but, likewise, in Ukraine, because they were also a big part and…

1시간 전

TELEGRAM · Clash Report

Zelensky: Red Square is less important to us than the lives of Ukrainian prisoners who can be brought home.

1시간 전

본 페이지의 정보는 공개 채널을 통해 자동 수집되는 정보로 정보의 정확성·완전성을 보장하지 않으며, Wittgenhaus의 공식 입장이 아닙니다. 이를 근거로 한 판단과 행위의 결과에 Wittgenhaus는 책임을 지지 않습니다.

버블 지표

상세보기 →

많이 본 콘텐츠

오픈에이아이, 보안 연구용 GPT-5.5-Cyber 모델 공개

AI18시간 전

호르무즈 해협 미국-이란 무력 충돌 발생

국제18시간 전

데이터브릭스, 성장 분석 위한 AI 기반 지니 출시

AI22시간 전

의료 행정 자동화 스타트업 바사타의 330억 원 투자 유치

AI22시간 전

체외수정 기술의 발전과 생식 선택권의 변화

AI18시간 전

릴리즈 & 논문

전체보기 →

RELEASES

LangChainlangchain==1.2.18

langchain==1.2.18

langchain 1.2.18 릴리즈에서는 `create_agent` 호출 시 `ls_agent_type` 태그가 롤백되었습니다. 또한, `langchain-classic`의 `hub`, `limit loads/dumps` 기능이 사용 중단 처리되었으며, 선택적 종속성이 다시 활성화되었습니다.

19시간 전

OpenAIv2.36.0

v2.36.0

이번 릴리즈에서는 API 관련 기능이 업데이트되었습니다. 수동 업데이트 및 실시간 2 기능이 추가되었습니다.

1일 전

LangChainlangchain-core==0.3.86

langchain-core==0.3.86

langchain-core 0.3.86 릴리즈에서는 v0.3 버전에 대한 경로 탐색 취약점(CVE-2026-34070, GHSA-qh6h-p6c9-ff54) 수정 사항이 백포트되었습니다. 이번 업데이트는 보안 취약점을 해결하는 데 중점을 두었습니다.

1일 전

LangChainlangchain==0.3.30

langchain==0.3.30

langchain 0.3.30 릴리즈가 공개되었습니다. 이번 릴리즈에서는 loads/dumps 기능이 강화되었으며, hub 기능은 사용 중단이 예고되었습니다.