슈퍼휴먼과 데이터브릭스의 20만 QPS 추론 플랫폼 구축
슈퍼휴먼이 데이터브릭스 추론 플랫폼을 도입해 초당 20만 건의 요청을 처리하는 인프라를 구축했습니다. 양사는 공동 최적화와 기술 도입을 통해 성능과 운영 효율을 동시에 확보했습니다.
주장슈퍼휴먼은 자체 구축한 브이엘엘엠(vLLM) 스택을 데이터브릭스 에프엠에이피아이(FMAPI)로 전환하여 인프라 운영 부담을 줄였습니다. 이러한 변화로 엔지니어링 팀은 인프라 관리 대신 제품의 핵심 기능 개선과 인공지능 모델 품질 향상에 집중합니다.
팩트슈퍼휴먼은 현재 초당 20만 건 이상의 추론 요청을 처리합니다. 모든 요청은 피99(P99) 지연 시간 기준 1초 미만으로 응답하며 99.99%의 신뢰성을 보장합니다.
팩트양사는 공동 최적화 작업을 통해 에이치100(H100) 지피유(GPU) 포드당 처리량을 기존 초당 750건에서 1,200건으로 60% 증가시켰습니다. 이는 에프피8(FP8) 양자화 기술과 호퍼 아키텍처에 최적화된 어텐션 커널을 적용한 결과입니다.
교차검증기존 쿠버네티스 라운드 로빈 로드밸런싱 방식은 높은 요청 처리 환경에서 성능 저하를 일으켰습니다. 특정 노드에 요청이 몰리는 핫스팟 현상으로 꼬리 지연 시간이 급증하는 위험이 확인되었습니다.
팩트데이터브릭스는 이를 해결하고자 두 가지 선택의 힘 알고리즘을 적용한 엔드포인트 검색 서비스를 도입했습니다. 두 개의 후보 포드를 샘플링하여 요청이 적은 곳으로 트래픽을 분산함으로써 핫스팟을 방지합니다.
팩트컨테이너 시작 속도를 높이기 위해 이미지 가속 기술을 적용하여 콜드 스타트 문제를 해결했습니다. 지연 로딩 방식을 통해 수 분이 걸리던 컨테이너 구동 시간을 수 초 이내로 단축했습니다.
팩트슈퍼휴먼 머신러닝 팀은 브이엘엘엠의 온라인 양자화 라이브러리를 사용하여 모델 체크포인트를 에프피8 형식으로 사전 변환했습니다. 가중치 양자화만으로 처리량을 30% 이상 개선했습니다.
교차검증자동 확장 전략 수립 시 확장과 축소의 비대칭성을 고려하여 시스템 안정성을 확보했습니다. 확장은 공격적으로 수행하되 축소는 보수적으로 설정하여 트래픽 변동에 따른 지연 시간 급증 현상을 방지합니다.
주장이번 협업은 성능 목표를 사전에 정의하고 공동으로 엔지니어링을 수행한 사례입니다. 대규모 실시간 인공지능 서비스를 운영하는 기업들에게 인프라 파트너십의 새로운 모델을 제시합니다.
출처데이터브릭스 공식 블로그의 슈퍼휴먼 사례 발표 내용을 교차 검증했습니다. (https://www.databricks.com/blog/how-superhuman-and-databricks-built-200k-qps-inference-platform-together)
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.