AI검증

데이터브릭스의 대규모 모니터링 인프라 확장 전략

데이터브릭스가 급증하는 서버리스 워크로드에 대응하기 위해 모니터링 시스템을 전면 재설계했습니다. 자체 개발한 시계열 데이터베이스 판테온과 하이드라 플랫폼을 통해 운영 효율성을 높이고 클라우드 비용을 절감했습니다.

2026년 5월 5일

주장데이터브릭스는 급격한 인프라 확장과 서버리스 워크로드 증가에 대응하고자 기존 모니터링 시스템을 전면 재설계했습니다. 기성 솔루션으로는 대규모 데이터 처리와 고차원 메트릭 문제 해결에 한계가 존재했기 때문입니다.

팩트데이터브릭스는 현재 아마존웹서비스(AWS), 마이크로소프트 애저(Azure), 구글 클라우드 플랫폼(GCP) 등 3대 클라우드 서비스 전반에서 50억 개 이상의 활성 시계열 데이터를 실시간으로 관리합니다. 하루에 수집하는 데이터 샘플은 10조 개를 상회하며, 지난 1년 동안 인프라 규모는 3배 이상 증가했습니다.

교차검증대규모 분산 환경에서 모니터링 인프라를 운영하는 작업은 복잡도가 높습니다. 특히 70개 이상의 클라우드 리전에서 동일한 성능을 유지하면서 수동 개입을 최소화하는 자동화 시스템 구축이 핵심 과제입니다.

팩트데이터브릭스는 오픈소스 프로젝트인 타노스(Thanos)를 기반으로 판테온(Pantheon)이라는 새로운 시계열 데이터베이스를 개발했습니다. 이 시스템은 160개 이상의 타노스 인스턴스를 운영하며, 가장 큰 인스턴스는 초당 1,000개의 쿼리를 처리합니다.

주장판테온 도입의 핵심 성과는 클라우드 비용 수백만 달러 절감과 모니터링 인프라 다운타임 5배 감소입니다. 이는 수동 운영 업무를 자동화하고 시스템 신뢰성을 높인 결과입니다.

팩트판테온은 계층형 저장소 아키텍처를 사용하여 최신 데이터는 메모리에, 최근 24시간 데이터는 디스크에, 그 이전 데이터는 객체 저장소에 분리 저장합니다. 이러한 구조는 컴퓨팅 자원과 저장 자원을 분리하여 인프라 확장 시 효율성을 극대화합니다.

팩트메모리 보존 정책을 이원화하여 지속적인 서비스와 일시적인 서버리스 워크로드에 각각 최적화된 메모리 할당을 적용했습니다. 이는 클라우드 비용을 줄이면서 데이터 정확성을 유지하는 전략입니다.

주장데이터브릭스는 하이드라(Hydra)라는 레이크하우스 기반 플랫폼을 개발하여 고차원적인 문제 해결 능력을 확보했습니다. 하이드라는 기존 스택 대비 50배 저렴한 비용으로 대규모 디버깅 기능을 제공합니다.

교차검증대규모 데이터 환경에서는 메트릭의 카디널리티가 급증하여 기존 방식으로는 데이터 처리가 불가능합니다. 따라서 메트릭 집계 계층을 도입하여 데이터베이스의 부하를 방지하는 설계가 필수적입니다.

출처데이터브릭스의 공식 기술 블로그를 통해 위 내용을 교차 검증했습니다. (https://www.databricks.com/blog/10-trillion-samples-day-scaling-beyond-traditional-monitoring-infra-databricks)

← 목록으로 돌아가기

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

글로벌 인텔리전스

전체보기 →

TELEGRAM · Clash Report

Trump on Keir Starmer: This was not Winston Churchill we're dealing with.

3시간 전

TELEGRAM · Clash Report

Chris Wright: 121 years ago, Albert Einstein... Trump: Nobody cares. Wright: Good point, good point.

3시간 전

TELEGRAM · Clash Report

Reporter: It's the one-year anniversary of Operation Midnight Hammer. Would you do anything different? Trump: No. It's the most successful attack that anyone has ever seen with a bomber that totally wiped out their nuclear potential. If we didn't do that, you'd have no Israel right now. Israel would not exist, and most of the Middle East would not exist. They were two weeks away from having a nuclear weapon.

3시간 전

본 페이지의 정보는 공개 채널을 통해 자동 수집되는 정보로 정보의 정확성·완전성을 보장하지 않으며, Wittgenhaus의 공식 입장이 아닙니다. 이를 근거로 한 판단과 행위의 결과에 Wittgenhaus는 책임을 지지 않습니다.

버블 지표

상세보기 →

많이 본 콘텐츠

시장 정보 제공업체 클루 해킹에 따른 다수 기업 데이터 유출

AI20시간 전

미국 AI 챗봇 사용률 49% 기록과 기술 회의론 확산

AI9시간 전

구글의 X-Frame-Options 보안 헤더와 검색 엔진 최적화 영향

마케팅15시간 전

MIT, 초소형 로봇용 저전력 3D 매핑 칩 글린머 개발

AI3시간 전

인도의 액트 이스트 정책과 인공지능 외교 전략 전환

국제15시간 전

릴리즈 & 논문

전체보기 →

RELEASES

LangChainlangchain-openrouter==0.2.4

langchain-openrouter==0.2.4

OpenRouter 라이브러리 버전이 0.9.2로 업데이트되었으며, 파일 관련 임시 해결 방법이 제거되었습니다. 또한 `bind_tools`에서 `parallel_tool_calls` 기능이 추가되었고, 다양한 의존성 및 모델 프로필 데이터가 업데이트되었습니다.

7시간 전

NVIDIA/Megatron-LMcore_v0.18.0

NVIDIA Megatron Core 0.18.0

NVIDIA Megatron Core 0.18.0 릴리즈에서는 CI/CD 파이프라인 개선, 다양한 FSDP(Fully Sharded Data Parallel) 관련 버그 수정 및 기능 추가, 추론 관련 수정 사항 등이 포함되었습니다. 또한, NVIDIA 스타일 가이드 준수를 위한 문서 업데이트 및 새로운 기능 지원이 이루어졌습니다.

10시간 전

LangChainlangchain==1.3.11

langchain==1.3.11

OpenAI 호환 모델에 대한 `ProviderStrategy`의 `strict=True` 설정을 수정했습니다. 또한, 여러 라이브러리의 버전이 업데이트되었으며, 요약 프롬프트 계약에 대한 문서가 추가되었습니다.

12시간 전

LangChainlangchain-openai==1.3.3

Changes since langchainopenai==1.3.2 release(openai): 1.3.3 (38375) fix(openai): drop response item ids when store is f

12시간 전

LangChainlangchain==1.3.10

langchain==1.3.10

langchain 1.3.10 릴리즈에서는 cryptography, aiohttp, pyjwt 라이브러리 버전이 업데이트되었습니다. 또한, 요약 형식 변경 및 특정 스냅샷에 대한 프로바이더 전략 감지 기능이 수정되었습니다. README 설치 및 리소스 문서도 갱신되었습니다.

4일 전

PAPERS

cs.CV

Semantic Browsing: 이미지 생성을 위한 제어 가능한 다양성

1일 전

cs.AI

조합론적으로 폭발하는 비트 조작 퍼즐의 기수와 진리표를 추론하기 위한 LLM의 문자열 매칭, 백트래킹, 오류 복구 학습

1일 전

cs.LG

DiT-Reward: 텍스트-이미지 보상 모델링을 위한 생성적 표현

1일 전

cs.CV