데이터브릭스의 대규모 모니터링 인프라 확장 전략
데이터브릭스가 급증하는 서버리스 워크로드에 대응하기 위해 모니터링 시스템을 전면 재설계했습니다. 자체 개발한 시계열 데이터베이스 판테온과 하이드라 플랫폼을 통해 운영 효율성을 높이고 클라우드 비용을 절감했습니다.
주장데이터브릭스는 급격한 인프라 확장과 서버리스 워크로드 증가에 대응하고자 기존 모니터링 시스템을 전면 재설계했습니다. 기성 솔루션으로는 대규모 데이터 처리와 고차원 메트릭 문제 해결에 한계가 존재했기 때문입니다.
팩트데이터브릭스는 현재 아마존웹서비스(AWS), 마이크로소프트 애저(Azure), 구글 클라우드 플랫폼(GCP) 등 3대 클라우드 서비스 전반에서 50억 개 이상의 활성 시계열 데이터를 실시간으로 관리합니다. 하루에 수집하는 데이터 샘플은 10조 개를 상회하며, 지난 1년 동안 인프라 규모는 3배 이상 증가했습니다.
교차검증대규모 분산 환경에서 모니터링 인프라를 운영하는 작업은 복잡도가 높습니다. 특히 70개 이상의 클라우드 리전에서 동일한 성능을 유지하면서 수동 개입을 최소화하는 자동화 시스템 구축이 핵심 과제입니다.
팩트데이터브릭스는 오픈소스 프로젝트인 타노스(Thanos)를 기반으로 판테온(Pantheon)이라는 새로운 시계열 데이터베이스를 개발했습니다. 이 시스템은 160개 이상의 타노스 인스턴스를 운영하며, 가장 큰 인스턴스는 초당 1,000개의 쿼리를 처리합니다.
주장판테온 도입의 핵심 성과는 클라우드 비용 수백만 달러 절감과 모니터링 인프라 다운타임 5배 감소입니다. 이는 수동 운영 업무를 자동화하고 시스템 신뢰성을 높인 결과입니다.
팩트판테온은 계층형 저장소 아키텍처를 사용하여 최신 데이터는 메모리에, 최근 24시간 데이터는 디스크에, 그 이전 데이터는 객체 저장소에 분리 저장합니다. 이러한 구조는 컴퓨팅 자원과 저장 자원을 분리하여 인프라 확장 시 효율성을 극대화합니다.
팩트메모리 보존 정책을 이원화하여 지속적인 서비스와 일시적인 서버리스 워크로드에 각각 최적화된 메모리 할당을 적용했습니다. 이는 클라우드 비용을 줄이면서 데이터 정확성을 유지하는 전략입니다.
주장데이터브릭스는 하이드라(Hydra)라는 레이크하우스 기반 플랫폼을 개발하여 고차원적인 문제 해결 능력을 확보했습니다. 하이드라는 기존 스택 대비 50배 저렴한 비용으로 대규모 디버깅 기능을 제공합니다.
교차검증대규모 데이터 환경에서는 메트릭의 카디널리티가 급증하여 기존 방식으로는 데이터 처리가 불가능합니다. 따라서 메트릭 집계 계층을 도입하여 데이터베이스의 부하를 방지하는 설계가 필수적입니다.
출처데이터브릭스의 공식 기술 블로그를 통해 위 내용을 교차 검증했습니다. (https://www.databricks.com/blog/10-trillion-samples-day-scaling-beyond-traditional-monitoring-infra-databricks)
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.