MARKETS
KOSPI
KOSDAQ
S&P 500
NASDAQ
USD/KRW
BTC
NIKKEI
WTI
KOSPI
KOSDAQ
S&P 500
NASDAQ
USD/KRW
BTC
NIKKEI
WTI
Wittgenhaus

2026년 6월 12일 금요일

AI 시대, 당신을 더욱 스마트하게

AI검증

데이터브릭스 제로버스 인제스트의 페타바이트급 스트리밍 처리 기술

데이터브릭스가 복잡한 인프라 설정 없이 페타바이트 규모의 데이터를 처리하는 서버리스 스트리밍 API를 공개했습니다. 이 기술은 기존 메시지 큐의 운영 부담을 줄이고 데이터 레이크하우스로의 직접적인 유입을 지원합니다.

2026년 6월 12일

주장데이터브릭스의 제로버스 인제스트는 복잡한 인프라 설정 없이 페타바이트 규모의 데이터를 즉시 처리하는 서버리스 스트리밍 API입니다. 이 서비스는 카프카와 같은 기존 메시지 큐 시스템의 운영 부담을 없애고 데이터 레이크하우스로의 직접적인 데이터 유입을 지원합니다.

팩트제로버스 인제스트는 미국 항공우주국(NASA)의 니오와이즈(NEOWISE) 데이터셋을 활용한 벤치마크에서 24시간 동안 1페타바이트의 데이터를 성공적으로 처리했습니다. 이 과정에서 단일 테이블에 대해 초당 12GB 이상의 지속적인 처리량을 기록하며 확장성을 입증했습니다.

교차검증기존 스트리밍 아키텍처는 파티션 개수를 미리 설정해야 하는 정적 구조로 인해 부하 예측과 인프라 튜닝에 많은 시간을 소비합니다. 제로버스는 스트림 연결 단위로 순서를 보장하는 동적 파티셔닝을 도입하여 이러한 제약을 극복합니다.

팩트제로버스 인제스트는 프로토버프(protobuf), 애로우(arrow), 제이슨(json) 형식을 지원합니다. 자체 개발한 제로파서(Zeroparser)는 메모리 할당 없이 단일 패스로 데이터를 처리하며 CPU 코어당 초당 약 1GB의 파싱 성능을 제공합니다.

주장제로버스의 핵심 설계 철학은 스트림 연결 수준에서 데이터 순서를 보장하는 방식입니다. 이를 통해 파티션 재설정 없이 부하에 따라 컴퓨팅 자원을 유연하게 확장하거나 축소하는 오토스케일링을 구현합니다.

팩트러스트(Rust) 언어의 라이프타임 시스템은 제로파서 설계의 핵심 요소로 활용됩니다. 이를 통해 프로토콜 파싱 과정에서 메모리 복사를 제거하고 컴파일 타임의 안전성을 확보하여 고성능 데이터 처리를 실현합니다.

교차검증전통적인 메시지 버스 시스템에서는 파티션이 병렬성과 순서 보장의 단위로 묶여 있어 파티션 개수 변경 시 소비자 측에서 데이터 정렬을 다시 맞춰야 하는 문제가 발생합니다. 제로버스는 이러한 결합을 끊어내어 운영 효율성을 극대화합니다.

주장데이터브릭스는 제로버스 인제스트가 사물인터넷(IoT) 센서, 위성 데이터, 자율주행 로그와 같이 지속적으로 발생하는 대규모 시계열 데이터를 처리하는 데 최적화되어 있다고 강조합니다. 엔지니어링 팀은 인프라 유지보수 대신 데이터 활용과 분석에 집중할 수 있습니다.

팩트제로버스 인제스트는 유니티 카탈로그(Unity Catalog)에 의해 관리됩니다. 데이터는 유입되는 즉시 델타 테이블(Delta tables)에 저장되어 쿼리 가능한 상태가 되며 이는 데이터 파이프라인의 지연 시간을 단축합니다.

주장이번 기술 도입으로 기업은 데이터 처리 인프라 구축에 소요되는 비용과 시간을 절감할 수 있습니다. 이는 대규모 데이터 환경에서 실시간 분석을 수행하려는 기업에 새로운 대안이 됩니다.

팩트데이터브릭스는 제로버스 인제스트를 통해 스트리밍 데이터의 처리 속도와 안정성을 동시에 확보했습니다. 이는 데이터 레이크하우스 아키텍처의 완성도를 높이는 결과로 이어집니다.

출처데이터브릭스 공식 블로그(https://www.databricks.com/blog/ingesting-milky-way-petabyte-scale-zerobus-ingest)를 통해 제로버스 인제스트의 설계 원리와 벤치마크 결과를 교차 검증했습니다.

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

버블 지표

상세보기 →

릴리즈 & 논문

전체보기 →

RELEASES

meta-llama/llama-stackv1.1.0

v1.1.0

이번 릴리즈에서는 라이브러리 클라이언트의 요청 빌드 전 헤더 정리, CI 환경에서 테스트 픽스처가 메인 서버 로그를 덮어쓰는 문제 수정, OpenAI 응답 스키마 드리프트 검사기 추가 등 다양한 수정 사항이 포함되었습니다. 또한, 라우터의 헬스 체크 및 벡터 스토어 팬아웃 병렬 처리, 비-OpenAI 모델을 위한 5단계 토크나이저 해석 체인 추가, pgvector에서 psycopg2를 asyncpg로 마이그레이션하는 등의 성능 개선 및 기능 추가가 이루어졌습니다. Anthropic Message Batches API가 추가되었으며, 여러 프로바이더의 비동기 안전성 개선 및 비밀 처리 강화 등 전반적인 안정성 향상에 초점을 맞추었습니다.

14시간 전

LangChainlangchain-core==1.4.6

langchain-core==1.4.6

이번 릴리즈에서는 추적 메타데이터에 패키지 버전 추적 기능이 추가되었습니다. 또한, v1 스트리밍 도구 호출이 정규화되었으며, 타입 체크 설정이 통합되었습니다.

20시간 전

LangChainlangchain-model-profiles==0.0.6

langchain-model-profiles 0.0.6

langchain-model-profiles 0.0.6 버전이 릴리즈되었습니다. 이번 업데이트에서는 모델 프로필에 `text_inputs` 및 `text_outputs` 필드가 추가되었으며, 프로필 생성을 위한 도구가 개선되었습니다. 또한, 여러 종속성이 업데이트되었습니다.

1일 전

LangChainlangchain-core==1.4.5

langchain-core==1.4.5

langchain-core 1.4.5 릴리즈에서는 스트리밍 시 툴 호출 청크 유효성 검사 기능이 추가되었습니다. 또한, 비동기 트레이서의 동기 컨텍스트에서의 대체 동작 및 구조화된 출력 모델의 대체 동작이 개선되었습니다.

1일 전

LangChainlangchain-mistralai==1.1.5

langchain-mistralai==1.1.5

MistralAI 라이브러리 1.1.5 버전이 출시되었습니다. 이번 업데이트에서는 MistralAI 통합 테스트의 안정성이 향상되었으며, 의존성 라이브러리들이 업데이트되었습니다. 또한, 코어 라이브러리의 변경 사항이 포함되었습니다.

1일 전

PAPERS