데이터브릭스, 아파치 아이스버그 v3 퍼블릭 프리뷰 공개
데이터브릭스가 아파치 아이스버그 v3를 퍼블릭 프리뷰로 출시했습니다. 이번 업데이트는 성능과 상호운용성을 동시에 확보해 데이터 운영 효율을 극대화합니다.
주장데이터브릭스가 아파치 아이스버그 v3를 퍼블릭 프리뷰로 공개하며 오픈 레이크하우스의 새로운 전환점을 마련했습니다. 이번 업데이트는 성능과 상호운용성 사이의 타협을 끝내고 데이터 팀의 운영 효율을 극대화합니다.
팩트아이스버그 v3는 로우 리니지, 삭제 벡터, 베리언트라는 세 가지 핵심 기능을 도입했습니다. 이 기능들은 오픈 사양에 포함되어 다양한 엔진 간의 호환성을 유지하면서도 높은 성능을 지원합니다.
팩트로우 리니지는 모든 행에 영구적인 행 아이디와 수정 시점을 나타내는 시퀀스 번호를 부여합니다. 데이터 팀은 이 정보를 활용해 변경된 행을 즉시 식별하고 증분 데이터 처리를 효율적으로 수행합니다.
팩트삭제 벡터는 데이터를 물리적으로 다시 쓰지 않고 논리적 삭제를 추적합니다. 이 방식은 기존의 복사 후 쓰기 방식보다 데이터 조작 성능을 최대 10배까지 향상시킵니다.
주장베리언트 타입은 반정형 데이터를 처리할 때 발생하는 스키마 경직성 문제를 해결합니다. 데이터 팀은 별도의 정규화 과정 없이 원시 데이터를 수집하고 표준 구조화 질의어인 에스큐엘로 쿼리할 수 있습니다.
교차검증과거에는 반정형 데이터를 처리하기 위해 엄격한 스키마를 강제하거나 원시 문자열로 저장하는 방식을 사용했습니다. 하지만 이러한 방식은 파이프라인의 불안정성을 초래하거나 쿼리 속도를 저하시키는 한계가 있었습니다.
팩트유니티 카탈로그는 아이스버그 생태계의 중앙 허브 역할을 수행합니다. 이 카탈로그는 스노우플레이크, 에이더블유에스 글루, 세일즈포스 등 외부 카탈로그에 등록된 아이스버그 테이블과도 상호운용합니다.
주장데이터브릭스는 유니티 카탈로그를 통해 외부 엔진에서도 세밀한 접근 제어를 지원합니다. 행 필터와 열 마스킹을 한 번만 정의하면 데이터가 접근되는 모든 곳에서 일관된 보안 정책이 적용됩니다.
팩트델타 레이크와 유니폼 기능을 결합하면 델타 레이크에 한 번만 기록해도 아이스버그 엔진에서 읽기가 가능합니다. 이는 데이터 복제 파이프라인을 유지할 필요 없이 단일 데이터 복사본으로 여러 엔진을 지원합니다.
교차검증다른 관리형 아이스버그 서비스는 테이블 유지 관리나 파일 레이아웃 최적화를 사용자가 직접 수행해야 합니다. 반면 데이터브릭스는 예측 최적화와 자동 리퀴드 클러스터링을 통해 운영 부담을 제거합니다.
출처데이터브릭스 공식 블로그의 아파치 아이스버그 v3 퍼블릭 프리뷰 발표 내용을 교차 검증했습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.