TGS, AWS 활용해 지진 기초 모델 학습 기간 6개월에서 5일로 단축
에너지 데이터 기업 TGS가 아마존 웹 서비스(AWS)의 인프라를 도입해 지진 기초 모델 학습 속도를 획기적으로 높였습니다. 기존 6개월이 걸리던 학습 과정을 5일로 줄이며 데이터 분석 효율을 극대화했습니다.
주장에너지 탐사 기업 TGS는 지진 기초 모델(SFM)의 학습 인프라를 현대화하여 모델 성능과 학습 속도를 개선했습니다. 이번 협업은 복잡한 3차원 지진 데이터를 분석하는 모델의 확장성을 확보하는 데 중점을 둡니다.
팩트TGS와 AWS 생성형 AI 혁신 센터는 비전 트랜스포머 기반 모델을 아마존 세이지메이커 하이퍼포드 환경에서 최적화했습니다. 이를 통해 기존 6개월이 소요되던 모델 학습 시간을 5일로 단축했습니다.
교차검증대규모 3차원 지진 데이터는 구조가 복잡하고 용량이 방대하여 그래픽 처리 장치(GPU) 유휴 시간을 방지하는 효율적인 스트리밍 전략이 필요합니다. TGS는 기존 파일 시스템 방식 대신 아마존 S3 직접 스트리밍 방식을 채택하여 데이터 병목 현상을 해결했습니다.
팩트학습 인프라에는 16개의 아마존 EC2 P5 인스턴스가 투입되었습니다. 각 인스턴스는 8개의 엔비디아 H200 GPU를 탑재하며 2048기가바이트의 시스템 램과 3200기가비피에스의 이파브이3(EFAv3) 네트워킹으로 초저지연 통신을 구현합니다.
팩트데이터 저장과 전송 과정에서 아마존 FSx for Lustre 대신 아마존 S3 직접 스트리밍을 선택하여 스토리지 비용을 90% 이상 절감했습니다. 이 방식은 노드별로 독립적인 연결을 생성하여 클러스터 규모가 커져도 선형적인 처리량 확장을 가능하게 합니다.
교차검증분산 학습 프레임워크 선정 과정에서 제로-2(ZeRO-2), 제로-3(ZeRO-3), 에프에스디피2(FSDP2)를 비교 검토했습니다. TGS는 메모리 효율성과 학습 처리량 사이의 균형을 고려해 딥스피드 제로-2를 최종 채택했습니다.
주장지진 기초 모델의 분석 능력은 모델이 한 번에 처리하는 3차원 볼륨 크기에 따라 결정됩니다. 컨텍스트 병렬화 기법을 도입함으로써 모델은 국부적인 세부 정보와 광범위한 지질 패턴을 동시에 파악합니다.
팩트아마존 세이지메이커 하이퍼포드는 자동 상태 모니터링과 체크포인트 관리를 제공하여 학습 인프라의 회복 탄력성을 높입니다. 모든 데이터 접근은 AWS 아이에이엠(IAM) 역할과 가상 사설 클라우드(VPC) 네트워크 격리를 통해 보안을 유지합니다.
팩트TGS는 자체 개발한 엠디아이오(MDIO) 데이터 형식을 사용합니다. 이는 클라우드 환경의 대규모 과학 데이터를 위해 자(Zarr) 배열을 기반으로 설계되었으며 수십억 개의 데이터 포인트를 처리하여 지하 지질 구조를 정밀하게 분석합니다.
출처아마존 웹 서비스 공식 블로그의 'Scaling seismic foundation models on AWS: Distributed training with Amazon SageMaker HyperPod and expanding context windows' 게시물을 교차 검증했습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.