오픈AI, AI 슈퍼컴퓨터 네트워크 효율 높이는 MRC 기술 공개
오픈AI가 대규모 인공지능 모델 학습의 안정성을 높이는 새로운 네트워크 프로토콜 MRC를 발표했습니다. 이 기술은 네트워크 장애를 실시간으로 우회하며 데이터 전송 효율을 극대화합니다. 현재 주요 슈퍼컴퓨터 인프라에 도입되어 운영 중입니다.
주장오픈AI는 대규모 인공지능 모델 학습 과정에서 발생하는 네트워크 복잡성을 해결하고자 새로운 프로토콜인 MRC를 개발했습니다. 이 기술은 네트워크 장애 발생 시에도 학습 작업을 중단하지 않고 유지하여 인프라의 안정성을 높입니다.
팩트오픈AI는 2026년 5월 5일 AMD, 브로드컴, 인텔, 마이크로소프트, 엔비디아와 협력하여 MRC 프로토콜을 발표했습니다. MRC는 800Gb/s 네트워크 인터페이스에서 작동하며 데이터를 수백 개의 경로로 분산 전송하여 네트워크 혼잡을 방지합니다.
교차검증대규모 클러스터 규모가 커질수록 네트워크 혼잡과 장비 고장 문제는 기하급수적으로 증가합니다. 기존 네트워크 방식은 단 하나의 장애만으로도 전체 학습 작업이 중단되거나 체크포인트부터 다시 시작해야 하는 비용 문제를 발생시켰습니다.
팩트MRC는 기존의 RDMA over Converged Ethernet 표준을 확장한 기술입니다. SRv6 기반의 소스 라우팅을 활용하여 마이크로초 단위로 장애를 우회하며 네트워크 제어 평면을 단순화합니다.
팩트MRC는 네트워크 토폴로지를 재설계하여 800Gb/s 링크를 여러 개의 100Gb/s 평면으로 분할합니다. 이를 통해 단 2단계의 스위치 계층만으로 약 13만 1천 개의 그래픽 처리 장치를 완전히 연결하여 비용과 전력 소비를 절감합니다.
교차검증전통적인 네트워크 프로토콜은 데이터 순서 유지를 위해 단일 경로를 고집하여 병목 현상을 유발합니다. MRC는 패킷에 최종 메모리 주소를 포함하여 경로가 바뀌어도 목적지에서 데이터를 올바르게 재조합하도록 설계되었습니다.
팩트MRC는 경로 혼잡이 감지되면 즉시 다른 경로로 전환하여 부하를 분산합니다. 패킷 손실이 발생하면 해당 경로를 즉시 차단하고 재전송을 수행하며 이후 프로브 패킷으로 경로의 복구 여부를 지속적으로 확인합니다.
팩트현재 MRC는 오픈AI의 대규모 엔비디아 GB200 슈퍼컴퓨터에 이미 배포되어 운영 중입니다. 텍사스 애빌린의 오라클 클라우드 인프라와 마이크로소프트의 페어워터 슈퍼컴퓨터 등에서 실제 모델 학습에 활용합니다.
주장오픈AI는 MRC를 오픈 컴퓨트 프로젝트를 통해 업계에 공개함으로써 인공지능 인프라의 표준화를 도모합니다. 인프라 계층의 공유 표준은 파트너 생태계 전반에서 인공지능 시스템을 더 효율적이고 안정적으로 확장하는 데 기여합니다.
출처오픈AI 공식 엔지니어링 블로그와 오픈 컴퓨트 프로젝트 기술 문서를 통해 해당 내용을 교차 검증했습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.