오픈에이아이, AI 슈퍼컴퓨터 병목 해결 위한 MRC 프로토콜 공개
오픈에이아이가 대규모 인공지능 모델 학습 시 발생하는 네트워크 병목 현상을 해결하기 위해 새로운 프로토콜인 MRC를 발표했습니다. 이 기술은 다중 경로 전송을 통해 데이터 지연을 최소화하고 하드웨어 운영 효율을 높입니다.
주장오픈에이아이는 인공지능 슈퍼컴퓨터의 데이터 전송 병목 현상을 해결하기 위해 새로운 네트워크 프로토콜인 MRC를 개발했습니다. 이 기술은 대규모 언어 모델 학습 과정에서 발생하는 네트워크 지연과 장애 문제를 근본적으로 개선합니다.
팩트MRC는 다중 경로 신뢰성 연결을 의미하는 멀티패스 릴라이어블 커넥션(Multipath Reliable Connection)의 약자입니다. 이 프로토콜은 데이터를 단일 경로가 아닌 수백 개의 경로로 동시에 분산 전송하여 네트워크 혼잡을 줄입니다.
팩트기존 네트워크 구조는 장애 발생 시 복구에 수 초에서 수십 초가 소요되었습니다. 반면 MRC는 마이크로초 단위로 문제를 감지하고 우회 경로를 설정하여 학습 중단 없는 연속성을 보장합니다.
주장MRC의 다중 평면 네트워크 설계는 하드웨어 인프라의 효율성을 극대화합니다. 이 설계는 기존 3~4단계의 이더넷 스위치 구조를 2단계로 축소하여 전력 소비와 비용을 절감합니다.
팩트오픈에이아이는 이 기술을 통해 10만 개 이상의 그래픽 처리 장치(GPU)를 효율적으로 연결할 수 있다고 밝혔습니다. 이는 대규모 인공지능 모델 학습을 위한 슈퍼컴퓨터 구축 시 물리적 복잡성을 크게 낮춥니다.
팩트MRC 프로토콜은 이미 오픈에이아이의 대규모 엔비디아 GB200 슈퍼컴퓨터에 적용되었습니다. 해당 기술은 텍사스 애빌린의 오라클 클라우드 인프라와 마이크로소프트의 페어워터 슈퍼컴퓨터에서 실제 운영 중입니다.
팩트최근 챗GPT와 코덱스 모델 학습 과정에서 스위치 재부팅이 필요했으나, MRC를 적용한 환경에서는 학습 작업을 중단하거나 별도의 조정 없이 작업을 지속했습니다. 이는 네트워크 유지보수 효율성을 입증하는 사례입니다.
교차검증이번 기술 개발에는 오픈에이아이뿐만 아니라 에이엠디(AMD), 브로드컴, 인텔, 마이크로소프트, 엔비디아가 공동으로 참여했습니다. 이는 인공지능 인프라 표준화가 특정 기업의 독점이 아닌 업계 전반의 협력으로 진행되고 있음을 보여줍니다.
주장업계 전반의 협력으로 완성된 MRC는 향후 데이터 센터 네트워크의 표준으로 자리 잡을 가능성이 큽니다. 다수의 기업이 기술 사양을 공유함으로써 인프라 생태계의 확장성을 확보했습니다.
팩트MRC 사양과 관련 연구 논문은 오픈 컴퓨트 프로젝트를 통해 공식적으로 공개되었습니다. 이는 기술의 투명성을 높이고 데이터 센터 네트워크 표준으로 자리 잡기 위한 전략적 행보입니다.
출처더 디코더(The Decoder) 보도 내용 및 오픈 컴퓨트 프로젝트(Open Compute Project) 공식 자료를 교차 검증했습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.