AI검증

AWS FSx와 GPUDirect를 활용한 LLM 로딩 가속화

아마존 웹 서비스(AWS)가 FSx for Lustre와 엔비디아 GPUDirect Storage를 결합하여 대규모 언어 모델(LLM) 로딩 속도를 획기적으로 개선합니다. 기존 CPU 경유 방식을 탈피해 GPU 메모리로 데이터를 직접 전송함으로써 추론 성능을 최적화합니다.

2026년 6월 1일

주장대규모 언어 모델의 매개변수가 수천억 개 단위로 증가하면서 모델을 그래픽 처리 장치(GPU) 메모리에 적재하는 시간이 전체 추론 성능의 병목 현상으로 작용합니다. 아마존 FSx for Lustre와 엔비디아 GPUDirect Storage를 결합하면 기존의 비효율적인 로딩 방식을 개선하여 콜드 스타트 시간을 분 단위에서 초 단위로 단축합니다.

팩트전통적인 중앙 처리 장치(CPU) 기반 로딩 방식은 체크포인트 데이터를 CPU 메모리로 읽어 들인 뒤 PCIe 버스를 거쳐 GPU로 순차적으로 복사합니다. 이 과정은 단일 스레드 작업에 의존하며, 라마 3.1 405B 모델의 경우 로딩에만 10분에서 20분가량 소요됩니다.

교차검증브이엘엘엠(vLLM) V1 엔진과 같은 최신 서빙 프레임워크는 병렬 가중치 로딩을 도입하여 로딩 시간을 개선했습니다. 다만 데이터가 여전히 CPU 메모리와 PCIe 버스를 거쳐야 하므로 하드웨어 자원의 잠재력을 완전히 활용하는 데 한계가 있습니다.

팩트아마존 FSx for Lustre와 GPUDirect Storage를 사용하면 CPU와 시스템 메모리를 우회하여 데이터를 네트워크 인터페이스에서 GPU 고대역폭 메모리(HBM)로 직접 전송합니다. 이를 위해 아마존 엘라스틱 패브릭 어댑터(EFA)를 활용하며, P5en 인스턴스는 총 3,200 Gbps의 네트워크 대역폭을 제공합니다.

주장모델 로딩 시간이 길어지면 오토스케일링 반응성이 저하되고 장애 발생 시 복구 시간이 지연되는 등 운영상의 비효율이 발생합니다. GPU는 고가의 자원이므로 로딩 시간 동안 유휴 상태로 두는 것은 비용 효율성 측면에서 불리합니다.

팩트P5en 인스턴스는 8개의 엔비디아 H200 GPU를 탑재하며, 각 GPU는 141GB의 HBM3e 메모리를 보유합니다. 라마 3.1 405B와 같은 대형 모델은 단일 GPU에 적재할 수 없으므로 텐서 병렬 처리를 통해 여러 GPU에 분산 로딩합니다.

교차검증FSx for Lustre의 성능은 파일 시스템의 용량과 오브젝트 스토리지 타깃(OST) 수에 따라 선형적으로 확장됩니다. 더 큰 파일 시스템을 구성할수록 더 많은 병렬 입출력(I/O) 경로가 확보되어 데이터 처리 속도가 향상됩니다.

팩트아마존 웹 서비스는 최근 엔비디아 블랙웰 아키텍처 기반의 EC2 P6e 및 P6 인스턴스 제품군을 발표했습니다. P6e 울트라 서버는 72개의 블랙웰 GPU를 단일 엔브이링크(NVLink) 도메인으로 묶어 130 TB/s의 대역폭과 360 페타플롭스의 FP8 연산 성능을 제공합니다.

주장이번 기술 도입은 단순히 로딩 속도 개선에 그치지 않고, 터보퀀트(TurboQuant) KV 캐시 기술과 결합하여 컨텍스트 윈도우 크기를 대폭 확장할 수 있는 기반을 마련합니다. 이는 대규모 모델을 활용한 복잡한 추론 작업의 생산성을 높입니다.

주장데이터 전송 경로의 최적화는 인공지능 인프라 운영의 핵심 과제입니다. 이번 결합 기술은 고성능 컴퓨팅 자원의 가동률을 극대화하여 실시간 서비스의 안정성을 확보하는 데 기여합니다.

주장향후 대규모 언어 모델의 처리 효율을 높이기 위한 하드웨어와 소프트웨어 간의 통합 최적화는 더욱 가속화될 전망입니다. 기업은 이러한 기술적 변화를 통해 인공지능 서비스의 경쟁력을 확보해야 합니다.

출처아마존 웹 서비스 공식 블로그(https://aws.amazon.com/blogs/machine-learning/accelerate-llm-model-loading-and-increase-context-windows-with-gpudirect-on-amazon-fsx-for-lustre-and-turboquant/)를 교차 검증했습니다.

주제

AI 반도체 아마존 LLM 엔비디아

관련 콘텐츠

← 목록으로 돌아가기

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

글로벌 인텔리전스

전체보기 →

SCMP

UK PM Burnham to welcome Ukraine’s Zelensky in first foreign leader visit — Britain’s Prime Minister Andy Burnham will on Monday host Ukrainian President Volodymyr Zelensky as his first foreign leader since taking office a week ago, to underline London’s “unwavering support” for Kyiv. The pair are set to visit a British naval base and hear from both countries’ armed forces

3시간 전

SCMP

Nobel laureate Simon Johnson on the AI race and China’s ‘over-automation’ problem — Simon Johnson is a professor of entrepreneurship at the Massachusetts Institute of Technology (MIT). A former chief economist of the International Monetary Fund (IMF), he won a joint Nobel Prize for economics in 2024 for his research into how institutions shape national prosperity. On June 8, the Br

3시간 전

SCMP

US border tsar says vetting of ICE officer is under internal review after Maine shooting — US President Donald Trump’s border tsar said on Sunday that the vetting of an immigration officer involved in the deadly shooting of a Colombian native in Maine is under internal review after relatives revealed to Associated Press that he had a history of serious mental health struggles and violent

3시간 전

본 페이지의 정보는 공개 채널을 통해 자동 수집되는 정보로 정보의 정확성·완전성을 보장하지 않으며, Wittgenhaus의 공식 입장이 아닙니다. 이를 근거로 한 판단과 행위의 결과에 Wittgenhaus는 책임을 지지 않습니다.

버블 지표

상세보기 →

많이 본 콘텐츠

루마니아의 러시아 드론 격추 및 외교적 항의

국제6시간 전

먼데이닷컴 등 기술 기업의 인공지능 전환에 따른 대규모 인력 감축

경제22시간 전

오픈에이아이의 허깅페이스 시스템 침해와 투명성 요구

AI6시간 전

앤스로픽 클로드 오퍼스 5의 ARC-AGI-3 벤치마크 신기록 달성

AI12시간 전

오픈에이아이 지피티-5 모델의 생화학 무기 정보 제공 논란

AI12시간 전

릴리즈 & 논문

전체보기 →

RELEASES

vLLMv0.26.0

v0.26.0 릴리즈

이번 릴리즈에서는 Inkling 모델 제품군 지원, DeepSeek-V4 성능 향상, fp32 `lm_head` 지원 추가, 유연한 어텐션 백엔드, KV 오프로딩 및 계층형 보조 스토리지 기능 강화 등 다양한 업데이트가 포함되었습니다. 또한 Rust 프론트엔드 기능 확장 및 Transformers 5.13.0 지원이 추가되었습니다.

1일 전

LangChainlangchain-anthropic==1.5.2

langchain-anthropic==1.5.2

Claude Opus 5 모델 지원이 추가되었습니다. 이번 릴리즈는 이전 버전인 langchain-anthropic==1.5.1 이후의 변경 사항을 포함합니다.

2일 전

Anthropicv0.120.0

v0.120.0

이번 릴리즈에서는 claude-opus-5 모델이 추가되었습니다. 또한, 도구 추가/제거 블록 및 tool_change 이벤트가 지원되며, 클라이언트 측 대체 크레딧 토큰 유형이 확장되고 서버 측 대체 기본 옵션이 추가되었습니다.

2일 전

LangChainlangchain-openai==1.4.1

langchain-openai==1.4.1

이번 릴리즈에서는 LangSmith 게이트웨이를 환경 변수를 통해 지원하도록 기능이 추가되었습니다. 또한 `gpt-5.3-chat-latest` 프로필이 수정되었습니다.