MARKETS
KOSPI
KOSDAQ
S&P 500
NASDAQ
USD/KRW
BTC
NIKKEI
WTI
KOSPI
KOSDAQ
S&P 500
NASDAQ
USD/KRW
BTC
NIKKEI
WTI
Wittgenhaus

2026년 6월 3일 수요일

AI 시대, 당신을 더욱 스마트하게

AI검증

AWS FSx와 GPUDirect를 활용한 LLM 로딩 가속화

아마존 웹 서비스(AWS)가 FSx for Lustre와 엔비디아 GPUDirect Storage를 결합하여 대규모 언어 모델(LLM) 로딩 속도를 획기적으로 개선합니다. 기존 CPU 경유 방식을 탈피해 GPU 메모리로 데이터를 직접 전송함으로써 추론 성능을 최적화합니다.

2026년 6월 1일

주장대규모 언어 모델의 매개변수가 수천억 개 단위로 증가하면서 모델을 그래픽 처리 장치(GPU) 메모리에 적재하는 시간이 전체 추론 성능의 병목 현상으로 작용합니다. 아마존 FSx for Lustre와 엔비디아 GPUDirect Storage를 결합하면 기존의 비효율적인 로딩 방식을 개선하여 콜드 스타트 시간을 분 단위에서 초 단위로 단축합니다.

팩트전통적인 중앙 처리 장치(CPU) 기반 로딩 방식은 체크포인트 데이터를 CPU 메모리로 읽어 들인 뒤 PCIe 버스를 거쳐 GPU로 순차적으로 복사합니다. 이 과정은 단일 스레드 작업에 의존하며, 라마 3.1 405B 모델의 경우 로딩에만 10분에서 20분가량 소요됩니다.

교차검증브이엘엘엠(vLLM) V1 엔진과 같은 최신 서빙 프레임워크는 병렬 가중치 로딩을 도입하여 로딩 시간을 개선했습니다. 다만 데이터가 여전히 CPU 메모리와 PCIe 버스를 거쳐야 하므로 하드웨어 자원의 잠재력을 완전히 활용하는 데 한계가 있습니다.

팩트아마존 FSx for Lustre와 GPUDirect Storage를 사용하면 CPU와 시스템 메모리를 우회하여 데이터를 네트워크 인터페이스에서 GPU 고대역폭 메모리(HBM)로 직접 전송합니다. 이를 위해 아마존 엘라스틱 패브릭 어댑터(EFA)를 활용하며, P5en 인스턴스는 총 3,200 Gbps의 네트워크 대역폭을 제공합니다.

주장모델 로딩 시간이 길어지면 오토스케일링 반응성이 저하되고 장애 발생 시 복구 시간이 지연되는 등 운영상의 비효율이 발생합니다. GPU는 고가의 자원이므로 로딩 시간 동안 유휴 상태로 두는 것은 비용 효율성 측면에서 불리합니다.

팩트P5en 인스턴스는 8개의 엔비디아 H200 GPU를 탑재하며, 각 GPU는 141GB의 HBM3e 메모리를 보유합니다. 라마 3.1 405B와 같은 대형 모델은 단일 GPU에 적재할 수 없으므로 텐서 병렬 처리를 통해 여러 GPU에 분산 로딩합니다.

교차검증FSx for Lustre의 성능은 파일 시스템의 용량과 오브젝트 스토리지 타깃(OST) 수에 따라 선형적으로 확장됩니다. 더 큰 파일 시스템을 구성할수록 더 많은 병렬 입출력(I/O) 경로가 확보되어 데이터 처리 속도가 향상됩니다.

팩트아마존 웹 서비스는 최근 엔비디아 블랙웰 아키텍처 기반의 EC2 P6e 및 P6 인스턴스 제품군을 발표했습니다. P6e 울트라 서버는 72개의 블랙웰 GPU를 단일 엔브이링크(NVLink) 도메인으로 묶어 130 TB/s의 대역폭과 360 페타플롭스의 FP8 연산 성능을 제공합니다.

주장이번 기술 도입은 단순히 로딩 속도 개선에 그치지 않고, 터보퀀트(TurboQuant) KV 캐시 기술과 결합하여 컨텍스트 윈도우 크기를 대폭 확장할 수 있는 기반을 마련합니다. 이는 대규모 모델을 활용한 복잡한 추론 작업의 생산성을 높입니다.

주장데이터 전송 경로의 최적화는 인공지능 인프라 운영의 핵심 과제입니다. 이번 결합 기술은 고성능 컴퓨팅 자원의 가동률을 극대화하여 실시간 서비스의 안정성을 확보하는 데 기여합니다.

주장향후 대규모 언어 모델의 처리 효율을 높이기 위한 하드웨어와 소프트웨어 간의 통합 최적화는 더욱 가속화될 전망입니다. 기업은 이러한 기술적 변화를 통해 인공지능 서비스의 경쟁력을 확보해야 합니다.

출처아마존 웹 서비스 공식 블로그(https://aws.amazon.com/blogs/machine-learning/accelerate-llm-model-loading-and-increase-context-windows-with-gpudirect-on-amazon-fsx-for-lustre-and-turboquant/)를 교차 검증했습니다.

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

버블 지표

상세보기 →

릴리즈 & 논문

전체보기 →

RELEASES

microsoft/semantic-kernelpython-1.43.0

Python 1.43.0

이번 릴리즈에서는 Python 함수 호출 시 매개변수 일관성이 개선되었습니다. 또한, OpenAPI 문서 파싱 옵션이 변경되어 이전 버전과 호환되지 않을 수 있습니다. CI 파이프라인의 Python 테스트 커버리지 워크플로우도 강화되었습니다.

37분 전

OpenAIv2.41.0

v2.41.0

이번 릴리즈에서는 API에 responses.moderation 및 chat_completions.moderation 기능이 추가되었습니다. 자세한 변경 사항은 전체 변경 로그를 참고하시기 바랍니다.

37분 전

LangChainlangchain-deepseek==1.1.0

langchain-deepseek v1.1.0

이번 릴리즈에서는 Deepseek 파트너 라이브러리의 여러 종속성 업데이트와 함께 모델 프로필 데이터가 갱신되었습니다. 또한, Azure 엔드포인트 탐지를 위한 URL 파싱 방식이 개선되었으며, 특정 함수 딕션이 주어졌을 때 Azure 배포의 Tool Choice가 'required'로 설정되도록 수정되었습니다.

4시간 전

Transformersv5.10.1

릴리즈 v5.10.1

이전 릴리즈 v5.10.0이 손상된 브랜치에 게시되어 롤백되었습니다. 이번 릴리즈에서는 Gemma 4 12B Unified, Sapiens2, DeepSeek-OCR-2, Mellum 모델이 추가되었습니다. Gemma 4 비전 풀러는 float16 오버플로우를 방지하기 위해 입력값을 float32로 캐스팅하도록 변경되었습니다.

7시간 전

mistralai/mistral-commonv1.11.2

v1.11.2: from_openai 메서드 개선

get_validator에 대한 테스트 및 docstring이 추가되었습니다. from_openai 메서드가 개선되었습니다.

8시간 전

PAPERS