홈
태그
미디어로그
위치로그
방명록

분류 전체보기 (483)
- IT (483)
  - Tizen (114)

ABOUT ME

-

트위터
인스타그램

Today: -

Yesterday: -

Total: -

아프니까 개발자다 아프니까 개발자다

컨텐츠 검색 블로그 내 검색

NGC

GPU에서 LLM까지, 추론 스택 완전 해부
IT 2026. 4. 13. 21:00

왜 이 글을 쓰게 됐나로컬 환경에서 LLM을 직접 돌려보면서 vLLM, FlashAttention, NGC 같은 이름을 처음 접했다. PyTorch로 모델 돌리면 되는 거 아니야? 했는데, 알고 보니 GPU 하드웨어와 LLM 사이에는 각자 다른 병목을 해결하는 소프트웨어 레이어가 겹겹이 쌓여 있었다.이 글에서는 전체 스택을 관통하는 하나의 질문 — "이 레이어는 무슨 문제를 풀기 위해 등장했는가?" — 을 축으로 정리한다. 각 레이어에서 가장 핵심적인 기술 딱 하나만 골라서 집중적으로 설명한다.전체 레이어 다이어그램L1. GPU 하드웨어 — 왜 CPU가 아니라 GPU인가LLM 추론의 핵심 연산은 거대한 행렬 곱셈이다. "A 행렬 × B 행렬"을 수십억 번 반복하는 것. CPU는 코어가 수십 개라서 복잡한..

이전

1

다음

인기포스트

ABOUT ME

http://facebook.com/theojini

LINK

ADMIN

admin 글쓰기

Designed by Tistory.

티스토리툴바