FMA
-
텐서코어, 한 명령에 행렬 곱을 끝낸다는 게 무슨 뜻인가IT 2026. 5. 5. 21:00
왜 이 글을 쓰게 됐나이전에 GPU에서 LLM까지 추론 스택을 해부하는 글을 쓰면서, 가장 아래 레이어인 GPU 하드웨어를 "텐서코어가 들어 있는 칩"이라고만 짧게 언급하고 지나갔다. 그런데 이 텐서코어라는 게 사실 그 위의 모든 레이어 — CUDA, PyTorch, FlashAttention, vLLM, Quantization — 가 결국 효율적으로 활용하려고 매달리는 단 하나의 물리 장치다."한 명령에 행렬 곱을 묶어서 처리하는 전용 회로"라는 한 줄 설명을 들었을 때, 멋있긴 한데 정확히 무슨 의미인지 머릿속에 그려지지 않았다. 명령 하나로 행렬 곱을 어떻게 한 번에? 그게 왜 그렇게 대단한 거지? 이 글은 그 질문들을 풀어가는 글이다.1. 먼저, 텐서가 뭔가"텐서"라는 단어가 어렵게 느껴지는 이유..