TFLOPS가 뭔데? — FLOPS의 정의부터 요즘 GPU의 실제 수치까지

IT 2026. 5. 5. 22:00

왜 이 글을 쓰게 됐나

이전에 텐서코어를 다룬 글에서 NVIDIA H100의 처리량을 표로 보여주면서 "989 TFLOPS", "1,979 TFLOPS", "3,958 TFLOPS" 같은 숫자를 자연스럽게 적었다. 그런데 막상 "TFLOPS가 정확히 뭐냐"고 물어보면 의외로 답하기 까다롭다. T는 테라(10¹²)니까 1조 단위라는 건 알겠는데, FLOPS는? 이걸 어떻게 측정하지? 왜 이 단위로 GPU를 비교할까?

이 글에서는 — TFLOPS의 정의, 역사, 등장 목적, 효과, 그리고 2026년 기준 우리가 사는 GPU들이 실제로 몇 TFLOPS인지를 정리한다.

1. FLOPS의 정의 — "1초에 부동소수점 연산을 몇 번 하는가"

FLOPS는 FLoating-point OPerations per Second의 약자다. 우리말로 옮기면 "초당 부동소수점 연산 횟수". 줄여서 "플롭스"라고 읽는다.

여기서 두 가지를 풀어봐야 한다.

"부동소수점 연산"이란?

컴퓨터가 다루는 숫자에는 두 가지 종류가 있다.

정수(integer): 1, 42, -7처럼 소수점이 없는 숫자.
부동소수점(floating-point): 3.14, 0.001, 1.5×10⁻⁸처럼 소수점이 움직일 수 있는 숫자.

"부동(浮動)"은 소수점의 위치가 고정되지 않고 떠다닌다는 뜻이다. 1.234를 표현할 때도, 12340.0을 표현할 때도, 같은 비트 수로 소수점만 옮겨가며 표현할 수 있다. 과학 계산, 그래픽 렌더링, AI 모델 학습 — 실세계 숫자를 다루는 거의 모든 작업이 부동소수점 연산이다.

그리고 "연산"은 보통 덧셈, 곱셈, FMA(Fused Multiply-Add, 곱셈 후 덧셈) 같은 기본 산술 연산을 가리킨다. 나눗셈이나 sqrt도 부동소수점 연산이지만, FLOPS 측정에서는 보통 곱셈+덧셈 비중이 압도적이다.

"초당 ~ 횟수"란?

그러니까 FLOPS는 — 이 칩이 1초에 부동소수점 곱셈/덧셈을 몇 번이나 처리할 수 있는가를 나타낸다. 1 FLOPS면 1초에 1번. 1,000 FLOPS면 1초에 1,000번.

현대 GPU는 이 숫자가 너무 커서 그대로 쓰기 불편하다. 그래서 SI 접두어를 붙여서 부른다.

diagram

TFLOPS = 1초에 부동소수점 연산을 1조 번 처리할 수 있다는 의미. 1,979 TFLOPS면 1초에 1조 9,790억 번이다. 사람 머릿속에는 잘 안 들어오는 숫자다.

2. 언제부터 쓰였나 — 슈퍼컴퓨터 시대의 유산

FLOPS라는 단위는 1970년대 슈퍼컴퓨터 업계에서 처음 표준화됐다. 그 전에는 "초당 명령어 수(MIPS)"로 컴퓨터 성능을 비교했는데, 과학 계산용 슈퍼컴퓨터의 핵심 워크로드인 부동소수점 연산을 제대로 반영하지 못했다.

1980년대 Cray-1 같은 슈퍼컴이 약 160 MFLOPS, 1990년대 초 Cray Y-MP가 약 333 MFLOPS. 1996년 인텔이 만든 ASCI Red가 미국 산디아 국립연구소에서 인류 최초로 1 TFLOPS 임계를 돌파했다. Pentium Pro 9,298개를 묶은 시스템이었고, 가격은 약 5,500만 달러, 운영에는 850 kW의 전력을 썼다.

그런데 12년 뒤인 2008년, AMD의 Radeon HD 4870(RV770) 그래픽카드가 1.2 TFLOPS를 단돈 299달러에 제공했다. 책상 위 그래픽카드 한 장이 12년 전의 슈퍼컴퓨터를 따라잡은 셈이다. 이 시점부터 TFLOPS는 슈퍼컴 전용 단위에서 일반 GPU 사양표의 표준 단위로 내려왔다.

3. 어떤 목적으로 사용되었나

FLOPS가 등장한 목적은 명확하다. "이 컴퓨터가 과학 계산을 얼마나 빨리 할 수 있는가"를 한 숫자로 비교하기 위해서다.

슈퍼컴퓨터의 주 고객은 핵무기 시뮬레이션, 기상 예측, 분자 동역학, 항공우주 설계 같은 분야다. 이런 작업은 거대한 수치 행렬을 반복적으로 계산한다. CPU 아키텍처가 어떻든, 캐시가 얼마든, 명령어 셋이 뭐든 — 사용자가 알고 싶은 건 결국 "내 시뮬레이션이 며칠 걸리는가, 며칠로 단축되는가"다. FLOPS는 그 질문에 가장 가까운 단일 지표다.

현대에 이 단위가 GPU에 그대로 쓰이는 이유도 같다. AI 학습/추론, 그래픽 렌더링, 과학 시뮬레이션 — 모두 부동소수점 연산의 대량 반복이다. "이 GPU로 GPT-3 학습이 며칠 걸리겠는가"를 가늠하려면 TFLOPS가 가장 직관적이다.

4. 이 단위를 사용함으로써 어떤 효과가 있는가

① 이질적인 하드웨어를 한 줄로 비교 가능

NVIDIA H100과 AMD MI300X는 아키텍처가 완전히 다르다. CUDA 코어 수도 다르고, 메모리 대역폭도 다르고, 명령어 셋도 다르다. 그런데 둘 다 "FP16에서 약 2,000 TFLOPS"라고 하면 — 워크로드 종류에 따라 차이는 있겠지만 — 대략 비슷한 급이라는 걸 즉각 알 수 있다. 비교 가능성이 단위의 가장 큰 효용이다.

② 정밀도별로 쪼개서 보여줄 수 있다

같은 칩이라도 어떤 정밀도로 계산하느냐에 따라 처리량이 다르다. FP64(과학계산용 64비트)는 느리고, FP32(그래픽용 32비트)는 보통, FP16(AI용 16비트)은 빠르고, FP8/FP4(AI 추론 가속용)는 가장 빠르다. 정밀도별 TFLOPS를 따로 표기하면 "이 칩으로 어떤 워크로드를 돌릴 때 얼마나 빠른지"를 정확히 알 수 있다.

정밀도	비트 수	주 용도
FP64	64비트	과학 시뮬레이션, 정밀 계산
FP32	32비트	그래픽, 게임, 일반 GPU 연산
FP16/BF16	16비트	AI 학습, 추론
FP8	8비트	최신 AI 추론 가속
FP4	4비트	차세대 추론 가속 (Blackwell~)

③ Capacity planning의 기준이 된다

"우리 회사가 LLaMA 70B 학습을 6주 안에 끝내려면 GPU가 몇 대 필요할까?" 같은 질문을 답하려면 모델의 총 연산량(FLOPs, 소문자 s — 단발 연산 횟수)을 추정하고, 보유 가능한 GPU의 TFLOPS와 가용률(보통 30~50%)을 곱해서 시간을 계산한다. AI 인프라 설계의 거의 모든 견적이 이 단위에서 출발한다.

④ 마케팅·구매 의사결정의 공통어

일반 소비자도 그래픽카드를 살 때 "RTX 4070이 29 TFLOPS네", "RTX 4090은 83 TFLOPS네" 정도는 비교한다. 디테일을 모르더라도 단일 숫자로 가성비를 가늠할 수 있다는 건 큰 효용이다.

⚠ 함정도 있다 — Peak vs Sustained

사양표에 나온 TFLOPS는 거의 모두 이론 최댓값(peak)이다. 모든 코어가 100% 가동되고, 메모리 병목이 전혀 없고, 데이터 전송 지연이 없을 때의 숫자. 실제 워크로드에서는 보통 이 값의 30~70% 정도만 사용된다. 그래서 "TFLOPS만 보지 말고 실측 벤치마크도 같이 보라"는 격언이 있다.

5. 2026년 기준 GPU의 실제 TFLOPS는?

이제 본론. 가정용·기업용 GPU가 실제로 어느 정도 수치를 내는지 보자. 모두 FP16 기준(텐서코어/매트릭스 코어 포함)이다.

가정용 GPU

GPU	FP32	FP16 (Tensor)	메모리	출시 가격대
RTX 4060	15 TFLOPS	~120 TFLOPS	8 GB	$300
RTX 4070	29 TFLOPS	~230 TFLOPS	12 GB	$600
RTX 4080	49 TFLOPS	~390 TFLOPS	16 GB	$1,200
RTX 4090	83 TFLOPS	~660 TFLOPS	24 GB	$1,600
RTX 5090 (Blackwell)	~105 TFLOPS	~840 TFLOPS	32 GB	$2,000
Apple M4 Max (GPU)	~17 TFLOPS	~34 TFLOPS	최대 128 GB (통합)	노트북 일체형

가정용 시장의 정점인 RTX 4090이 FP16에서 약 660 TFLOPS. 1996년 ASCI Red(1 TFLOPS, 5,500만 달러)와 비교하면 30년 만에 660배 빠른 칩이 1,600달러에 팔리고 있는 셈이다. 가성비로 환산하면 약 2,000만 배 향상.

기업용·데이터센터급 GPU

GPU	FP16 (Tensor)	FP8 (있을 시)	메모리	단가
A100 (2020)	312 TFLOPS	— (미지원)	80 GB HBM2e	~$15,000
H100 (2022)	1,979 TFLOPS	3,958 TFLOPS	80 GB HBM3	~$30,000~$40,000
H200 (2024)	1,979 TFLOPS	3,958 TFLOPS	141 GB HBM3e	~$40,000+
B200 (2024, Blackwell)	4,500 TFLOPS	9,000 TFLOPS (FP4: 18,000)	192 GB HBM3e	~$40,000+
AMD MI300X (2023)	1,307 TFLOPS	2,615 TFLOPS	192 GB HBM3	~$15,000~$20,000
Google TPU v5p	~459 TFLOPS	~918 TFLOPS	95 GB HBM	클라우드 전용

기업용 정점은 NVIDIA B200(Blackwell)이 FP16에서 4,500 TFLOPS. FP4까지 쓰면 18,000 TFLOPS에 도달한다. 이게 한 장당 4만 달러대고, 보통 8장씩 묶은 DGX/HGX 서버 단위(약 30만~40만 달러)로 판매된다.

참고로 ChatGPT 학습에 쓰인 NVIDIA A100을 약 1만 대 사용했다고 알려져 있고, GPT-4급 모델은 H100을 2~3만 대 규모로 사용한 것으로 추정된다. 단순 계산하면 H100 2만 대의 총 처리량은 약 40 EFLOPS(엑사플롭스, 100경 단위) 수준이다. 이쯤 되면 슈퍼컴 단위가 등장한다.

최첨단 슈퍼컴퓨터 — 비교 참고용

El Capitan (2024, 美 LLNL): 1.74 EFLOPS (FP64). 세계 1위.
Frontier (2022, 美 ORNL): 1.21 EFLOPS (FP64). 세계 최초 엑사스케일 돌파.
Aurora (2023, 美 ANL): 1.01 EFLOPS (FP64).

이 슈퍼컴들은 모두 수만~수십만 개의 GPU를 묶어서 만든 클러스터다. 즉 — 슈퍼컴퓨터의 본질도 결국 "GPU의 대규모 병렬 연결"이다. 단일 칩(B200 한 장)도 이미 4.5 PFLOPS(FP16)니까, 기술적으로는 칩 230장만 있으면 1 EFLOPS가 가능하다.

정리

FLOPS는 "초당 부동소수점 연산 횟수". 컴퓨터의 수치 계산 처리량을 측정하는 표준 단위다.
TFLOPS는 1조 FLOPS. 1996년 슈퍼컴퓨터에서 처음 돌파했고, 2008년 그래픽카드로 내려왔으며, 지금은 GPU 사양표의 기본 단위가 됐다.
등장 목적은 이질적인 하드웨어를 한 숫자로 비교하기 위함. 정밀도(FP64/32/16/8/4)별로 쪼개서 워크로드별 처리량을 따로 보여줄 수 있다.
가정용 GPU는 RTX 4090이 660 TFLOPS, RTX 5090이 840 TFLOPS 수준. 한 장에 1,600~2,000달러.
기업용 GPU는 H100이 1,979 TFLOPS, B200이 4,500 TFLOPS(FP4 환산 18,000). 한 장에 3~4만 달러.
주의: 사양표의 TFLOPS는 이론 최댓값. 실측은 보통 30~70% 수준이라 벤치마크와 함께 봐야 한다.

30년 전 슈퍼컴이 1 TFLOPS, 지금 가정용 GPU가 660 TFLOPS, 데이터센터용이 4,500 TFLOPS. 이 가속이 멈추지 않는 한 AI 모델은 계속 커지고, 더 똑똑해지고, 더 싸진다. TFLOPS는 그 가속을 한 줄로 보여주는 단위다.

이 글은 생성형 AI의 도움을 받아 작성되었습니다. 원본 자료를 기반으로 AI가 초안을 생성하고, 작성자가 검토·편집하였습니다.

저작자표시 (새창열림)

'IT' 카테고리의 다른 글

Ollama에서 vLLM으로 백엔드를 바꿨더니 throughput이 148% 올랐다 — 같은 모델, 다른 엔진 (0)	2026.05.06
Gemma 4에서 Qwen 3.6으로 갈아탔다 — 두 모델을 모든 지표로 비교한 기록 (0)	2026.05.06
Fused 커널은 왜 3~4배 빠른가 — GPU 메모리 계층과 Marlin의 비밀 (0)	2026.05.05
Q4 양자화는 GPU 안에서 어떻게 동작하나 — Blackwell FP8 텐서코어와의 만남 (0)	2026.05.05
FP8이 왜 FP16보다 45% 빠를까 — Blackwell GPU의 '텐서코어 네이티브 처리' 이해하기 (0)	2026.05.05
텐서코어, 한 명령에 행렬 곱을 끝낸다는 게 무슨 뜻인가 (0)	2026.05.05
context7 MCP, 설치만 하고 끝낼 뻔했다 — 도구 도입의 진짜 일은 트리거 설계 (2)	2026.05.04
GitHub MCP 서버 도입기 — gh CLI 대신 JSON-RPC로 깃헙과 대화하기 (0)	2026.05.04
Inter 금지, 보라 그라데이션 금지 — frontend-design 스킬이 가르쳐 준 것 (0)	2026.05.03
스킬을 찾아주는 스킬 — find-skills로 에이전트 생태계 뒤지기 (3)	2026.05.03

ABOUT ME

아프니까 개발자다 아프니까 개발자다

왜 이 글을 쓰게 됐나

1. FLOPS의 정의 — "1초에 부동소수점 연산을 몇 번 하는가"

"부동소수점 연산"이란?

"초당 ~ 횟수"란?

2. 언제부터 쓰였나 — 슈퍼컴퓨터 시대의 유산

3. 어떤 목적으로 사용되었나

4. 이 단위를 사용함으로써 어떤 효과가 있는가

① 이질적인 하드웨어를 한 줄로 비교 가능

② 정밀도별로 쪼개서 보여줄 수 있다

③ Capacity planning의 기준이 된다

④ 마케팅·구매 의사결정의 공통어

⚠ 함정도 있다 — Peak vs Sustained

5. 2026년 기준 GPU의 실제 TFLOPS는?

가정용 GPU

기업용·데이터센터급 GPU

최첨단 슈퍼컴퓨터 — 비교 참고용

정리

'IT' 카테고리의 다른 글

티스토리툴바

ABOUT ME

왜 이 글을 쓰게 됐나

1. FLOPS의 정의 — "1초에 부동소수점 연산을 몇 번 하는가"

"부동소수점 연산"이란?

"초당 ~ 횟수"란?

2. 언제부터 쓰였나 — 슈퍼컴퓨터 시대의 유산

3. 어떤 목적으로 사용되었나

4. 이 단위를 사용함으로써 어떤 효과가 있는가

① 이질적인 하드웨어를 한 줄로 비교 가능

② 정밀도별로 쪼개서 보여줄 수 있다

③ Capacity planning의 기준이 된다

④ 마케팅·구매 의사결정의 공통어

⚠ 함정도 있다 — Peak vs Sustained

5. 2026년 기준 GPU의 실제 TFLOPS는?

가정용 GPU

기업용·데이터센터급 GPU

최첨단 슈퍼컴퓨터 — 비교 참고용

정리

'IT' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바