torchaudio
-
pyannote 화자 분리가 GPU에서 안 돌아갈 때 — Blackwell nvrtc 패치 1줄의 힘IT 2026. 3. 19. 23:00
33분짜리 학부모 총회 녹음을 AI로 전사했다. 텍스트는 나왔는데, 누가 말한 건지 구분이 안 된다. 교장, 교감, 교무부장, 담임 — 최소 4명이 번갈아 말했는데 전부 "Speaker 1"로 찍힌다. pyannote-audio라는 화자 분리(speaker diarization) 모델을 돌리면 해결된다. 문제는 GPU에서 돌리면 에러가 나고, CPU로 돌리면 40분이 걸린다는 것이었다. 이 글에서는 원인을 추적해서 코드 2줄을 고쳐 GPU 화자 분리를 되살린 과정을 정리한다. ---증상: GPU에서만 터지는 에러NVIDIA DGX Spark는 GB10이라는 Blackwell 아키텍처 GPU를 탑재하고 있다. CUDA compute capability(GPU 세대를 나타내는 숫자)가 12.1인데, 이게 너..