Pyannote
-
pyannote 화자 분리가 GPU에서 안 돌아갈 때 — Blackwell nvrtc 패치 1줄의 힘IT 2026. 3. 19. 23:00
33분짜리 학부모 총회 녹음을 AI로 전사했다. 텍스트는 나왔는데, 누가 말한 건지 구분이 안 된다. 교장, 교감, 교무부장, 담임 — 최소 4명이 번갈아 말했는데 전부 "Speaker 1"로 찍힌다. pyannote-audio라는 화자 분리(speaker diarization) 모델을 돌리면 해결된다. 문제는 GPU에서 돌리면 에러가 나고, CPU로 돌리면 40분이 걸린다는 것이었다. 이 글에서는 원인을 추적해서 코드 2줄을 고쳐 GPU 화자 분리를 되살린 과정을 정리한다. ---증상: GPU에서만 터지는 에러NVIDIA DGX Spark는 GB10이라는 Blackwell 아키텍처 GPU를 탑재하고 있다. CUDA compute capability(GPU 세대를 나타내는 숫자)가 12.1인데, 이게 너..
-
녹음 파일을 넣으면 요약이 나온다 — 음성 자동 전사 & 요약 파이프라인 구축기IT 2026. 3. 19. 22:00
세미나를 듣고 왔다. 핵심 내용을 정리해야 하는데, 1시간짜리 녹음 파일을 다시 듣기가 귀찮다. 녹음은 성실하게 했는데 정리는 영원히 밀린다.이 문제를 해결하기 위해 "녹음 파일을 폴더에 넣으면 요약 문서가 자동으로 나오는" 파이프라인을 만들었다. 폰에서 녹음하면 서버로 자동 동기화되고, AI가 전사하고, 화자를 구분하고, 요약하고, 저장하고, 알림까지 보내준다.이 글에서는 전체 아키텍처와 각 단계의 설계 의도를 정리한다.전체 아키텍처스마트폰 (음성 녹음) ↓ SFTP 자동 동기화 (FolderSync)서버 ~/voice-inbox/ ↓ watchdog (파일 감지 즉시 트리거) ↓ Python 파이프라인 ├─ 1. 필터링 (통화 녹음 제외) ├─ 2. 포맷 변환 (m4a → ..
-
음성을 텍스트로, 목소리를 사람으로 — Whisper와 pyannote가 풀어낸 두 가지 문제IT 2026. 3. 19. 21:00
회의 녹음을 다시 듣고 있다. 1시간짜리 음성 파일. 핵심 내용이 어디쯤이었는지 기억이 안 나서 처음부터 재생한다. 빨리감기. 되감기. 또 빨리감기.이 경험이 익숙하다면, "녹음은 했는데 다시 듣기가 귀찮다" 는 인류 공통의 문제에 공감할 것이다.이 문제를 해결하려면 두 가지가 필요하다.음성을 텍스트로 바꾸기 (Speech-to-Text)누가 말한 건지 구분하기 (Speaker Diarization)이 글에서는 이 두 문제를 각각 해결하는 오픈소스 모델 — OpenAI Whisper와 pyannote-audio — 을 다룬다. 어떤 문제를 풀기 위해 나왔고, 어떻게 작동하며, 실제로 어떻게 설치하고 사용하는지까지.문제 1: 음성을 텍스트로 — OpenAI Whisper왜 이 모델이 필요한가음성인식(STT..