multi-stage-fallback
-
한국어 자막 sync는 한 알고리즘으로 안 된다 — 4단 fallback을 쌓아 올린 이유IT 2026. 5. 25. 21:00
영상 한 편을 만들면서 의외로 어려웠던 게 자막이었다. BytePlus Seedance 2.0 Fast로 클립을 19개 만들고 ffmpeg로 합본하는 데까지는 비교적 정리된 길이 있었는데, 어린이가 직접 녹음한 한국어 음성 위에 자막을 ffmpeg burn-in하는 단계에서 문제가 생겼다. 첫 시도는 자막을 클립 길이로 단순히 등분해 보여주는 거였다. "한 호흡 한 줄" 원칙이면 N등분이 어느 정도는 맞을 거라고 가정한 거다. 결과는 듣는 단어와 보이는 자막이 1초씩 어긋나는 영상이었다.다음 시도는 Whisper로 음성을 word-level로 받아 자막 줄과 직접 매칭하는 거였다. 이것도 안 됐다. 한국어 ASR이 발화를 항상 똑같이 적어주지 않는다. 사용자가 "복도에서"라고 말해도 Whisper는 "복..