Whisper와 함께 자동으로 제 둥영상 자막을 만들어봤습니다

2023-08-08

둥영상의 자막을 작성하는 일은 하도 시간이 많이 걸리기에, 하기 싫어합니다. 그래서 OpenAI의 Whisper 프로그램 (및 모델)과 Georgi Garanov가 C++로 다시 작성한 프로그램을 찾았을 때, 몇 시간씩 수작업을 하지 않으려고 확인해봤습니다.

FCPX에서 MP3 파일을 만든 후, ffmpeg를 사용하여 Whisper.cpp가 원하는 WAV 파일로 먼저 변환해줬습니다:

ffmpeg -i input.mp3 -acodec pcm_s16le -ac 1 -ar 16000 output.wav

그 다음으로, Whisper.cpp를 설치했죠:

git clone https://github.com/ggerganov/whisper.cpp.git
cd whisper.cpp

# large 모델까지는 필요가 없겠지만, 전 사용했습니다
bash ./models/download-ggml-model.sh large
make large

# 컴퓨터의 CPU에 알맞게 쓰레드 수를 조정합니다
./main -t 10 --output-srt --language en --model ./models/ggml-large.bin --file ~/Downloads/output.wav

제공한 오디오 파일은 약 12분 정도의 길이였는데, Whisper.cpp가 분석하는데 사용한 시간은 약 5분 정도였습니다.

출력한 SRT 파일을 FCPX로 가져와서 한번 확인해봤습니다. 몇몇 인식 오류가 있긴 있었지만, 제 끔찍한 목소리를 거의 90%나 정확하게 판독해낸 것 같았습니다. 찾은 (비교적 작은) 단점 하나는 각 줄이 스페이스로 시작한다는 점이었는데, 아마도 Whisper.cpp가 Whisper가 만들어낸 VTT 파일을 SRT로 변환하면서 생긴 오류가 아닌가 싶습니다. 그것 외에는 완벽했습니다. 제 목소리를 더 이상 수작업으로 적어내릴 필요가 없죠.