한글의 음성 파일들이 필요하다, 그렇다고 무턱대고 내 발음을 가지고 테스트하기에는 시간이 촉박하고 급하다.
이럴때일 수록 지천에 널린 소스로 이용하면 될것같아서 유투브 영상을 가져와서 잘라서 그걸 이용해서 STT로 추출하는방법을 사용하기로 했다.
먼저 이 포스트는 안드로이드 환경 + Termux + 파이썬을 이용해서 유튜브 오디오를 추출하고 파일로 저장하는 방법을 소개하겠습니다.

이 과정에는 유튜브 다운로드 도구인 yt-dlp와 오디오 변환 도구인 ffmpeg가 필요합니다.
필수 도구 설치
터뮤즈 파이썬 환경에서 유튜브 링크만으로 오디오를 딸 수 있는 도구를 설치합니다.

저는 시원하게 SSHD 환경에서 진행합니다. PC에서 모바일 터뮤즈 환경을 볼수있지요.
# yt-dlp 설치
pip install yt-dlp
pkg install ffmpeg -y
# 1. QuickJS 설치 (매우 가볍습니다) 근데 되면좋고 안되도 뭐 동작은합니다 이게
pkg install quickjs -y
설치가 완료되었으면
yt-dlp --version
버전확인을 해줍니다.

유튜브 음성 추출 및 변환
테스트하고 싶은 한국어 유튜브 영상 링크(뉴스, 테크 리뷰 등 추천)를 준비하세요.
아래 명령어는 음성만 추출해서 위스퍼가 좋아하는 16kHz Mono WAV 형식으로 한 번에 바꿔줍니다.

https://www.youtube.com/watch?v=79Cbosh15kI
저는 슈카월드를 예시로 추출하고 진행하려고합니다 . 말도 적당히 빠르고 단어도 조금 어려울수도있고 숫자도 조금씩 나와서 적당할것같다고 판단했습니다. ++추가로 오프닝소리도 있어서 비교하기 좋을것같아서요
yt-dlp -x --audio-format wav \
--download-sections "*00:00:00-00:00:60" \
--postprocessor-args "ffmpeg:-ar 16000 -ac 1" \
"https://www.youtube.com/watch?v=79Cbosh15kI" -o samples/test_cut.wav
이 명령어를 실행해봅니다.

이렇게 진행중입니다. 여기서 조금 걸릴수도 있도 오래걸리수도 있습니다.
뭔가 다운로드가 다끝난것같다면

# 파일 상세 정보 확인 (파일 크기가 0이 아닌지 체크!)
ls -lh samples/test_cut.wav
찾아봅니다.
그리고 추출한 파일도 공유해드리겠습니다.
이렇게 추출이 완료되었습니다. 이제 이 추출된 자료를 통해서 whisper.cpp 가 stt를 얼마나 정확히 할수있는지 확인해보겠습니다. 감사합니다.
댓글