본문 바로가기
AI Project/Edge AI Agent - 음성처리(연구,분석,검증))

[오디오추출] 안드로이드 환경에서 유튜브 특정 구간 오디오 추출하는방법

by 으노으뇨 2026. 4. 27.
728x90
SMALL

한글의 음성 파일들이 필요하다, 그렇다고 무턱대고 내 발음을 가지고 테스트하기에는 시간이 촉박하고 급하다.

이럴때일 수록 지천에 널린 소스로 이용하면 될것같아서 유투브 영상을 가져와서 잘라서 그걸 이용해서 STT로 추출하는방법을 사용하기로 했다.

먼저 이 포스트는 안드로이드 환경 + Termux + 파이썬을 이용해서 유튜브 오디오를 추출하고 파일로 저장하는 방법을 소개하겠습니다.

이 과정에는 유튜브 다운로드 도구인 yt-dlp와 오디오 변환 도구인 ffmpeg가 필요합니다.


필수 도구 설치

터뮤즈 파이썬 환경에서 유튜브 링크만으로 오디오를 딸 수 있는 도구를 설치합니다.

저는 시원하게 SSHD 환경에서 진행합니다. PC에서 모바일 터뮤즈 환경을 볼수있지요.

# yt-dlp 설치
pip install yt-dlp
pkg install ffmpeg -y
# 1. QuickJS 설치 (매우 가볍습니다) 근데 되면좋고 안되도 뭐 동작은합니다 이게 
pkg install quickjs -y

설치가 완료되었으면

yt-dlp --version

버전확인을 해줍니다.


유튜브 음성 추출 및 변환

테스트하고 싶은 한국어 유튜브 영상 링크(뉴스, 테크 리뷰 등 추천)를 준비하세요.

아래 명령어는 음성만 추출해서 위스퍼가 좋아하는 16kHz Mono WAV 형식으로 한 번에 바꿔줍니다.

https://www.youtube.com/watch?v=79Cbosh15kI

저는 슈카월드를 예시로 추출하고 진행하려고합니다 . 말도 적당히 빠르고 단어도 조금 어려울수도있고 숫자도 조금씩 나와서 적당할것같다고 판단했습니다. ++추가로 오프닝소리도 있어서 비교하기 좋을것같아서요

yt-dlp -x --audio-format wav \
  --download-sections "*00:00:00-00:00:60" \
  --postprocessor-args "ffmpeg:-ar 16000 -ac 1" \
  "https://www.youtube.com/watch?v=79Cbosh15kI" -o samples/test_cut.wav

이 명령어를 실행해봅니다.

이렇게 진행중입니다. 여기서 조금 걸릴수도 있도 오래걸리수도 있습니다.

뭔가 다운로드가 다끝난것같다면

# 파일 상세 정보 확인 (파일 크기가 0이 아닌지 체크!)
ls -lh samples/test_cut.wav

찾아봅니다. 

그리고 추출한 파일도 공유해드리겠습니다.

test_cut.wav
1.83MB

이렇게 추출이 완료되었습니다. 이제 이 추출된 자료를 통해서 whisper.cpp 가 stt를 얼마나 정확히 할수있는지 확인해보겠습니다. 감사합니다.

728x90
LIST

댓글