![](http://ac.namu.la/20230322sac/9429c77a19766a570dc7ab23560fde627a7b1d4462aac758212dfedd1e19638e.jpg?expires=1719795600&key=T03PWk5S-ziLtVwjXb_mHQ)
한국 유튜브 영상 1.1만개 가량을 transcription한 데이터셋입니다.
WhisperX를 사용했습니다. (large-v3 이용)
a100 8대에서 하루에 2만개 정도 transcription 됩니다.
동영상 목록을 받아오는 구글 API가 ratelimit 계속 걸려서 많이 못 만들었습니다.
그 후 WizardLM2 8x22b 사용해서 augment 진행했습니다.
https://huggingface.co/datasets/maywell/ko_youtube_transcription_sample