openai에서 만든 whisper로 이것저것 손대가면서 해봤는데
생각 이상으로 쓸모 있음
내 글카가 가성비 글카라 1시간 아카이브에 15분 정도 걸렸는데
4070 정도 라인업이면 1시간 짜리 아카이브를 large 모델로도(제일 정확도 높게 나옴)
거의 3~5분 안에 일본어 텍스트는 출력 될듯
위에건 코요리 아카이브로 시험해봐서 발음이 상대적으로 정확한 박사님 덕에 정확히 나온거 아니냐고 하는데
말 빨리 한 파트에서도 거의 정확히 나오고
뭣보다 고유명사 인식도 잘함
(아카이브)
(예시)
572
00:38:25,800 --> 00:38:38,800
そしてやはりやはりクロニー先輩ミューズ神です
世界を守っているメガニホロライブのスリープ化によって世界が壊れていくことを阻止するために
主人公にホロライブのスリープ化を解く方法を教える
일단 지금 써보고 대가리 쎄게 맞은 느낌이라 프로그래밍 잘하는 친구랑 이야기하면서
whisper 오픈소스 코드 씹뜯하고 계속 만져볼 생각임
그리고 술취한 야마다나 미코 아카이브로도 테스트 해볼려고 함
미코마저 정복하면 이건 진짜 혁명이다