openai에서 만든 whisper로 이것저것 손대가면서 해봤는데

생각 이상으로 쓸모 있음

내 글카가 가성비 글카라 1시간 아카이브에 15분 정도 걸렸는데

4070 정도 라인업이면 1시간 짜리 아카이브를 large 모델로도(제일 정확도 높게 나옴)

거의 3~5분 안에 일본어 텍스트는 출력 될듯


위에건 코요리 아카이브로 시험해봐서 발음이 상대적으로 정확한 박사님 덕에 정확히 나온거 아니냐고 하는데

말 빨리 한 파트에서도 거의 정확히 나오고

뭣보다 고유명사 인식도 잘함



(아카이브)


(예시)

572

00:38:25,800 --> 00:38:38,800

そしてやはりやはりクロニー先輩ミューズ神です

世界を守っているメガニホロライブのスリープ化によって世界が壊れていくことを阻止するために

主人公にホロライブのスリープ化を解く方法を教える




일단 지금 써보고 대가리 쎄게 맞은 느낌이라 프로그래밍 잘하는 친구랑 이야기하면서

whisper 오픈소스 코드 씹뜯하고 계속 만져볼 생각임

그리고 술취한 야마다나 미코 아카이브로도 테스트 해볼려고 함

미코마저 정복하면 이건 진짜 혁명이다