whisper ai는 mp3,mp4같은 노래나 영상에서 대사를 추출하는 인공지능으로

여기서 다루는 동인음성의 대사 역시 추출하는 게 가능하다

https://arca.live/b/momoirocode/63021531

여기 및붕이가 사용법을 잘 정리한 글이 있으니 읽어보자


------


대사를 추출하고 번역기 돌려서 만든 한국어 대본을 보면 일본어가 잘 안 들리는 사람도 어느 정도 이해할 수 있다

그런데 RJ324703같은 작품을 보면 대본을 볼 필요없이 아예 영상자막으로 만들어 편하게 볼 수 있는데

이러한 영상자막을 보고 싱크까지 추출하는 whisper에 대해 눈여겨보게 되었다

마침 whisper에는 빨간색으로 표시한 부분에서 자막파일인 srt와 vtt를 다운하는게 가능하다

그리고 다운한 자막파일은

싱크가 맞춰져 있다 (추출한 대사는 일본어인데 파파고 번역 돌렸음)

이대로 자막파일을 지원하는 플레이어로 영상에 적용하면 인공지능이 인식한 싱크로 대사를 영상에 띄울 수 있다

물론 인공지능이 그리 완벽한 편은 아니라서 싱크를 여러번 수정하는 게 필수적이다 (whisper에 성능 패치를 하면 성능을 약간 올릴 수 있는데 그건 나중에 만든사람이 여기 직접 올릴거임)


 

그리고 번역할때 사람손이 무조건 갈 수밖에 없다

대충 알아듣는 걸로 때울 거면 상관없지만 기계번역의 한계로 나는 대사추출 번역한 걸 참고해 다듬는 방식으로 사용하고 있음


------


이제 동음에 자막파일을 적용하는 방법에 대해 알아보자

https://arca.live/b/momoirocode/67707280

이미 내가 써 놨으니 이거 보면 됨

이렇게 whisper,번역기,샤나인코더를 쓰면 동음을 한국어 자막영상으로 만드는 게 가능함

여러번 수정하고 완성한 결과물을 몇 개 보여주자면(백합)



작업한게 어케 죄다 백합이야

아무튼 whisper ai가 대사를 추출하고 싱크까지 자동으로 맞춘다는 점에서 주목할 가치가 있다고 생각함

지금이야 whisper이랑 번역기 성능때문에 작업시간이 꽤 걸리지만 나중에 인공지능이 사람의 손을 거치지 않고도 알아서 자막도 만들어줄 날이 올 거라고 생각함

필요한 건 다 쓴 거 같지만 글을 너무 난해하게 쓴 거 같은데 궁금한거 물어보면 아는 선에서 최대한 알려주도록 하겠음