말하는거 whisper로 인식해서 vits로 바로 출력하게 해봤는데 생각보다는 정확함


클로바 api에 비해 정확도가 떨어지긴 하는데 지연 시간과 정확도의 트레이드 오프라고 생각하면 나름 괜찮은 것 같음


경우에 따라서는 나는 한국어로 말하지만 바로 일본어나 영어로 번역해서 추론하게 할 수도 있고