whisper 기반이던데 2명이어도 자막 제대로 생성됨?