https://arxiv.org/abs/2205.11801


신경망을 통해서 시끄러운 장소에서 어떤 사람이 말하는 경우 그것을 분리해내는 기술에 대한 내용입니다.


최근의 방법들이 비교적 적은 수의 화자가 있는 환경에서 상당한 진전을 이루었지만 여전히 5명, 10명의 화자가 있는 환경에서 개선의 여지가 있습니다.


심층 신경망인 SepIt은 다른 화자에 대한 추정을 반복적으로 개선합니다. 테스트를 하는 동안 SepIt은 분석에서 얻을 수 있는 상호 정보 기준에 따라 테스트 샘플 당 다양한 반복 횟수를 갖습니다.


광범위한 실험에서 SepIt은 2, 3, 5, 10명의 화자가 있을때 최첨단 신경망을 능가할 수 있었습니다.