제가 가진 경험과 지식을 바탕으로 AI 음성 데이터 정제에 관한 조언을 나누고자 합니다. 


이 글이 뉴비분들이나 학습 과정을 어려워 하는 분들에게 큰 도움이 되었으면 좋겠습니다. 저는 국내 아티스트들 (백예린, 로제, 딘, 빈지노 등)의 음성을 학습시키는 작업을 수행하고 있습니다. 그러나 결과물을 공개하지 못하는 점에 대해 아쉬움을 느낍니다.


데이터 정제에 대한 이야기를 시작하기 전에, 저의 팁을 참고만 해주시기를 부탁드립니다. 제 개인적인 경험을 바탕으로 이야기하고 있기 때문에, 이것이 꼭 모든 사람에게 맞는 방법이라고 말하지는 못합니다.


첫번째로, 제가 선호하는 방법은 시간을 충분히 들여 정제한 데이터셋을 사용하는 것입니다. 제 경험에 따르면, 시간을 크게 투자해 정제한 데이터셋 3~5분이 대충 정제한 20분 데이터셋보다 우수하다고 느꼈습니다.


1. 먼저, UVR Voc FT를 사용하고, Karaoke 2 또는 Karaoke로 코러스를 억제합니다. 이 때, Batch Size는 4로 설정합니다. 추가로, 리버브가 너무 강한 경우, DeEcho-DeReverb를 사용하여 Window Size를 320, Aggression Setting을 1 또는 3으로 설정하고 추출합니다.


2. Adobe Audition을 사용해 히스 노이즈를 억제합니다.


3. iZotope RX를 사용해 브레스 컨트롤, 클릭, 치찰음 등을 억제하는 플러그인을 사용합니다.


4. RipX, FL Studio를 사용해 그 외 잡음을 제거합니다.


5. 마지막으로, 다시 Adobe Audition을 사용해 무음 구간을 스캔하여 삭제합니다. 이렇게 하면, 음질이 큰 폭으로 저하되지 않은 정제된 데이터셋을 얻을 수 있습니다.


이 과정은 약간의 수고가 필요하지만, iZotope RX가 훌륭한 플러그인을 많이 제공하므로, 데이터 정제 시간 자체는 길지 않습니다. 대략적으로 한 곡당 20분에서 30분 정도가 소요됩니다.


또한, 저는 AI 음성챈에서 GoldWave라는 DAW에 대해 듣고 사용해 보았습니다. 그 결과, 저에게는 GoldWave가 다른 DAW들에 비해 노이즈 제거 기능이 가장 과감하게 느껴졌습니다. 이 뜻은, 다른 DAW들과는 달리, GoldWave는 음역대를 크게 줄여버리는 경향이 있어, 그 결과 학습시킨 데이터셋에서 답답한 소리가 나오는 문제가 있었습니다. 시각적 편집은 힘을 주면 줄 수록 퀄리티가 향상되지만, 오디오는 그 반대입니다. 최대한 타격이 가지 않게끔 정제해야 합니다.


다시 한 번 강조하지만, 이는 제 개인적인 경험에 기반한 것이며, 데이터셋 구축에 관한 '정답'은 없다는 점을 기억하시기 바랍니다. 제 작업 방식에 대해 궁금한 점이 있으시다면 댓글을 통해 알려드리겠습니다. 저의 조언이 여러분의 작업에 도움이 되었으면 좋겠습니다. 다시 한 번 제 글을 읽어주셔서 감사드립니다.


(앞서 말한 iZotope RX, RipX, FL Sudio는 고가의 툴입니다. 시간적 여유가 되신다면 Adobe Audition으로도 디노이즈, 디에서, 믹싱 등 충분히 작업이 가능합니다.)