한줄요약: 돈받고 팔지만 않으면 된다. 


무슨 모델 안에 그림들이 들어가있어서 까면 나온다고 생각하나본데, 

모델은 숫자 뭉치로 이루어진 Tensor의 집합으로 되어있고, 이 숫자가 가리키는 방향(Vector)으로 데이터를 변형하라는 내용만이 들어있음. 

이 숫자에 따라서 인공지능은 노이즈로부터 (diffusion 방법의 경우) 지정된 이미지를 차례차례 변형해서 결과적으로 이미지를 생성해내는 것임. 


꽤 많은 사람들이 오해를 하고 있는 것 같지만 돈을 목적으로 하지 않는 연구활동의 경우엔 저작권 있는 데이터도 사용이 가능하다. 


저작권법 제28조(공표된 저작물의 인용) 

일반적으로 연구 결과물을 전 세계에 발표하는 것이 목적인 논문에서 데이터셋을 인용하는 행위는 비영리적 연구활동으로 분류되며, 저작권법 제28조에 의하여 저작재산권이 면제됩니다.


현재 법이 그렇고, 실제 연구기관에서 연구를 위해 '비영리적 연구활동'을 하는 경우에는 '데이터셋이 어디서 왔는지'를 공표하고 사용한다면 서로 쉐어할 수 있다. 지금 이 커뮤니티에서 이걸로 돈 버는놈은 아무도 없으며, 집단지성을 위한 공유로만 사용되는 형국이다.

오히려 cropping하고 tag 다는 걸 수동으로 하는 것은 자기 데이터셋을 만들었다고 할 수 있고, 학습시에는 '누구누구의 그림을 어떻게 써서 학습한 모델' 을 투명하게 밝히는게 상식 of 상식이었는데, 그것조차 지금까지 인정받지 못하고 얘기 못하게 했던게 현 실상이다. 

이런 거에 벌벌 떨며 막겠다는 사람의 심리가 궁금하다. 진짜로 돈 받고 팔 심산인지, 아니면 아카에서 이루어지는 연구는 연구도 아니라고 여기는 건지?

만약 누군가가 이걸 영리적 목적으로 이용한다면 그 사람을 조지면 된다. 


https://paperswithcode.com/dataset/danbooru2020

https://openaccess.thecvf.com/content/ICCV2021/papers/He_EigenGAN_Layer-Wise_Eigen-Learning_for_GANs_ICCV_2021_paper.pdf

마지막으로 이거나 보고 오셈. 단부루 데이터셋으로 학습시킨 논문이 ICCV를 갔다.