데이터수집... 사이트 하나하나 허락받는게 인간적으로 제일 힘들다..


진짜 쿼리냐 프로시저냐 rdb냐 nosql이냐 이런건 아무것아님.. 

뭐 할라치면 데이터를 구할곳이 없음...


최후의 수단으로 크롤링을 보통 선택하지만.. (스크래핑이란 말은 잘 안쓰니 그냥 크롤링으로 퉁칠게)

정말 거의 대부분 사이트는 데이터 크롤링 금지 아니면 크롤링은 허용하지만 상용 이용은 불가능하다고 되어있음. 

청정데이터는 기껏해야 국가에서 제공하는 공공데이터 정도 뿐..


물론 개인 개발자 완장찬놈들 중 상당수는 robot.txt든 사이트 약관이든 씹고 크롤링 해서 광고달고 서비스 잘하겠지만 말이지.

그런놈들이 음악가들 표절이나 샘플링 욕하면 진짜 어이털림..