DC 뭐시기 에서 뭐시기 부분이 DC 코믹스와 연관이 있는거라면 (DC 히어로, DC 배트맨 etc...) 그걸 코딩짤때 모든 연관 검색어 리스트에 포함을 시키겠지. 그래서 DC라는 키워드를 주로 찾게 한다음에, 앞이나 뒤에 DC 하는 날짜(디스카운트하는 날짜) 같은 검색어는 배트맨, 히어로, 조커 등등과 관련이 없으니 집계 방식에서 제외가 되겠지. 근데 빅데이터 또한 정확한 집계방식을 목표로 하는게아니라, 최대한 많은 양의 모수에서 일정 신뢰도 이상(90% 라던가 99%라던가)를 목표로 노리면서 신뢰도를 높이는 측정방식임. 위에 제공된 데이터가 어떤 집계방식으로 산출된줄은 모르겠으나, 해당 데이터의 신뢰도 문제를 차치하고서라도, 데이터의 문자열1, 문자열2, 문자열3 등을 자르거나, 앞, 뒤를 구분하거나, 연관되는 문자열 리스트를 만들어서 포함될경우 집계, 그렇지 않을경우 제외시키는 방법은 있다는 말을 하고 싶었음. 저 데이터가 신뢰 간다는 소리가 아니라.