https://arca.live/b/heroes/42998280



하츠로그 데이터에 자유의손길 승률이 더 높은것을 보고 자유의손길도 괜찮은거 아닌가? 라는 생각을 가지게 된 모습이다.

하지만 하츠로그 데이터는 내가 올린 heroesrprofile 데이터에 비해 압도적으로 타당성이 적다.

왜냐하면 표본수 차이 때문이다.


heroesprofile은 최근에 가장 활성화되있는 사이트고, 그래서 2.55-2.53 데이터로 찾았을때 특성하나당 대체로 만판 이상의 표본수를 확보 할 수 있었다.



300명 조사하는것보다 만명 조사하는게 더 신뢰도가 높다는건  당연한 얘기지만, 어느정도 표본수의 게임을 확보해야 믿을만한 숫자일까?




이산확률분포의 표준편차 식에서, p(1-p)는 히오스 통계의 경우 p와 1-p가 45%-55% 사이에서 형성되므로, 거의 1/4로 봐도 무방하다.

그러면 (루트 표본) 곱하기 (1/2) 이 표준편차라고 볼 수 있다. 

예를 들어, 10000판 시행의 표준편차는 50이므로, 승률로 환산하면 0.5%가 된다.

그리고 신뢰도 95.4% 구간은 표본평균 - 2표준편차 < 실제승률 < 표본평균 + 2표준편차다.

이를 적용해서, 표본수 10000판 승률 51%의 신뢰도 95.4%구간을 구해보면, 50% - 52% 가 된다.

실제 성능이 50 - 52% 급일 가능성이 95.4%라는 뜻이다.


표본수 800판 승률 50% 면 어떨까? 루트 800은 28정도이므로, 표준편차는 14이며

95% 신뢰구간은 372승 < 실제승수 < 428승 , 67% 신뢰구간은 386승 < 실제승수 < 414 승이며, 

이를 승률로 환산하면

46.5% - 53.5% (95%)        48.25% - 51.75% (67%) 이다.

대통령 지지도 조사와 같은 경우 그럭저럭 쓸만한 수치이지만,

5% 차이가 하늘과 땅인 히오스 특성 통계에서 의미있다고 보기 힘들정도로 범위가 넓다.

간단히 말해서, 표본수 800판 통계는 쓸모가 없다.




정리

1. 표본수가 매우 중요하다.

2. (루트 표본수) 곱하기 (1/2) = 표준편차

3. 통계를 볼때는, 나와있는 승률에서  ± 2표준편차 정도가 승률 값이라고 생각하면 된다.