CUDA코어 구조차이때문에 1천번대 쓰면 결과물이 다르게 나온다더라