귀신같이 구멍으로 달려가서 꼬라박음

가중치 설정이 잘못된 것도 아닌데 왜....

q_table[state, action] = 
q_table[state, action] + learning_rate * 
(reward + discount_rate * (q_table[new_state, np.argmax(q_table[new_state,])]) - q_table[state, action])

식이 이게 아닌가? 

새로 간 new_state에서의 가장 높은 밸류를 넣어야 하는게 맞는 것 같은데 돌아버리겠네