env.step(action)
이녀석이 현재 state에서 action을 취한 결과를
new state로 반환받는건데 값이 일정하게 나오지가 않음...

그거때문에 학습이 잘 안되는 것 같은데

혹시 이따가 결과값 캡쳐해서 첨부해도 됨?