env.step(action)
이녀석이 현재 state에서 action을 취한 결과를
new state로 반환받는건데 값이 일정하게 나오지가 않음...
그거때문에 학습이 잘 안되는 것 같은데
혹시 이따가 결과값 캡쳐해서 첨부해도 됨?
env.step(action)
이녀석이 현재 state에서 action을 취한 결과를
new state로 반환받는건데 값이 일정하게 나오지가 않음...
그거때문에 학습이 잘 안되는 것 같은데
혹시 이따가 결과값 캡쳐해서 첨부해도 됨?