MDP4 [Introduction to Reinforcement Learning with David Silver] #2. MDP Introduction to MDPs 마르코프 결정 과정(MDP)는 강화학습에서 환경을 묘사한다. 환경이 완전 관측 가능한 경우에 사용 거의 모든 강화학습의 문제는 MDP로 표현할 수 있다. continuous MDP의 최적화 문제 Partially observable(부분 관측 문제)도 MDP로 변환할 수 있다. ※ 마르코프 결정과정(MDP)는 MP(Markov Process), MRP(Markov Reward Process)의 확장이다 마르코프 과정(MP, Markov Process) 마르코프 특성(Markov Property) 마르코프(Markov)는 19~20세기 러시아의 수학자 ‘안드에리 마르코프’를 뜻함. 마르코프 과정을 통해 복잡한 확률과정을 단순한 가정으로 접근 마르코프 과정(Markov .. 2022. 10. 27. [파이썬과 케라스로 배우는 강화학습] #11 강화학습 심화 1 : 그리드월드와 근사함수 ※ 본 자료는 ‘파이썬과 케라스로 배우는 강화학습’ 의 내용을 정리한 내용입니다. 2022. 10. 26. [파이썬과 케라스로 배우는 강화학습] #4 MDP & 벨만방정식 정리(요약) ※ 본 자료는 ‘파이썬과 케라스로 배우는 강화학습’ 의 내용을 정리한 내용입니다. 2022. 10. 26. [파이썬과 케라스로 배우는 강화학습] #2 MDP ※ 본 자료는 ‘파이썬과 케라스로 배우는 강화학습’ 의 내용을 정리한 내용입니다. 2022. 10. 26. 이전 1 다음