본문 바로가기

AI 공부/UCL Course on RL (David Silver)4

[Introduction to Reinforcement Learning with David Silver] #4. Model-Free Prediction Introduction 3장에서는 다이나믹 프로그래밍(Dynamic Programming)을 이용한 Planning에 대하여 알아보았습니다. Planning이란 모델(Model)을 알고있을 경우 어떤 행동(Action)을 취하는데 있어 좋은 보상(Reward)을 얻게끔 정책(Policy)를 수정하여 최적 정책을 도출하는 것입니다. 모델(Model)을 알고 있다는 것은 MDP를 알고 있다는 것으로 Model-based라고 표현합니다. MDP는 환경에 대한 Model이고 에이전트가 환경(Environment)으로부터 제공 받는 정보인 보상(Reward)과 상태전이확률($ P_{ss'}^a $, 상태 $s$에서 행동 $a$를 했을때 상태 $s'$으로 이동할 확률)에 대하여 알고 있다는 것을 의미합니다. 4장에.. 2022. 10. 31.

[Introduction to Reinforcement Learning with David Silver] #3. Planning by Dynamic Programming Introduction 다이나믹 프로그래밍이란 (What is Dynamic Programming?) 다이나믹 프로그래밍 조건 정책평가(Policy Evaluation) 반복 정책 평가 (Iterative Policy Evaluation) Example : Small Gridworld 정책 반복(Policy Iteration) 가치 반복(Value Iteration) 최적화의 원리(Principle of Optimality) 가치 반복(Value Iteration) 요약(Summary) ※ 해당 내용은 David Silver 교수님의 Introduction to Reinforcement Learning 강의를 기반으로 강화학습에 대하여 정리한 자료입니다. 강의 영상(Lecture) : https://ww.. 2022. 10. 29.

[Introduction to Reinforcement Learning with David Silver] #2. MDP Introduction to MDPs 마르코프 결정 과정(MDP)는 강화학습에서 환경을 묘사한다. 환경이 완전 관측 가능한 경우에 사용 거의 모든 강화학습의 문제는 MDP로 표현할 수 있다. continuous MDP의 최적화 문제 Partially observable(부분 관측 문제)도 MDP로 변환할 수 있다. ※ 마르코프 결정과정(MDP)는 MP(Markov Process), MRP(Markov Reward Process)의 확장이다 마르코프 과정(MP, Markov Process) 마르코프 특성(Markov Property) 마르코프(Markov)는 19~20세기 러시아의 수학자 ‘안드에리 마르코프’를 뜻함. 마르코프 과정을 통해 복잡한 확률과정을 단순한 가정으로 접근 마르코프 과정(Markov .. 2022. 10. 27.

[Introduction to Reinforcement Learning with David Silver] #1. Introduction to RL 강화학습 특징 답을 알려주는 사람(supervisor)이 없고 오로지 보상(reward)만 존재한다. 피드백(Feedback)이 즉시 전달되는 것이 아닌 지연된다. 시간 요소가 매우 중요하다. (독립적인 데이터(i.i.d)가 아닌 시계열의 데이터이기 때문에 앞뒤 시간의 데이터가 연관성을 갖는다.) 에이전트(Agent)의 행동이 받게되는 데이터에 영향을 준다. 보상(Rewards) Reward Hypothesis 정의 : 모든 목표는 누적 보상(cumulative reward)의 기대값이 최대로 하는 방향으로 표현할 수 있어야 한다. cumulative reward : 강화학습을 진행하면서 얻게되는 보상의 합계 보상이 최대가 되는 방향으로 진행하면 목표가 달성될 수있어야 한다. 보상(Reward, Rt ).. 2022. 10. 26.

이전 1 다음

티스토리툴바