본문 바로가기
AI 공부/UCL Course on RL (David Silver)

[Introduction to Reinforcement Learning with David Silver] #1. Introduction to RL

by CheeseBro 2022. 10. 26.

강화학습 특징

  • 답을 알려주는 사람(supervisor)이 없고 오로지 보상(reward)만 존재한다.
  • 피드백(Feedback)이 즉시 전달되는 것이 아닌 지연된다.
  • 시간 요소가 매우 중요하다. (독립적인 데이터(i.i.d)가 아닌 시계열의 데이터이기 때문에 앞뒤 시간의 데이터가 연관성을 갖는다.)
  • 에이전트(Agent)의 행동이 받게되는 데이터에 영향을 준다.

 

보상(Rewards)

Definition of Reward

  • Reward Hypothesis 정의 : 모든 목표는 누적 보상(cumulative reward)의 기대값이 최대로 하는 방향으로 표현할 수 있어야 한다.
    • cumulative reward : 강화학습을 진행하면서 얻게되는 보상의 합계
    • 보상이 최대가 되는 방향으로 진행하면 목표가 달성될 수있어야 한다.
  • 보상(Reward, Rt )은 스칼라(Scalar) 형태의 피드백(feedback)이다

 

순차적인 의사 결정 (Sequential Decision Making)

  • 목표(Goal) : Select actions to maximise total future reward
    • 미래의 보상의 합계가 최대가 되도록 행동(Actions)을 선택하는것을 목표로 한다.
  • 행동(Actions)은 매우 긴 결과(long term conseqeunces) 를 가질 수 있다.
    • e.g. 에피소드가 종료되지 않고 길어질수도 있는 등
  • 보상(Rewards)은 지연될 수 있다.
    • e.g. 길찾기 문제에서 목표에 도달하면 보상이 주어진다고 할때 목표점에 도달하지 못하면 도달할 때까지 보상을 받지 못함.

 

에이전트(Agent)와 환경(Environment)

Agent and Environment

  • 에이전트(Agent)는 복잡한 동적인 환경내에서 행동(Actions)을 실시하여 목표를 달성하려고 시도하는 객체
    • 예 : 미로를 빠져나가는 쥐 문제에서 에이전트는 쥐
    • 환경으로부터 관측(Observation, Ot)에 대한 정보를 받고 행동(Actions, At)을 결정한다.
  • 환경(Environment)은 주로 마르코프 결정과정(MDP)로 표현된다.
    • 예 : 미로를 빠져나가는 쥐 문제에서 환경은 미로
    • 에이전트의 행동에 따른 보상(Rt)을 에이전트에게 제공한다.
    • 관측 결과를 에이전트에게 제공한다.

 

히스토리(History)와 상태(State)

  • 히스토리(History, Ht)는 시간에 따른 관측, 행동, 보상의 집합

History

  • 상태(State, St)는 에이전트가 다음 행동을 결정하기 위해 고려하는 정보들
State : State is a function of the history

 

Information State(Markov State)

  • 마르코프 상태(Markov State)는 이전 히스토리에 대한 정보를 모두 포함하고 있다는 것을 의미한다.
Definition of Markov
  • Markov 하다는 뜻은 현재 상태(St)에서 다음 상태(St+1)에 가게 될 확률은 이전 모든 상태(S1, S2, …, St-1)에서 부터 진행되어 현재 상태(St)에 왔을 때 다음 상태(St+1)에 가게 될 확률과 동일하다는 뜻으로, 다음 상태를 고려할 때 현재 상태만 고려하면 된다는 의미이다.
  • 예 ) 아래 그림에서 현재 S3상태에 있다고 가정했을시, S3에서 S4로 갈 확률은 0.1이다. S3에 어떻게 해서 도달했는지는 중요하지 않다.
    • S3에서 S4에 갈 확률은 이전 히스토리가 어떻게 되었든 0.1이다.
      • 경우 1 : S1 → S2 → S3
      • 경우 2 : S1 → S2 → S4 → S3
      • 두 경우 이외에도 S3에 도달하는 경로(히스토리)는 다양하지만, 어떻게 도달했든 S3에서 S4로 갈 확률은 0.1로 동일하다.
A Example of Markov Chain

완전 관측(Fully Observable Environment) VS 부분 관측(Partially Observable Environment)

Fully Observable Environment Partially Observable Environment
  • 완전 관측 가능한 환경은 에이전트가 직접적으로 환경의 상태를 관측 가능한 것을 의미한다.
  • Agent State = environment state = information state
  • 일반적으로, 이 경우를 MDP(Markov Decision Process)라 한다.
 
  • 부분 관측은 에이전트가 간접적으로 환경을 관측하는 것을 의미한다.
  • 예를 들면, 주식 매매 에이전트는 현재의 주가만 알 수 있다거나, 포커 게임을 하는 에이전트는 공용 카드에 대한 정보만 얻을 수 있는 것 등으로 환경 전체가 아닌 일부분에 대한 정보만 얻을 수 있는 것을 의미한다.
  • 일반적으로 이 경우를 POMDP(Partially Observable Markov Decision Process)라고 한다.

 

8. 강화학습 에이전트(RL Agent)의 구성 요소

  1. 정책(Policy)
    • 정책은 에이전트의 행동을 결정하는 함수이다.
  2. 가치 함수(Value Function)
    • 가치 함수는 에이전트의 상태(S)나 행동(A)이 얼마나 좋은지를 도출하는 함수이다.
  3. 모델(Model)
    • 환경에 대한 에이전트의 표현이다.
  • 정책, 가치함수, 모델의 설정에 따라 강화학습은 다음 그림과 같이 분류할 수 있다.

RL Agent Taxonomy

 

※ 해당 내용은 David Silver 교수님의 Introduction to Reinforcement Learning 강의를 기반으로 강화학습에 대하여 정리한 자료입니다.

댓글