Shared Experience Actor-Critic for Multi-Agent Reinforcement Learning 논문 리뷰
Shared Experience Actor-Critic for Multi-Agent Reinforcement Learning
Requests for name changes in the electronic proceedings will be accepted with no questions asked. However name changes may cause bibliographic tracking issues. Authors are asked to consider this carefully and discuss it with their co-authors prior to reque
proceedings.neurips.cc
KEYWORDS
- Shared Experience
- 에이전트 간 경험 공유
MAIN IDEA
- 에이전트 간 경험 공유가 가능한 환경에서 경험(experience)을 공유하는 방법을 제안
- SEAC(Shared Experience Actor-Critic Multi-Agent Reinforcement Learning)
- 이를 통해 효과적으로 exploration이 가능
DETAILS
Introduction
- MARL에서 exploration은 필요하지만 non-stationary 하기 때문에 어려운 문제임
- 두 에이전트가 동시에 목적지에 도착해야하는 문제가 있다고 할 때 목표에 도달 시 서로의 경험을 공유하면 각자가 어떻게 움직였는지 알 수 있으니 효과적임
- SEAC는 independent learning과 유사하게 작동하나 actor와 critic 파라미터의 업데이트를 agent와 다른 agent의 경험을 결합하여 실시한다.
- 다른 MARL알고리즘과 비교했을시 70% 정도 적은 수의 training steps으로 학습이 가능했고, 높은 return을 가졌다.
SEAC (Shared Experience Actor-Critic)
- 에이전트는 동일하지 않은 reward function을 가진 다른 에이전트의 경험으로 학습이 가능
- 다른 알고리즘과 다른점임(MARL의 알고리즘들은 개별 보상이 아닌 팀보상만 주어지는 것을 전제로 하는 경우가 많음)
- 각 agent는 on-policy이고 다른 에이전트의 experience는 off-policy로 고려
- Important Sampling을 적용하여 타 agent의 경험을 학습에 사용
- 첫 번째 식에서 beta(녹색표시)는 다른 에이전트의 정책
- 두 번째 식에서 i(노란색)은 학습 에이전트, k는 다른 에이전트를 의미
- Important Sampling : 다른 분포(다른 에이전트 정책)에서 샘플링된 값을 이용하여 구하고자 하는 분포(학습 대상인 에이전트)에서의 기댓값을 유추하는 방법
- Loss function을 계산할 때 Important Sampling을 적용
Experiments
- 총 4가지 환경에서 실험 실시
- Predator Prey (PP)
- Starcraft Multi-Agent Challenge (SMAC)
- Level-Based Foraging(LBF)
- Multi-Robot Warehouse(RWARE)
- 대조 모델로 IAC(Independent Actor-Critic), SNAC(Shared Network Actor-Critic) 사용
- 실험 결과 대조 모델과 비교했을 때에 SEAC의 성능이 좋았음.
THINK
- 참고링크에서 언급했듯이 현실적으로 고려했을때 적용에 제한이 있음.
- 각자 에이전트에게 보상을 주어야 하기 때문에
- 팀 보상만 주어질때 위 알고리즘을 적용할 순 없을까?
참고링크
Multi-Agent 강화학습 시리즈 5 - SEAC
Intro 이전 포스팅에서 각 agen들이 서로 소통(부분관측된 정보)를 공유하는 방법인 MAAC에 대하여 다...
blog.naver.com
※ 본 게시물은 작성자가 학습과정에서 작성한 내용으로 정확하지 않은 내용이 포함되어 있을 수 있습니다. 참고해 주시기 바라며, 틀린 사항에 대하여 댓글 남겨주시면 수정하겠습니다. 감사합니다.
'AI 공부 > MARL' 카테고리의 다른 글
[23-2] MAAC : Actor-Attention-Critic for Multi-Agent Reinforcement Learning 논문 정리 (0) | 2023.02.15 |
---|---|
[23-1] LIIR 논문 정리 (0) | 2023.02.13 |
댓글