본문 바로가기

AI 공부21

[Pytorch 기초 정리] Numpy 및 Tensor 정리 #1 torch 버전 확인 INPUT import torch import numpy as np torch.__version__ ## torch 버전 확인 OUTPUT OUTPUTOUTPUT'1.7.1+cu110' 텐서 초기화와 데이터 타입 Numpy 기초 정리 np.array() : numpy array 생성 np.arange(a,b) : numpy a ~ b-1로 구성된 numpy array 생성 np.zeros() : 배열의 값이 모두 0인 numpy array 생성 np.ones() : 배열의 값이 모두 1인 numpy array 생성 np.full() : 배열의 값이 정해진 값으로 설정된 numpy array 생성 np.eye() : 대각선이 1이고 나머지가 0인 배열 생성 np.reshape() : .. 2023. 3. 7.
[23-3] SEAC : Shared Experience Actor-Critic for Multi-Agent Reinforcement Learning 논문 리뷰 Shared Experience Actor-Critic for Multi-Agent Reinforcement Learning 논문 리뷰 Shared Experience Actor-Critic for Multi-Agent Reinforcement Learning Requests for name changes in the electronic proceedings will be accepted with no questions asked. However name changes may cause bibliographic tracking issues. Authors are asked to consider this carefully and discuss it with their co-authors prior to r.. 2023. 2. 16.
[23-2] MAAC : Actor-Attention-Critic for Multi-Agent Reinforcement Learning 논문 정리 Actor-Attention-Critic for Multi-Agent Reinforcement Learning 논문에 대한 정리 글임. Actor-Attention-Critic for Multi-Agent Reinforcement Learning Reinforcement learning in multi-agent scenarios is important for real-world applications but presents challenges beyond those seen in single-agent settings. We present an actor-critic algorithm that trains decentralized policies in multi-agent settings, us arx.. 2023. 2. 15.
[23-1] LIIR 논문 정리 LIIR : Learning Individual Intrinsic Reward in Multi-Agent Reinforcement Learning 논문에 대한 정리 글임. Part of Advances in Neural Information Processing Systems 32 (NeurIPS 2019) LIIR: Learning Individual Intrinsic Reward in Multi-Agent Reinforcement Learning Requests for name changes in the electronic proceedings will be accepted with no questions asked. However name changes may cause bibliographic tr.. 2023. 2. 13.
[Introduction to Reinforcement Learning with David Silver] #4. Model-Free Prediction Introduction 3장에서는 다이나믹 프로그래밍(Dynamic Programming)을 이용한 Planning에 대하여 알아보았습니다. Planning이란 모델(Model)을 알고있을 경우 어떤 행동(Action)을 취하는데 있어 좋은 보상(Reward)을 얻게끔 정책(Policy)를 수정하여 최적 정책을 도출하는 것입니다. 모델(Model)을 알고 있다는 것은 MDP를 알고 있다는 것으로 Model-based라고 표현합니다. MDP는 환경에 대한 Model이고 에이전트가 환경(Environment)으로부터 제공 받는 정보인 보상(Reward)과 상태전이확률($ P_{ss'}^a $, 상태 $s$에서 행동 $a$를 했을때 상태 $s'$으로 이동할 확률)에 대하여 알고 있다는 것을 의미합니다. 4장에.. 2022. 10. 31.
[Introduction to Reinforcement Learning with David Silver] #3. Planning by Dynamic Programming Introduction 다이나믹 프로그래밍이란 (What is Dynamic Programming?) 다이나믹 프로그래밍 조건 정책평가(Policy Evaluation) 반복 정책 평가 (Iterative Policy Evaluation) Example : Small Gridworld 정책 반복(Policy Iteration) 가치 반복(Value Iteration) 최적화의 원리(Principle of Optimality) 가치 반복(Value Iteration) 요약(Summary) ※ 해당 내용은 David Silver 교수님의 Introduction to Reinforcement Learning 강의를 기반으로 강화학습에 대하여 정리한 자료입니다. 강의 영상(Lecture) : https://ww.. 2022. 10. 29.