데이터 사이언스 공부/강화학습 (7) 썸네일형 리스트형 4) Model-Free prediction, control, TD Lambda 이전에 공부한 dynamic programming은 MDP를 안다고 가정한 model based 환경에서의 Planning 문제였다. 하지만 DP는 계산이 복잡하고 model 정보를 모두 알아야 한다는 단점이 있다. 이를 보완한 것이 Learning이고 Learning은 MDP에 대한 정보가 없거나 부족한 model free에서 사용할 수 있다는 장점이 있다. model free에서도 DP와 마찬가지로 prediction(true value function)과 control(optimal policy)이 가능하고 2가지 방법이 있다. Prediction Monte-Carlo: 실제로 모든 에피소드를 돌면서 나온 값들의 평균을 사용한다. first visit MC는 처음 방문한 state에 대해서만 cou.. 3) Dynamic Programming, Policy Evaluation, Iteration Policy Evaluation: 평가에 대한 문제 Policy Iteration: 반복을 통한 최적화에 대한 문제 Dynamic Programming: solve the subproblems + combine solutions to subproblems 작은 문제들로 나누어 풀고, 하나로 모아 문제를 해결 DP Two Properties: optimal substructure & overlapping subproblems optimal solution can be decomposed into subproblems subproblems recur many times, soluitons can be cached and reused 작은 문제들로 나눌 수 있고, 작은 문제들이 다시 나타나기 때문에 잠깐 저장.. 2) Agent, Environment, State # Reinforcement Learning Reinforcement Learning은 Machine Learning에 포함되며 seupervised learning은 아니다. supervisor가 없고 reward signal만 있다. reward는 scalar feedback signal이다. RL은 Time really matters다. # Agent , Environment agent와 environment가 상호 작용한다. agent는 environment에게 action을 준다. environment는 agent에게 reward와 observation을 준다. agent의 목적은 cumulative reward(total future reward)를 maximization 하는 것이다. # O.. 1) MDP, Value Function, Bellman Equation 출처: https://subsay.tistory.com/14 https://www.youtube.com/playlist?list=PLpRS2w0xWHTcTZyyX8LMmtbcMXpd3s4TU 이전 참고 글: 2020/07/29 - [공부/강화학습] - Reinforcement Learning, Open AI GYM # Markov Process MP는 state transition Matrix다. state set S와 state transition probability P로 표현한다. MP = [ S , P ] P = [[P11, ,,, , P1n], ,,, , [Pn1, ,,, , Pnn]] # Markov Reward Process MRP는 MP에 reward와 discount factor를 추가로.. 3) Q-Network, DQN 2020/07/29 - [공부/강화학습] - Reinforcement Learning, Open AI GYM (이전에 공부한 Q table) state가 많은 환경에서는 Q-Table을 사용하기 어렵다. 이때 Q Learning에도 Deep Learning처럼 network를 적용할 수 있다. 일반적인 neural network에는 input, output layer가 있고 loss function을 정의하고 최적화하는 과정을 포함한다. loss function은 min sum square(WX - Y)의 형태이다. Q network도 이와 같은 방식으로 구현한다. Q network에서 input은 state, output은 action이다. 그리고 Q network에서의 WX는 Q-prediction(.. 2) Q-learning exploit & exploration and discounted reward, stochastic(non-deterministic) world 2020/07/29 - [공부/강화학습] - Reinforcement Learning, Open AI GYM Q-learning exploit & exploration and discounted reward Q learning의 최적화된 학습을 위한 몇 가지 방법이 있다. 첫 번째는 action 선택 단계에서 Exploit & Exploration을 하는 것이고, 두 번째는 Q value update 단계에서 Discounted Reward를 하는 것이다. Exploit & Exploration을 사용하는 이유는 Q learning의 모든 단계에서 가장 좋은 행동만 선택하면, 전체적으로는 최적의 결과를 얻지 못할 수 있기 때문이다. 즉, 각 단계의 가장 큰 값만 선택하는 Greedy Action만 취하게.. 1) Reinforcement Learning, Open AI GYM Reinforcement Learning은 Environment와 Agent의 상호작용에 대한 모델을 사용한다. Environment에서 Agent(Actor)가 한 번의 Action을 수행할 때, State(Observation)가 변하고 적절한 Reward를 얻을 수 있다. 한 state에서 수행할 action은 Q table에 의해 결정된다. Q table은 total reward가 최대가 되도록 하는 state와 action을 기억하는 table이다. 이 행렬은 (가능한 state의 수) X (각 state에서 할 수 있는 action)의 크기를 갖는다. Q table에 state와 action을 입력으로 주면 출력으로 Quality(reward)를 얻을 수 있다. 이 Q value는 현재 sta.. 이전 1 다음