본문 바로가기

데이터 사이언스 공부

(25)
자주 사용하는 코드 https://www.notion.so/j4s0n/86282f8fd4d04861ab82ccd97beb7a78 https://www.notion.so/j4s0n/numpy-pandas-09957d9b200a4bf6ba585cc9369b5934
4) Model-Free prediction, control, TD Lambda 이전에 공부한 dynamic programming은 MDP를 안다고 가정한 model based 환경에서의 Planning 문제였다. 하지만 DP는 계산이 복잡하고 model 정보를 모두 알아야 한다는 단점이 있다. 이를 보완한 것이 Learning이고 Learning은 MDP에 대한 정보가 없거나 부족한 model free에서 사용할 수 있다는 장점이 있다. model free에서도 DP와 마찬가지로 prediction(true value function)과 control(optimal policy)이 가능하고 2가지 방법이 있다. Prediction Monte-Carlo: 실제로 모든 에피소드를 돌면서 나온 값들의 평균을 사용한다. first visit MC는 처음 방문한 state에 대해서만 cou..
3) Dynamic Programming, Policy Evaluation, Iteration Policy Evaluation: 평가에 대한 문제 Policy Iteration: 반복을 통한 최적화에 대한 문제 Dynamic Programming: solve the subproblems + combine solutions to subproblems 작은 문제들로 나누어 풀고, 하나로 모아 문제를 해결 DP Two Properties: optimal substructure & overlapping subproblems optimal solution can be decomposed into subproblems subproblems recur many times, soluitons can be cached and reused 작은 문제들로 나눌 수 있고, 작은 문제들이 다시 나타나기 때문에 잠깐 저장..
2) Agent, Environment, State # Reinforcement Learning Reinforcement Learning은 Machine Learning에 포함되며 seupervised learning은 아니다. supervisor가 없고 reward signal만 있다. reward는 scalar feedback signal이다. RL은 Time really matters다. # Agent , Environment agent와 environment가 상호 작용한다. agent는 environment에게 action을 준다. environment는 agent에게 reward와 observation을 준다. agent의 목적은 cumulative reward(total future reward)를 maximization 하는 것이다. # O..
1) MDP, Value Function, Bellman Equation 출처: https://subsay.tistory.com/14 https://www.youtube.com/playlist?list=PLpRS2w0xWHTcTZyyX8LMmtbcMXpd3s4TU 이전 참고 글: 2020/07/29 - [공부/강화학습] - Reinforcement Learning, Open AI GYM # Markov Process MP는 state transition Matrix다. state set S와 state transition probability P로 표현한다. MP = [ S , P ] P = [[P11, ,,, , P1n], ,,, , [Pn1, ,,, , Pnn]] # Markov Reward Process MRP는 MP에 reward와 discount factor를 추가로..
Text generation with an RNN 이전 글에서 RNN으로 시계열 데이터나 문자열 데이터 등의 sequence data룰 학습한다는 것을 알았다. 또한 기본적인 RNN과 LSTM, GRU에 대해 알아보았다. 2020/07/03 - [공부/딥러닝] - CNN, RNN TensorFlow 2.0의 텍스트 분류 예제에서 텍스트 전처리 과정과 Embedding Layer를 사용하는 법에 대해 공부했다. 2020/06/08 - [공부/딥러닝] - TensorFlow 2.0 basic practice 2 이번 시간에는 위의 RNN과 텍스트 분류 지식을 가지고 TensorFlow RNN 예제 코드를 살펴볼 것이다. 이 코드는 텍스트 데이터를 받아서 자동으로 비슷한 텍스트를 생성해주는 예제이다. https://www.tensorflow.org/tutor..
3) Q-Network, DQN 2020/07/29 - [공부/강화학습] - Reinforcement Learning, Open AI GYM (이전에 공부한 Q table) state가 많은 환경에서는 Q-Table을 사용하기 어렵다. 이때 Q Learning에도 Deep Learning처럼 network를 적용할 수 있다. 일반적인 neural network에는 input, output layer가 있고 loss function을 정의하고 최적화하는 과정을 포함한다. loss function은 min sum square(WX - Y)의 형태이다. Q network도 이와 같은 방식으로 구현한다. Q network에서 input은 state, output은 action이다. 그리고 Q network에서의 WX는 Q-prediction(..
2) Q-learning exploit & exploration and discounted reward, stochastic(non-deterministic) world 2020/07/29 - [공부/강화학습] - Reinforcement Learning, Open AI GYM Q-learning exploit & exploration and discounted reward Q learning의 최적화된 학습을 위한 몇 가지 방법이 있다. 첫 번째는 action 선택 단계에서 Exploit & Exploration을 하는 것이고, 두 번째는 Q value update 단계에서 Discounted Reward를 하는 것이다. Exploit & Exploration을 사용하는 이유는 Q learning의 모든 단계에서 가장 좋은 행동만 선택하면, 전체적으로는 최적의 결과를 얻지 못할 수 있기 때문이다. 즉, 각 단계의 가장 큰 값만 선택하는 Greedy Action만 취하게..