-
강화학습Data Science/ML&DL 모델 2022. 10. 31. 17:12반응형
2. Sequential Process
어떠한 랜덤베리에이블들의 시퀀스
2.1 Markov chain
2.1.1 Markov property :
현재의 사건은 먼 과거와는 별로 상관이 없고 최근에 일어난 일과 상관이 있다.
(q2를 알고싶을 때 q0은 이미 q1에 담겨있기 때문에 q1을 알면 q2를 알수 있다.)
(실제로 q0과 q2는 연관이 있지만, q1이라는 노드가 고정되면 q0와 q2는 상관이 없다.)
현재 상태가 모든 정보를 담고 있다면 과거 정보는 필요없다.
2.1.2 Transition Matrix
2.2 Markov Reward Process ( MarkovChain + reward )
markov 가정에 의해 Memoryless한 Random process이다.
passive stochastic한 행동으로 표현된다.
나중에 얻는 리워드를 가중치를 낮게 주겠다.(시간이 무한한경우에도 MRP를 잘 정의하기 위한 제한조건)
value func과 return값과 뭐가 다른가
return값 : 단순한 스칼라값
value func : state로부터 value로 가는 함수, value라는것은 reward expectation이다. E[Gt]
s - > e로 갈때 100,-10,30이라는 길이 있을 때 s노드에서의 value func 값은 40이다.
2.2.1 Mars Rover MRP ??
2.2.2 Bellman equation ??
실세계는 블록으로 이루어진게 아닌, 무한대의 state가 있을수 있다.
따라서 매트릭스 인버스로 구하는 값은 의미가 없을수 있다.
따라서 Value Iteration이라는 것이 있는데, 어떠한 식을 통해서 뽑아내는 것이 아니라 Random v0로부터 출발하여 값을 찾는것
2.3 Markov Decision Process ( MarkovChain + reward + policy + decision )
Q-Learning
Deep Q-Learning
반응형'Data Science > ML&DL 모델' 카테고리의 다른 글
Fast R-CNN(Fast Regions with Convolutional Neuron Networks features) 모델 개념 설명 (0) 2022.11.15 R-CNN(Regions with Convolutional Neuron Networks features) 모델 개념 설명 (0) 2022.11.12 AutoEncoder 개념 및 종류 (0) 2022.10.31 Transformer Model 개념 및 모델 구조 (0) 2022.10.28 서포트 벡터 머신(SVM,Support Vector Machine) 파이썬 구현하기(cvxpy, sklearn (0) 2022.10.14