강화학습
-
강화학습 Q-Learning 예제 손으로 풀어보기Data Science 2022. 12. 16. 16:58
1. 정보 문제를 풀기 위해서 먼저 주어지는 정보는 아래와 같다. 우측의 Q table은 주어진 정보를 기반으로 만들어졌다. Q-Learning에서 Q value update에 사용되는 수식은 아래와 같다. 2. First Episode 계산해보기 먼저 주어진 episode는 아래와 같다. 이때 표에서의 S0의 의미는 time stemp 0을 의미하며, 이후 작성되는 계산식에서의 s0는 state 0을 의미하니 주의하자. 위의 episode를 MDP로 나타내면 아래와 같다. 이후 진행되는 Q value의 update는 episode에 제공된 순서대로 진행된다. 2.1 step 1 2.2 step 2 2. Second Episode 계산해보기 추가적으로 주어지는 episode는 아래와 같다. 주어진 epi..
-
강화학습(Reinfocement Learning) 정의 및 개념Data Science 2022. 12. 13. 16:33
1. 강화학습(Reinfocement Learning)이란 강화학습이란 Cumulative reward 를 높이기 위해, 특정 환경에서 intelligent agent 가 어떤 action 을 취해야하는 지 연구하는 분야이다. (최적의 policy 찾기) 지도학습이 모델에게 독립변수(x)와 종속변수(y)를 제공하고 학습한다면, 강화학습은 모델에게 state(s)와 reward(r)을 제공하고 학습한다. 강화학습은 아래의 경우 사용하면 좋다. 각 state에 대해서 최적의 행동(optimal action)이 뭔지 모를 때 과정을 모르고 결과에 대한 Reward만 정해줄 수 있을 때 여러 시도 및 실패 과정을 거처도 될 때 강화학습을 그림으로 나타내면 아래와 같다. Agent는 Environment의 어떠한..