손풀이
-
강화학습 Q-Learning 예제 손으로 풀어보기Data Science 2022. 12. 16. 16:58
1. 정보 문제를 풀기 위해서 먼저 주어지는 정보는 아래와 같다. 우측의 Q table은 주어진 정보를 기반으로 만들어졌다. Q-Learning에서 Q value update에 사용되는 수식은 아래와 같다. 2. First Episode 계산해보기 먼저 주어진 episode는 아래와 같다. 이때 표에서의 S0의 의미는 time stemp 0을 의미하며, 이후 작성되는 계산식에서의 s0는 state 0을 의미하니 주의하자. 위의 episode를 MDP로 나타내면 아래와 같다. 이후 진행되는 Q value의 update는 episode에 제공된 순서대로 진행된다. 2.1 step 1 2.2 step 2 2. Second Episode 계산해보기 추가적으로 주어지는 episode는 아래와 같다. 주어진 epi..