-
강화학습 Q-Learning 예제 손으로 풀어보기Data Science 2022. 12. 16. 16:58반응형
1. 정보
문제를 풀기 위해서 먼저 주어지는 정보는 아래와 같다.
우측의 Q table은 주어진 정보를 기반으로 만들어졌다.
Q-Learning에서 Q value update에 사용되는 수식은 아래와 같다.
2. First Episode 계산해보기
먼저 주어진 episode는 아래와 같다.
이때 표에서의 S0의 의미는 time stemp 0을 의미하며,
이후 작성되는 계산식에서의 s0는 state 0을 의미하니 주의하자.
위의 episode를 MDP로 나타내면 아래와 같다.
이후 진행되는 Q value의 update는 episode에 제공된 순서대로 진행된다.
2.1 step 1
2.2 step 2
2. Second Episode 계산해보기
추가적으로 주어지는 episode는 아래와 같다.
주어진 episode를 가지고 업데이트한 MDP는 아래와 같으며 Q table은 앞서 first episode에서 update된 것을 이어서 사용한다.
2.1 step 1
2.2 step 2
2.3 step 3
2.4 step 4
이전에서 Q(s1,+)에 대해서 한번 update가 이루어졌지만,
이후 다시 등장하여서 update가 또 이루어진다.
2.5 step 5
반응형'Data Science' 카테고리의 다른 글
AI 서울 2024 참관 후기 (1) 2024.02.01 제조업에서 사람의 눈을 컴퓨터비전으로 대체하기 위한 체크포인트 (0) 2023.12.17 스마트팩토리 프로젝트에서의 요구사항 분석 (0) 2023.02.22 강화학습(Reinfocement Learning) 정의 및 개념 (0) 2022.12.13 SOM Clustering(Self-Organizing Map, 자기조직화지도) (0) 2022.08.21