강화학습 Q-Learning 예제 손으로 풀어보기

Data Science 2022. 12. 16. 16:58

1. 정보

문제를 풀기 위해서 먼저 주어지는 정보는 아래와 같다.

우측의 Q table은 주어진 정보를 기반으로 만들어졌다.

Q-Learning에서 Q value update에 사용되는 수식은 아래와 같다.

2. First Episode 계산해보기

먼저 주어진 episode는 아래와 같다.

이때 표에서의 S0의 의미는 time stemp 0을 의미하며,

이후 작성되는 계산식에서의 s0는 state 0을 의미하니 주의하자.

위의 episode를 MDP로 나타내면 아래와 같다.

이후 진행되는 Q value의 update는 episode에 제공된 순서대로 진행된다.

2.1 step 1

2.2 step 2

2. Second Episode 계산해보기

추가적으로 주어지는 episode는 아래와 같다.

주어진 episode를 가지고 업데이트한 MDP는 아래와 같으며 Q table은 앞서 first episode에서 update된 것을 이어서 사용한다.

2.1 step 1

2.2 step 2

2.3 step 3

2.4 step 4

이전에서 Q(s1,+)에 대해서 한번 update가 이루어졌지만,

이후 다시 등장하여서 update가 또 이루어진다.

2.5 step 5

저작자표시 (새창열림)

'Data Science' 카테고리의 다른 글

AI 서울 2024 참관 후기 (1)	2024.02.01
제조업에서 사람의 눈을 컴퓨터비전으로 대체하기 위한 체크포인트 (0)	2023.12.17
스마트팩토리 프로젝트에서의 요구사항 분석 (0)	2023.02.22
강화학습(Reinfocement Learning) 정의 및 개념 (0)	2022.12.13
SOM Clustering(Self-Organizing Map, 자기조직화지도) (0)	2022.08.21

ABOUT ME

컴퓨터하는 상어 컴퓨터하는 상어

1. 정보

2. First Episode 계산해보기

2.1 step 1

2.2 step 2

2. Second Episode 계산해보기

2.1 step 1

2.2 step 2

2.3 step 3

2.4 step 4

2.5 step 5

'Data Science' 카테고리의 다른 글

티스토리툴바

ABOUT ME

1. 정보

2. First Episode 계산해보기

2.1 step 1

2.2 step 2

2. Second Episode 계산해보기

2.1 step 1

2.2 step 2

2.3 step 3

2.4 step 4

2.5 step 5

'Data Science' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바