본문 바로가기

김성훈 교수님3

모두를 위한 RL강좌: Lecture 5, 6 본 게시글은 김성훈 교수님의 '모두를 위한 RL강좌' 정리글입니다. 개인적인 공부를 위해 작성한 글이기에 강좌 외 내용이 추가되었을 수 있습니다. 잘못된 내용, 오타는 지적해 주시면 감사하겠습니다. 강의 및 슬라이드 링크: https://hunkim.github.io/ml/ Lecture 5: Q-learning in non-deterministic world Deterministic은 확정적, 결정적이라는 뜻으로 매번 동일한 값을 반환한다. 반면에 Stochastic은 확률적이라는 뜻으로, 매번 다른 값을 반환한다. 현실은 Stochastic, 하기에 Lecture 5에서는 Stochastic을 고려하여 Q-learning을 보완한다. Q가 왼쪽으로 가려다 오른쪽으로 우연히(Stochastic) 도달하.. 2024. 2. 5.
모두를 위한 RL강좌: Lecture 4 본 게시글은 김성훈 교수님의 '모두를 위한 RL강좌' 정리글입니다. 개인적인 공부를 위해 작성한 글이기에 강좌 외 내용이 추가되었을 수 있습니다. 잘못된 내용, 오타는 지적해 주시면 감사하겠습니다. 강의 및 슬라이드 링크: https://hunkim.github.io/ml/ Lecture 4: Q-learning (table) exploit&exploration and discounted reward Exploit & Exploration 이전 시간에 배운 Q 러닝은 Dummy Q 러닝으로, 약간의 문제를 지니고 있다. 바로 maxQ로만 이동하기에, 새로운 방향으로의 시도가 전혀 없다는 점이다. maxQ가 진짜 max값이라면 상관없겠지만, 대다수의 경우는 아니다. (global, local 최적해의 차이.. 2024. 2. 2.
모두를 위한 RL강좌: Lecture 3 본 게시글은 김성훈 교수님의 '모두를 위한 RL강좌' 정리글입니다. 개인적인 공부를 위해 작성한 글이기에 강좌 외 내용이 추가되었을 수 있습니다. 잘못된 내용, 오타는 지적해 주시면 감사하겠습니다. 강의 및 슬라이드 링크: https://hunkim.github.io/ml/ Lecture 3: Dummy Q-learning (table) Lecture 2에서 Frozen Lake 게임을 살펴봤다. (보고 오기를 추천드립니다) Agent는 정답을 모르기에, 어디로 가야 할지 전혀 감이 안 올 것이다. 그럼 어디로 이동해야 할까? Random 하게 이동하자니 비효율적이다. 이때 생각나는 말이 있다. Even if you know the way, ask. (아는 길도, 물어가라) 그것이 Q 러닝(Q-learn.. 2024. 2. 2.