모두를 위한 RL강좌5 모두를 위한 RL강좌: Lecture 7 본 게시글은 김성훈 교수님의 '모두를 위한 RL강좌' 정리글입니다. 개인적인 공부를 위해 작성한 글이기에 강좌 외 내용이 추가되었을 수 있습니다. 잘못된 내용, 오타는 지적해 주시면 감사하겠습니다. 강의 및 슬라이드 링크: https://hunkim.github.io/ml/ Lecture 7: DQN Neural Net에서 Q_hat이 Q로 Diverge 하지 못하는 이유는 다음 두 가지에서 기인한다. 1. Correlations between samples 2. Non-stationary targets 그럼 각 문제를 살펴보자. 1. Correlations between samples Sample data들은 약간씩만 변형된 것이기에 유사하고, correlation이 존재한다. sample 간 corr.. 2024. 2. 5. 모두를 위한 RL강좌: Lecture 5, 6 본 게시글은 김성훈 교수님의 '모두를 위한 RL강좌' 정리글입니다. 개인적인 공부를 위해 작성한 글이기에 강좌 외 내용이 추가되었을 수 있습니다. 잘못된 내용, 오타는 지적해 주시면 감사하겠습니다. 강의 및 슬라이드 링크: https://hunkim.github.io/ml/ Lecture 5: Q-learning in non-deterministic world Deterministic은 확정적, 결정적이라는 뜻으로 매번 동일한 값을 반환한다. 반면에 Stochastic은 확률적이라는 뜻으로, 매번 다른 값을 반환한다. 현실은 Stochastic, 하기에 Lecture 5에서는 Stochastic을 고려하여 Q-learning을 보완한다. Q가 왼쪽으로 가려다 오른쪽으로 우연히(Stochastic) 도달하.. 2024. 2. 5. 모두를 위한 RL강좌: Lecture 4 본 게시글은 김성훈 교수님의 '모두를 위한 RL강좌' 정리글입니다. 개인적인 공부를 위해 작성한 글이기에 강좌 외 내용이 추가되었을 수 있습니다. 잘못된 내용, 오타는 지적해 주시면 감사하겠습니다. 강의 및 슬라이드 링크: https://hunkim.github.io/ml/ Lecture 4: Q-learning (table) exploit&exploration and discounted reward Exploit & Exploration 이전 시간에 배운 Q 러닝은 Dummy Q 러닝으로, 약간의 문제를 지니고 있다. 바로 maxQ로만 이동하기에, 새로운 방향으로의 시도가 전혀 없다는 점이다. maxQ가 진짜 max값이라면 상관없겠지만, 대다수의 경우는 아니다. (global, local 최적해의 차이.. 2024. 2. 2. 모두를 위한 RL강좌: Lecture 3 본 게시글은 김성훈 교수님의 '모두를 위한 RL강좌' 정리글입니다. 개인적인 공부를 위해 작성한 글이기에 강좌 외 내용이 추가되었을 수 있습니다. 잘못된 내용, 오타는 지적해 주시면 감사하겠습니다. 강의 및 슬라이드 링크: https://hunkim.github.io/ml/ Lecture 3: Dummy Q-learning (table) Lecture 2에서 Frozen Lake 게임을 살펴봤다. (보고 오기를 추천드립니다) Agent는 정답을 모르기에, 어디로 가야 할지 전혀 감이 안 올 것이다. 그럼 어디로 이동해야 할까? Random 하게 이동하자니 비효율적이다. 이때 생각나는 말이 있다. Even if you know the way, ask. (아는 길도, 물어가라) 그것이 Q 러닝(Q-learn.. 2024. 2. 2. 모두를 위한 RL강좌: Lecture 1, 2 본 게시글은 김성훈 교수님의 '모두를 위한 RL강좌' 정리글입니다. 개인적인 공부를 위해 작성한 글이기에 강좌 외 내용이 추가되었을 수 있습니다. 잘못된 내용, 오타는 지적해 주시면 감사하겠습니다. 강의 및 슬라이드 링크: https://hunkim.github.io/ml/ Lecture 1: RL 수업소개 (Introduction) 위키 백과에서는 강화학습을 다음처럼 정의한다. "강화 학습(reinforcement learning)은 기계 학습의 한 영역이다. 행동심리학에서 영감을 받았으며, 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법이다." 1장에서는 강화학습에 대해 소개한다. 강화학습이 대중에 알려진 것은.. 2024. 2. 2. 이전 1 다음