본문 바로가기

강화 학습

(14)
강화 학습 기본 - ε-탐욕 정책(ε-greedy Policy) 그리고 ε-decay https://wikibook.co.kr/reinforcement-learning/ 파이썬과 케라스로 배우는 강화학습: 내 손으로 직접 구현하는 게임 인공지능 “강화학습을 쉽게 이해하고 코드로 구현하기” 강화학습의 기초부터 최근 알고리즘까지 친절하게 설명한다! ‘알파고’로부터 받은 신선한 충격으로 많은 사람들이 강화학습에 관심을 가지 wikibook.co.kr 해당 포스팅은 위의 책을 보고 정리한 내용입니다. 다음 포스팅 전에 ε-greedy 정책에 대해 포스팅 해보려 합니다 직전 포스팅인 몬테카를로 근사를 설명하면서 이 부분도 병렬적으로 이해가 되어야 도움이 될거 같습니다. ε-greedy 정책 강화 학습에서 에이전트는 주로 greedy 정책을 사용합니다. 학습하면서 얻은 가치 함수 중 가장 큰 값을 ..
강화 학습 기본 - 몬테카를로 근사(Monte Carlo Approximation) https://wikibook.co.kr/reinforcement-learning/ 파이썬과 케라스로 배우는 강화학습: 내 손으로 직접 구현하는 게임 인공지능 “강화학습을 쉽게 이해하고 코드로 구현하기” 강화학습의 기초부터 최근 알고리즘까지 친절하게 설명한다! ‘알파고’로부터 받은 신선한 충격으로 많은 사람들이 강화학습에 관심을 가지 wikibook.co.kr 해당 포스팅은 위의 책을 보고 정리한 내용입니다. 제 마음대로 하는 제목이지만, 강화학습 기초->기본으로 넘어왔습니다. 이전 포스팅까지는 강화 학습을 하기까지의 개념과 배경을 알아왔고, 이제부터 학습의 영역이라고 생각 했기 때문입니다. MDP라 부르는 마르코프 결정 과정(MDP 포스팅: https://wnthqmffhrm.tistory.com/4?..
강화 학습 기초 - 다이나믹 프로그래밍의 한계(Limitation of Dynamic programming) https://wikibook.co.kr/reinforcement-learning/ 파이썬과 케라스로 배우는 강화학습: 내 손으로 직접 구현하는 게임 인공지능 “강화학습을 쉽게 이해하고 코드로 구현하기” 강화학습의 기초부터 최근 알고리즘까지 친절하게 설명한다! ‘알파고’로부터 받은 신선한 충격으로 많은 사람들이 강화학습에 관심을 가지 wikibook.co.kr 해당 포스팅은 위의 책을 보고 정리한 내용입니다. 이번 포스팅은 자세한 설명은 넘어가고 다이나믹 프로그래밍의 한계와 강화 학습에 대한 제 의견만 남겨보려 합니다. 이유는 다이나믹 프로그래밍이라는 알고리즘을 설명하는 것이 앞으로 배워갈 강화학습의 큰틀이라고 보기 어렵다고 생각했습니다. 다만, 다이나믹 프로그래밍의 한계가 있어, 강화학습이 등장 했다는..
강화 학습 기초 - 정책(Policy), 가치 함수(Value Function) 그리고 벨만 방정식(Bellman Equation) https://wikibook.co.kr/reinforcement-learning/ 파이썬과 케라스로 배우는 강화학습: 내 손으로 직접 구현하는 게임 인공지능 “강화학습을 쉽게 이해하고 코드로 구현하기” 강화학습의 기초부터 최근 알고리즘까지 친절하게 설명한다! ‘알파고’로부터 받은 신선한 충격으로 많은 사람들이 강화학습에 관심을 가지 wikibook.co.kr 해당 포스팅은 위의 책을 보고 정리한 내용입니다. 상태(S_t): t 시점에서 에이전트가 인식하고 있는 자신의 상황. 행동(A_t): t 시점에서 에이전트가 인식하고 있는 상황에서 취할 수 있는 행동. 보상 함수: 에이전트가 어떤 행동을 했을 때, 얻을 수 있는 보상, 기댓값 상태 변환 확률: S_t에서 A_t했을때 다음 상태s 일 확률. 할인율:..
강화 학습 기초 - MDP(마르코프 결정 과정, Markov Decision Process) https://wikibook.co.kr/reinforcement-learning/ 파이썬과 케라스로 배우는 강화학습: 내 손으로 직접 구현하는 게임 인공지능 “강화학습을 쉽게 이해하고 코드로 구현하기” 강화학습의 기초부터 최근 알고리즘까지 친절하게 설명한다! ‘알파고’로부터 받은 신선한 충격으로 많은 사람들이 강화학습에 관심을 가지 wikibook.co.kr 해당 포스팅은 위의 책을 보고 정리한 내용입니다. 2장에서는 MDP와 벨만방정식이라는 소제목으로, 앞으로 강화학습에 쓰일 개념들을 짚고 넘어갑니다. 따라서 이 장의 목표는 수식에 익숙해지고, 각 수식을 각자만의 한 줄로 이해하고, 앞으로의 내용을 보는게 좋다고 생각합니다. 들어가기 전에 에이전트와 환경을 이해해야 합니다. 저번 포스팅에 언급 했어야..
강화 학습 개요 https://wikibook.co.kr/reinforcement-learning/ 파이썬과 케라스로 배우는 강화학습: 내 손으로 직접 구현하는 게임 인공지능 “강화학습을 쉽게 이해하고 코드로 구현하기” 강화학습의 기초부터 최근 알고리즘까지 친절하게 설명한다! ‘알파고’로부터 받은 신선한 충격으로 많은 사람들이 강화학습에 관심을 가지 wikibook.co.kr 해당 포스팅은 위의 책을 보고 정리한 내용입니다. 많은 강화학습 포스팅을 훑어 보면서, 위의 책을 본 사람들이 많은거 같아서 직접 읽어보기로 하였습니다. 우선, 1장은 강화학습을 가르쳐 준다기 보다는 소개에 가까운 장입니다. 그래서 기본 줄거리와 제가 읽으면서 중요하다고 생각하는 점, 그리고 생각한 점을 짧게 언급하려고 합니다. 먼저 "강화"라는 ..