본문 바로가기

분류 전체보기

(35)
강화 학습 - 정책 기반(Policy-based) 강화 학습, REINFORCE 알고리즘 - REINFORCE 알고리즘https://wikibook.co.kr/reinforcement-learning/ 파이썬과 케라스로 배우는 강화학습: 내 손으로 직접 구현하는 게임 인공지능 “강화학습을 쉽게 이해하고 코드로 구현하기” 강화학습의 기초부터 최근 알고리즘까지 친절하게 설명한다! ‘알파고’로부터 받은 신선한 충격으로 많은 사람들이 강화학습에 관심을 가지 wikibook.co.kr 해당 포스팅은 위의 책을 보고 정리한 내용이 주를 이룹니다. 또한, 이 포스팅에서 Neural Network(Deep Learning)에 대해서는 따로 설명하지 않겠습니다. 가치 기반 방식과 정책 기반 방식의 차이 들아가기 전에 지금까지 로드맵을 그려보았습니다. 책의 내용에서 어느 정도 흐름이 있다고 생각했는데, 이번 ..
강화 학습 - 딥 살사(Deep SARSA) 알고리즘 https://wikibook.co.kr/reinforcement-learning/ 파이썬과 케라스로 배우는 강화학습: 내 손으로 직접 구현하는 게임 인공지능 “강화학습을 쉽게 이해하고 코드로 구현하기” 강화학습의 기초부터 최근 알고리즘까지 친절하게 설명한다! ‘알파고’로부터 받은 신선한 충격으로 많은 사람들이 강화학습에 관심을 가지 wikibook.co.kr 해당 포스팅은 위의 책을 보고 정리한 내용이 주를 이룹니다. 이 포스팅에서 Neural Network(Deep Learning)에 대해서는 따로 설명하지 않겠습니다. 강화 학습과 더불어 또 하나의 큰 분야인데 강화 학습 주제에 곁들여 설명하기는 쉽지 않습니다. Nerual Network 부분을 모르신다면 다른 포스팅을 보시거나 관련 강의를 수강하시..
강화 학습 기본 - 시간차 학습(Temporal-Difference Learning) part 2. 큐 학습(Q-Leaning) 이 포스팅은 Part1과 이어지는 포스팅입니다. 2022.01.09 - [강화 학습] - 강화 학습 기본 - 시간차 학습(Temporal-Difference Learning) part 1. 살사(SARSA) 또한, 해당 포스팅은 아래의 책을 보고 정리한 내용입니다. 파이썬과 케라스로 배우는 강화학습: 내 손으로 직접 구현하는 게임 인공지능 “강화학습을 쉽게 이해하고 코드로 구현하기” 강화학습의 기초부터 최근 알고리즘까지 친절하게 설명한다! ‘알파고’로부터 받은 신선한 충격으로 많은 사람들이 강화학습에 관심을 가지 wikibook.co.kr 지금까지의 흐름을 간략하게 정리하겠습니다. MDP를 통해 연속 결정 문제를 풀어야 함. ->먼저 다이나믹 프로그래밍이 제안됨. 다이나믹 프로그래밍의 한계는 막대한 계산..
강화 학습 기본 - 시간차 학습(Temporal-Difference Learning) part 1. 살사(SARSA) https://wikibook.co.kr/reinforcement-learning/ 파이썬과 케라스로 배우는 강화학습: 내 손으로 직접 구현하는 게임 인공지능 “강화학습을 쉽게 이해하고 코드로 구현하기” 강화학습의 기초부터 최근 알고리즘까지 친절하게 설명한다! ‘알파고’로부터 받은 신선한 충격으로 많은 사람들이 강화학습에 관심을 가지 wikibook.co.kr 해당 포스팅은 위의 책을 보고 정리한 내용입니다. 이전 포스팅(몬테카를로 근사:https://wnthqmffhrm.tistory.com/7) 서론에서, 충분히 많은 에피소드를 통해 다이나믹 프로그래밍과 달리 환경에 대한 정보 없이도 마르코프 결정 과정을 풀어 나갈 수 있음을 확인했습니다. 하지만 몬테카를로 방식에는 단점이 있습니다. 바로 하나의 에..
강화 학습 기본 - ε-탐욕 정책(ε-greedy Policy) 그리고 ε-decay https://wikibook.co.kr/reinforcement-learning/ 파이썬과 케라스로 배우는 강화학습: 내 손으로 직접 구현하는 게임 인공지능 “강화학습을 쉽게 이해하고 코드로 구현하기” 강화학습의 기초부터 최근 알고리즘까지 친절하게 설명한다! ‘알파고’로부터 받은 신선한 충격으로 많은 사람들이 강화학습에 관심을 가지 wikibook.co.kr 해당 포스팅은 위의 책을 보고 정리한 내용입니다. 다음 포스팅 전에 ε-greedy 정책에 대해 포스팅 해보려 합니다 직전 포스팅인 몬테카를로 근사를 설명하면서 이 부분도 병렬적으로 이해가 되어야 도움이 될거 같습니다. ε-greedy 정책 강화 학습에서 에이전트는 주로 greedy 정책을 사용합니다. 학습하면서 얻은 가치 함수 중 가장 큰 값을 ..
강화 학습 기본 - 몬테카를로 근사(Monte Carlo Approximation) https://wikibook.co.kr/reinforcement-learning/ 파이썬과 케라스로 배우는 강화학습: 내 손으로 직접 구현하는 게임 인공지능 “강화학습을 쉽게 이해하고 코드로 구현하기” 강화학습의 기초부터 최근 알고리즘까지 친절하게 설명한다! ‘알파고’로부터 받은 신선한 충격으로 많은 사람들이 강화학습에 관심을 가지 wikibook.co.kr 해당 포스팅은 위의 책을 보고 정리한 내용입니다. 제 마음대로 하는 제목이지만, 강화학습 기초->기본으로 넘어왔습니다. 이전 포스팅까지는 강화 학습을 하기까지의 개념과 배경을 알아왔고, 이제부터 학습의 영역이라고 생각 했기 때문입니다. MDP라 부르는 마르코프 결정 과정(MDP 포스팅: https://wnthqmffhrm.tistory.com/4?..
강화 학습 기초 - 다이나믹 프로그래밍의 한계(Limitation of Dynamic programming) https://wikibook.co.kr/reinforcement-learning/ 파이썬과 케라스로 배우는 강화학습: 내 손으로 직접 구현하는 게임 인공지능 “강화학습을 쉽게 이해하고 코드로 구현하기” 강화학습의 기초부터 최근 알고리즘까지 친절하게 설명한다! ‘알파고’로부터 받은 신선한 충격으로 많은 사람들이 강화학습에 관심을 가지 wikibook.co.kr 해당 포스팅은 위의 책을 보고 정리한 내용입니다. 이번 포스팅은 자세한 설명은 넘어가고 다이나믹 프로그래밍의 한계와 강화 학습에 대한 제 의견만 남겨보려 합니다. 이유는 다이나믹 프로그래밍이라는 알고리즘을 설명하는 것이 앞으로 배워갈 강화학습의 큰틀이라고 보기 어렵다고 생각했습니다. 다만, 다이나믹 프로그래밍의 한계가 있어, 강화학습이 등장 했다는..
강화 학습 기초 - 정책(Policy), 가치 함수(Value Function) 그리고 벨만 방정식(Bellman Equation) https://wikibook.co.kr/reinforcement-learning/ 파이썬과 케라스로 배우는 강화학습: 내 손으로 직접 구현하는 게임 인공지능 “강화학습을 쉽게 이해하고 코드로 구현하기” 강화학습의 기초부터 최근 알고리즘까지 친절하게 설명한다! ‘알파고’로부터 받은 신선한 충격으로 많은 사람들이 강화학습에 관심을 가지 wikibook.co.kr 해당 포스팅은 위의 책을 보고 정리한 내용입니다. 상태(S_t): t 시점에서 에이전트가 인식하고 있는 자신의 상황. 행동(A_t): t 시점에서 에이전트가 인식하고 있는 상황에서 취할 수 있는 행동. 보상 함수: 에이전트가 어떤 행동을 했을 때, 얻을 수 있는 보상, 기댓값 상태 변환 확률: S_t에서 A_t했을때 다음 상태s 일 확률. 할인율:..