본문 바로가기

강화 학습

(14)
[개념만] Hierarchical Deep Reinforcement Learning 이미지 처리 관련한 강화학습 논문(Video Captioning via Hierarchical Reinforcement Learning, CVPR 2018)을 읽던 중 모르는 개념이 나와 일단 기록합니다. Hierarchical Deep Reinforcement Learning이라는 개념인데 큰 목표와 작은 목표로 나누어 agent를 학습시키는 것 같습니다. 작은 목표가 모이면 큰 목표가 되는것이고 그 큰 목표를 실행하는 과정들을 통해 최종적으로 목표하는 action이나 policy를 학습하는 것이죠. 어떤 문제가 하나의 큰 목표가 아니라 더 세분화 될때 사용하면 좋은 개념인거 같습니다. 나중에 리뷰해보도록 해야겠습니다. 논문: 한국어 리뷰: Hierarchical Deep Reinforcement Le..
강화 학습 - A3C(Asynchronous Advantage Actor-Critic) https://wikibook.co.kr/reinforcement-learning/ 파이썬과 케라스로 배우는 강화학습: 내 손으로 직접 구현하는 게임 인공지능 “강화학습을 쉽게 이해하고 코드로 구현하기” 강화학습의 기초부터 최근 알고리즘까지 친절하게 설명한다! ‘알파고’로부터 받은 신선한 충격으로 많은 사람들이 강화학습에 관심을 가지 wikibook.co.kr 해당 포스팅은 위의 책을 보고 정리한 내용이 주를 이룹니다. 또한, 이 포스팅에서 Neural Network(Deep Learning)에 대해서는 따로 설명하지 않겠습니다. 2022.01.11 - [강화 학습] - 강화 학습 - 정책 기반(Policy-based) 강화 학습, REINFORCE 알고리즘 2022.01.12 - [강화 학습] - 강화..
강화 학습 - A2C, Continuous A2C 파이썬과 케라스로 배우는 강화학습: 내 손으로 직접 구현하는 게임 인공지능 “강화학습을 쉽게 이해하고 코드로 구현하기” 강화학습의 기초부터 최근 알고리즘까지 친절하게 설명한다! ‘알파고’로부터 받은 신선한 충격으로 많은 사람들이 강화학습에 관심을 가지 wikibook.co.kr 해당 포스팅은 위의 책을 보고 정리한 내용이 주를 이룹니다. 또한, 이 포스팅에서 Neural Network(Deep Learning)에 대해서는 따로 설명하지 않겠습니다. 이번 포스팅은 명확하게 설명하지 못한 부분이 있습니다 ㅠ 2022.01.11 - [강화 학습] - 강화 학습 - 정책 기반(Policy-based) 강화 학습, REINFORCE 알고리즘 앞서 정책 기반 강화 학습과 그중 하나의 알고리즘인 REINFORCE 알..
강화 학습 - DQN https://wikibook.co.kr/reinforcement-learning/ 파이썬과 케라스로 배우는 강화학습: 내 손으로 직접 구현하는 게임 인공지능 “강화학습을 쉽게 이해하고 코드로 구현하기” 강화학습의 기초부터 최근 알고리즘까지 친절하게 설명한다! ‘알파고’로부터 받은 신선한 충격으로 많은 사람들이 강화학습에 관심을 가지 wikibook.co.kr 해당 포스팅은 위의 책을 보고 정리한 내용이 주를 이룹니다. 또한, 이 포스팅에서 Neural Network(Deep Learning)에 대해서는 따로 설명하지 않겠습니다. 이번에 소개할 DQN(Deep Q-Network)은 딥마인드(구글)이 "Playing Atari with Deep Reinforcement Learning"라는 제목으로 201..
강화 학습 - 정책 기반(Policy-based) 강화 학습, REINFORCE 알고리즘 - REINFORCE 알고리즘https://wikibook.co.kr/reinforcement-learning/ 파이썬과 케라스로 배우는 강화학습: 내 손으로 직접 구현하는 게임 인공지능 “강화학습을 쉽게 이해하고 코드로 구현하기” 강화학습의 기초부터 최근 알고리즘까지 친절하게 설명한다! ‘알파고’로부터 받은 신선한 충격으로 많은 사람들이 강화학습에 관심을 가지 wikibook.co.kr 해당 포스팅은 위의 책을 보고 정리한 내용이 주를 이룹니다. 또한, 이 포스팅에서 Neural Network(Deep Learning)에 대해서는 따로 설명하지 않겠습니다. 가치 기반 방식과 정책 기반 방식의 차이 들아가기 전에 지금까지 로드맵을 그려보았습니다. 책의 내용에서 어느 정도 흐름이 있다고 생각했는데, 이번 ..
강화 학습 - 딥 살사(Deep SARSA) 알고리즘 https://wikibook.co.kr/reinforcement-learning/ 파이썬과 케라스로 배우는 강화학습: 내 손으로 직접 구현하는 게임 인공지능 “강화학습을 쉽게 이해하고 코드로 구현하기” 강화학습의 기초부터 최근 알고리즘까지 친절하게 설명한다! ‘알파고’로부터 받은 신선한 충격으로 많은 사람들이 강화학습에 관심을 가지 wikibook.co.kr 해당 포스팅은 위의 책을 보고 정리한 내용이 주를 이룹니다. 이 포스팅에서 Neural Network(Deep Learning)에 대해서는 따로 설명하지 않겠습니다. 강화 학습과 더불어 또 하나의 큰 분야인데 강화 학습 주제에 곁들여 설명하기는 쉽지 않습니다. Nerual Network 부분을 모르신다면 다른 포스팅을 보시거나 관련 강의를 수강하시..
강화 학습 기본 - 시간차 학습(Temporal-Difference Learning) part 2. 큐 학습(Q-Leaning) 이 포스팅은 Part1과 이어지는 포스팅입니다. 2022.01.09 - [강화 학습] - 강화 학습 기본 - 시간차 학습(Temporal-Difference Learning) part 1. 살사(SARSA) 또한, 해당 포스팅은 아래의 책을 보고 정리한 내용입니다. 파이썬과 케라스로 배우는 강화학습: 내 손으로 직접 구현하는 게임 인공지능 “강화학습을 쉽게 이해하고 코드로 구현하기” 강화학습의 기초부터 최근 알고리즘까지 친절하게 설명한다! ‘알파고’로부터 받은 신선한 충격으로 많은 사람들이 강화학습에 관심을 가지 wikibook.co.kr 지금까지의 흐름을 간략하게 정리하겠습니다. MDP를 통해 연속 결정 문제를 풀어야 함. ->먼저 다이나믹 프로그래밍이 제안됨. 다이나믹 프로그래밍의 한계는 막대한 계산..
강화 학습 기본 - 시간차 학습(Temporal-Difference Learning) part 1. 살사(SARSA) https://wikibook.co.kr/reinforcement-learning/ 파이썬과 케라스로 배우는 강화학습: 내 손으로 직접 구현하는 게임 인공지능 “강화학습을 쉽게 이해하고 코드로 구현하기” 강화학습의 기초부터 최근 알고리즘까지 친절하게 설명한다! ‘알파고’로부터 받은 신선한 충격으로 많은 사람들이 강화학습에 관심을 가지 wikibook.co.kr 해당 포스팅은 위의 책을 보고 정리한 내용입니다. 이전 포스팅(몬테카를로 근사:https://wnthqmffhrm.tistory.com/7) 서론에서, 충분히 많은 에피소드를 통해 다이나믹 프로그래밍과 달리 환경에 대한 정보 없이도 마르코프 결정 과정을 풀어 나갈 수 있음을 확인했습니다. 하지만 몬테카를로 방식에는 단점이 있습니다. 바로 하나의 에..