强化学习专栏
第零周:数据科学,从计算到推理
- 第一周:强化学习基础概念
- 第二周:强化学习理论宗派
- 第三周:强化学习与监督学习
- 第四周:强化学习的实验环境
- 第五周:强化学习中的数学基础
- 第六周:强化学习中优化策略
- 第七周:强化学习中的实验环境构建
- 第八周:强化学习基本算法
- 第九周:最优价值算法 Q-learning 和 DQN 算法
- 第十周:基于策略梯度的算法
- 第十一周:稀疏回报求解和 Model-based 算法
- 第十二周:反向强化学习算法
- 第十三周:强化学习在 AlphaZero 中的应用
- 第十四周:强化学习与推荐检索系统
- 第十五周:强化学习与无人驾驶
- 第十六周:强化学习与对战游戏
- 第十七周:强化学习与路径规划和飞行控制
- 第十八周:强化学习与动态规划
- 第十九周:强化学习与量化交易
- 第二十周:强化学习与自然语言处理
- 第二十一周:强化学习在 AutoML 中的应用
- 第二十二周:强化学习与机器人控制
- 参考书籍 Deep reinforcement learning hands-on
- 第二十三周:What is Reinforcement Learning
- 第二十四周:OpenAI gym
- 第二十五周:OpenAI Gym API
- 第二十六周:DeepLearning with PyTorch
- 第二十七周:The Cross-Entropy Methods
- 第二十八周:Tabular Learning and the Bellman Equation
- 第二十九周:Deep Q-networks
- 第三十周: DQN extentions
- 第三十一周:stocks trading using RL
- 第三十二周:Policy Gradients: an alternative
- 第三十三周:The Actor-Critic Methods
- 第三十四周:Asynchronous Advantage Actor-Critic
- 第三十五周:Chatbot Training with RL
- 第三十六周:Web Navigation
- 第三十七周:Continuous Action Space
- 第三十八周:Trust regions--TRPO,PPO,and ACKTR
- 第三十九周:Black-box Optimizmization in RL
- 第四十周:Beyond Model-Free -- Imagination
- 第四十一周:An on Atari Breakout
- 第四十二周:AlphaGO Zero
- 第四十三周:开山鼻祖 DQN 系列
- 第四十四周:基于策略梯度的深度强化学习
- 第四十五周:分层 Deep Reinforcement Learning
- 第四十六周:Deep Reinforcement Learning 多任务和迁移学习
- 第四十七周:基于外部记忆模块的 Deep Reinforcement Learning
- 第四十八周:Deep Reinforcement Learning 中探索和利用问题
- 第四十九周:多 Agent Deep Reinforcement Learning 问题
- 第五十周:逆向深度强化学习专题
- 第五十一周:探索和监督学习
- 第五十二周:异步深度强化学习
- 第五十三周:强化学习与模仿学习
- 第五十四周:强化学习与 GCN 交叉研究综述
- 第五十五周:强化学习与 CNN 交叉研究综述
- 第五十六周:强化学习与 RNN 交叉研究综述
- 第五十七周:强化学习与 AutoML 交叉研究综述
- 第五十八周:强化学习与GAN交叉研究综述
- 第五十九周:强化学习与迁移学习热点综述
- 第六十周:强化学习与模仿学习热点综述
- 第六十一周:反向强化学习热点综述
- 第六十二周:强化学习未来发展方向综述
- 第一周:DEEP REINFORCEMENT LEARNING: AN OVERVIEW