- RL学习笔记:随机近似与随机梯度下降
梳理随机近似理论与Robbins-Monro算法,推导随机梯度下降(SGD)的演变过程与收敛特性,并对比BGD、MBGD与SGD的采样差异。
9 min 中文 - RL学习笔记:蒙特卡洛方法
深入解析强化学习中的蒙特卡洛方法(Monte Carlo Methods),涵盖MC Basic与Exploring Starts采样机制。探讨了广义策略迭代(GPI)框架,并详细推导epsilon-Greedy策略如何平衡探索与利用,实现无模型场景下的策略优化。
5 min 中文 - RL学习笔记:值迭代与策略迭代
深入解析值迭代(Value Iteration)与策略迭代(Policy Iteration)的核心算法流程,推导策略更新与值更新的数学形式。探讨了截断策略迭代(Truncated Policy Iteration)如何通过调整评估步数,在统一视角下连接这两种经典算法。
4 min 中文 - RL学习笔记:贝尔曼最优公式
推导了贝尔曼最优方程(Bellman Optimality Equation)及其不动点性质,解析了Value Iteration的收敛原理(Contraction Mapping),并讨论了系统模型与奖励函数对最优策略的决定作用。
5 min 中文 - RL学习笔记:贝尔曼公式
详细梳理了State Value与Action Value的定义,推导了贝尔曼期望方程(Bellman Expectation Equation)的通用形式及其矩阵表达。
7 min 中文 - RL学习笔记:基本概念
整理了强化学习中的State、Action、Reward等核心定义,以及马尔可夫决策过程(MDP)的组成要素。
5 min 中文