Maxton‘s Blog

博客文档链接关于时间轴 English

返回

标签: #数学基础

2026年2月16日

RL学习笔记：贝尔曼公式

详细梳理了State Value与Action Value的定义，推导了贝尔曼期望方程（Bellman Expectation Equation）的通用形式及其矩阵表达。

7 min 中文
2026年2月15日

RL学习笔记：基本概念

整理了强化学习中的State、Action、Reward等核心定义，以及马尔可夫决策过程（MDP）的组成要素。

5 min 中文