返回
详细梳理了State Value与Action Value的定义,推导了贝尔曼期望方程(Bellman Expectation Equation)的通用形式及其矩阵表达。
reinforcement learning
bellman equation
学习笔记
数学基础
整理了强化学习中的State、Action、Reward等核心定义,以及马尔可夫决策过程(MDP)的组成要素。
mdp