Maxton‘s Blog
博客
文档
链接
关于
时间轴
English
搜索
深色模式
菜单
返回
标签:
#mdp
2026年2月15日
RL学习笔记:基本概念
整理了强化学习中的State、Action、Reward等核心定义,以及马尔可夫决策过程(MDP)的组成要素。
5 min
中文
reinforcement learning
mdp
学习笔记
数学基础