基本概念#
一、核心定义#
-
State (状态)
Agent 相对于环境的一个状态(Status)。在网格世界中,通常被视为 Agent 所在的坐标位置。例如 S1 可表示为向量坐标:
S1=(xy)
-
State space (状态空间)
所有可能状态的集合,记为 S。例如:S={si}i=19。本质上就是一个集合(Set)。
-
Action (动作)
对于每一个状态 (State),Agent 可以采取的行动。例如在网格世界中可能有五个:上、下、左、右、不动。
-
Action space (动作空间)
针对某个特定状态 si,所有可能采取的动作集合,记为 A(si)={ai}i=15。
注意:Action 往往依赖于 State,即 A 是 s 的函数。
-
State transition (状态转移)
采取某个行动后,Agent 从当前状态转移到另一个状态的过程,记为 S1⟶a2S2。
这定义了 Agent 与环境交互的机制。在虚拟环境中可任意定义,但在现实世界中必须遵循客观物理规律。
-
State transition probability (状态转移概率)
用概率描述状态转移的不确定性。例如在 S1 选择 a2,转移到 S2 的概率:
p(s′∣s,a)⇒{p(s2∣s1,a2)=1p(si∣s1,a2)=0,∀i=2
上例为确定性环境,当然也可能是随机环境。
-
Policy (策略)
指导 Agent 在特定 State 下应该采取什么 Action 的规则。可以视为一个函数或映射 π。
例如一个确定性策略(Deterministic Policy):
π(a∣s)⇒{π(a2∣s1)=1π(ai∣s1)=0,∀i=2
随机策略(Stochastic Policy)同理,π 即为选择该动作的概率。
-
Reward (奖励)
Agent 采取动作后,环境反馈的一个标量实数。
- 正数通常代表奖励(鼓励行为);
- 负数通常代表惩罚(抑制行为)。
Reward 是人机交互(Human-Machine Interface)的关键手段,用于引导 Agent 表现出我们预期的行为。数学表达:
p(r=−1∣s1,a1)=1andp(r=−1∣s1,a1)=0
-
Trajectory (轨迹)
一条完整的 State-Action-Reward 链。即:在某 State 采取某 Action,得到 Reward 并转移到下一 State,如此循环。
S1a3r=0S4a3r=−1S7a2r=0S8a2r=+1S9
-
Return (回报)
一个 Trajectory 中所有 Reward 的总和。不同的 Policy 会导致不同的 Return。
-
Discounted Return (折扣回报)
对于无限运行的 Trajectory,直接求和会导致 Return 无穷大(发散)。引入折扣因子 γ∈[0,1):
Return=0+0+1+1+⋯=∞(发散)
引入 γ 后:
Gt=Rt+1+γRt+2+γ2Rt+3+⋯=k=0∑∞γkRt+k+1
举例:
Discounted Return=γ3(1+γ+γ2+…)=1−γγ3(收敛)
- γ 的作用:决定 Agent 的“视野”。γ 越小越短视(注重眼前利益),γ 越大越远视(注重长期利益)。
-
Episode (回合)
Agent 根据 Policy 与环境交互,直到达到终止状态 (Terminal State) 停止,这段完整的轨迹称为一个 Episode (或 Trial)。
- Episodic Tasks: 有终止状态,任务会结束。
- Continuing Tasks: 没有终止状态,任务无限进行。
二、MDP (马尔可夫决策过程) 要素#
1. Sets (集合)#
- State: 状态集合 S
- Action: 动作集合 A(s),其中 s∈S
- Reward: 奖励集合 R(s,a)
2. Probability Distribution (概率分布/动力学)#
- State transition probability: p(s′∣s,a)
- Reward probability: p(r∣s,a)
3. Policy (策略)#
- Agent 的决策机制:π(a∣s)
4. MDP Property (性质)#
Memoryless (无记忆性 / 马尔可夫性):
下一时刻的状态和奖励,仅取决于当前时刻的状态和动作,与之前的历史无关。
p(st+1,rt+1∣st,at,st−1,…)=p(st+1,rt+1∣st,at)
5. MDP vs Markov Process#
- Markov Process (马尔可夫过程): 只有 State 和 Transition Probability。观察者只能被动接受环境按概率发生的演变,无法干预。
- MDP (马尔可夫决策过程): 增加了 Decision (决策/动作)。
状态的转移不仅取决于当前状态,还取决于 Agent 采取的 Action。Agent 可以通过选择不同的 Action 来改变未来状态分布的概率,从而主动影响结果。