AI red teamer (人工智能红队)系列12 – 人工智能基础 – 强化学习算法

你是慕鸢呀~ 发布于 2 天前 19 次阅读 1739 字 预计阅读时间: 8 分钟


AI red teamer (人工智能红队)系列12 - 人工智能基础 - 强化学习算法

强化学习RL)在机器学习中引入了一种独特的范式,即智能体通过与环境互动来学习。监督学习依赖于有标签的数据,而无监督学习则探索无标签的数据,与之不同的是,RL 侧重于在奖惩形式的反馈引导下,通过尝试和错误进行学习。这种方法模仿了人类通过经验学习的方式,使 RL 特别适用于涉及动态环境中顺序决策的任务。

就像训练狗一样。你不会给狗明确的指令,让它坐下、待在原地或取物。相反,当它做出想要的动作时,您会用食物和表扬来奖励它;当它不这样做时,您会纠正它。通过尝试、错误和反馈,狗狗学会将特定动作与积极结果联系起来。

强化学习算法如何运行

RL 中,智能体通过行动和观察后果与环境互动。环境通过奖励或惩罚提供反馈,引导智能体学习最优策略。策略是一种选择行动的方法,旨在最大化长期累积奖励。

强化学习算法可大致分为以下几类:

  • 基于模型的 RL: 智能体会学习一个环境模型,用来预测未来状态和计划行动。这种方法类似于在穿越迷宫前拥有一张迷宫地图。智能体可以使用这张地图来规划通往目标的最有效路径,从而减少试错的需要。
  • 无模型 RL: 智能体直接从经验中学习,而不对环境进行明确建模。这就好比在没有地图的情况下在迷宫中导航,智能体完全依靠试错和来自环境的反馈来学习最佳行动。智能体通过探索不同的路径并从获得的奖励或惩罚中学习,逐渐改进其策略。

强化学习的核心概念

理解 强化学习RL)需要掌握其核心概念。这些概念为理解智能体如何学习并与环境交互以实现目标奠定了基础。

智能体 (Agent)

智能体RL 系统中的学习者和决策者。它与环境互动,采取行动并观察后果。智能体的目标是学习一种最优策略,在一段时间内使累积奖励最大化。

智能体想象成在迷宫中导航的机器人、玩游戏的程序或在交通中导航的自动驾驶汽车。在每种情况下,智能体都会做出决策并从经验中学习。

环境

环境是智能体运行的外部系统或环境。它包括智能体外部的一切,包括物理世界、模拟世界甚至游戏棋盘。环境会对智能体的操作做出响应,并通过奖励或惩罚提供反馈。

在迷宫导航示例中,环境就是迷宫本身,包括墙壁、路径和目标位置。在游戏场景中,环境就是游戏及其规则和对手的移动。

状态

状态 表示环境的当前情况或条件。它提供了代理做出明智决策所需的相关信息的快照。状态 可以包括环境的各个方面,例如智能体的位置、其他对象的位置以及任何其他相关变量。

机器人在迷宫中的状态可能包括其当前位置和周围的墙壁。在国际象棋游戏中,状态是棋盘的当前配置。

行动

行动是指智能体影响环境的移动或决策。智能体根据其当前状态和策略选择行动。环境会对 行动做出响应,并过渡到新的状态。

在迷宫示例中,机器人的行动可能是向前移动、左转或右转。在游戏中,机器人的操作可能是移动棋子或进行特定的游戏。

奖励

奖励是来自环境的反馈,表示智能体行动的可取性。它是一个标量值,可以是正、负或零。正奖励会鼓励代理重复行动,而负奖励(惩罚)则会阻止代理重复行动。智能体的目标是在一段时间内使累积奖励最大化。

在迷宫示例中,机器人接近目标可能会获得正奖励,撞墙则会受到惩罚。在游戏中,获胜的奖励可能是正数,失败的奖励可能是负数。

策略

策略是智能体遵循的一种从状态到动作的策略或映射关系。它决定了智能体在给定状态下应该采取哪种动作。智能体的目标是学习一个能够最大化累积奖励的最优策略。

策略可以是确定性的,即在给定状态下总是选择相同的行动;也可以是随机性的,即以一定的概率选择行动。

价值函数

价值函数评估处于特定状态或采取特定动作的长期价值。它预测智能体从该状态或动作开始往后能够获得的期望累积奖励。价值函数是许多强化学习算法中的关键组成部分,因为它引导智能体选择能够带来更高长期奖励的动作。

价值函数主要有两类:

  • 状态值函数: 估算从给定状态开始并遵循特定策略的预期累积奖励。
  • 行动值函数: 估算在给定状态下采取特定行动并遵循特定策略的预期累积奖励。

折扣系数

折扣系数γ)是一个 RL 参数,用于确定未来奖励的现值。它的取值范围在 0 和 1 之间,取值越接近 1,长期奖励的权重越大,取值越接近 0,短期奖励的权重越大。

  • γ=0 表示智能体只考虑即时奖励。
  • γ=1 表示智能体平等地重视所有未来的奖励。

情景任务与连续任务

情景任务涉及智能体在回合中与环境交互,每个回合在终端状态结束(例如,在迷宫中到达目标)。相比之下,连续任务没有明确的结束,会无限期地持续下去(例如,控制机器人手臂)。

我本桀骜少年臣,不信鬼神不信人。
最后更新于 2025-06-15