AI red teamer (人工智能红队)系列17 – 人工智能基础 – 神经网络

你是慕鸢呀~ 发布于 1 天前 8 次阅读 1598 字 预计阅读时间: 7 分钟


AI red teamer (人工智能红队)系列17 - 人工智能基础 - 神经网络

为了克服单层感知器(perceptrons)的局限性,我们引入了多层神经网络的概念。这些网络也称为多层感知器 (MLPs),由以下部分组成:

  • An input layer
  • One or more hidden layers
  • An output layer

这里用英文原文表述,更直观一些。

神经元 (Neurons)

神经元是神经网络中的基本计算单元。它接收输入,使用权重和偏置对输入进行处理,并应用激活函数产生输出。与使用阶跃函数进行二元分类的感知器不同,神经元可以使用各种激活函数,如 sigmoidReLUtanh 等。

这种灵活性使神经元能够处理非线性关系并产生连续输出,从而使其适用于各种任务。

输入层 (Input Layer )

输入层是数据的入口。输入层中的每个神经元对应输入数据的一个特征或属性。输入层将数据传递给第一隐藏层。

隐藏层 (Hidden Layers )

隐藏层是输入层和输出层之间的中间层。它们执行计算并从数据中提取特征。隐藏层中的每个神经元功能如下:

  1. 接收上一层所有神经元的输入。
  2. 对输入进行加权求和。
  3. 为总和添加偏置。
  4. 对结果应用激活函数。

然后,隐藏层中每个神经元的输出将作为下一层的输入。

多个隐藏层可以让网络学习数据中复杂的非线性关系。每一层都可以学习不同层次的抽象概念,最初的层可以学习简单的特征,随后的层则可以将这些特征组合成更复杂的表征。

输出层 (Output Layers)

输出层产生网络的最终结果。输出层中神经元的数量取决于具体任务:

  • 二元分类任务将有一个输出神经元。
  • 多类分类任务的每一类都有一个神经元。

多层神经网络的作用

多层感知器(MLPs)主要通过学习非线性决策边界来克服单层感知器的局限性。通过结合具有非线性激活函数的多个隐层,MLPs 可以逼近复杂函数,并捕捉不可线性分离的数据中的复杂模式。

这使它们能够解决单层感知器无法解决的问题,如 XOR 问题。此外,MLPs 的分层结构允许它们在每一层学习越来越复杂的特征,从而在更广泛的任务中获得更强的表现力和更好的性能。

激活函数

激活函数通过引入非线性在神经网络中起着至关重要的作用。它们根据输入决定神经元的输出。如果没有激活函数,网络基本上就是一个线性模型,从而限制了其学习复杂模式的能力。

隐藏层中的每个神经元都会接收上一层输入的加权和,再加上一个偏置项。然后,这个总和会通过一个激活函数,决定神经元是否应该被 "激活 "以及被激活的程度。然后将激活函数的输出作为下一层的输入。

激活函数的类型

  • Sigmoid S-曲线函数: 将输入压缩到 0 和 1 之间的范围。
  • ReLU(整流线性单元): 负输入时返回 0,正输入时返回输入值。
  • Tanh(双曲正切): 将输入压缩到 -1 和 1 之间的范围。
  • softmax : softmax函数通常用于多类分类问题的输出层。它将原始分数向量转换为类别的概率分布。

激活函数的选择取决于具体任务和网络结构。

训练 MLPs

多层感知器(MLP)的训练包括调整网络的权重和偏置,以最小化其预测值和目标值之间的误差。这一过程是通过 反向传播梯度下降的组合来实现的。

反向传播

反向传播是一种计算网络权重和偏置的损失函数梯度的算法。它的工作原理是,从输出层开始,通过网络逐层传播误差信号。

以下是反向传播过程的简化概述:

  1. 前向传递: 输入数据通过网络,然后计算输出。
  2. 计算误差: 损失函数计算预测输出与实际目标值之间的差值。
  3. 后向传播: 误差信号通过网络向后传播。对于每一层,有关权重和偏置的损失函数的梯度是通过微积分链式法则计算得出的。
  4. 更新权重和偏差: 更新权重和偏差以减少误差。这通常使用梯度下降等优化算法来完成。

梯度下降

梯度下降是一种迭代优化算法,用于寻找函数的最小值。在 MLPs 中,损失函数将被最小化。

梯度下降法的工作原理是向损失函数的负梯度移动。步长由学习率决定,这是一个控制网络学习速度的超参数。

以下是梯度下降法的简化解释:

  1. 初始化权重和偏移: 开始时,权重和偏移为随机值。
  2. 计算梯度: 使用反向传播计算损失函数相对于权重和偏置的梯度。
  3. 更新权重和偏移: 从当前权重和偏移中减去梯度的一部分。学习率决定了这个分数。
  4. 重复: 重复步骤 2 和 3,直到损失函数收敛到最小值或达到预定的迭代次数。

反向传播和梯度下降共同工作来训练 MLPs 。反向传播计算梯度,而梯度下降则使用这些梯度来更新网络参数并最小化损失函数。这种迭代过程允许神经网络从数据中学习,并随着时间的推移提高其性能。

我本桀骜少年臣,不信鬼神不信人。
最后更新于 2025-06-15