- 53AI-AI知识库|企业AI知识库|大模型知识库|前线部署工程师|FDE|AIHub

我要投稿

发布日期：2024-05-12 06:12:13 浏览次数： 2571

作者：数据分析及应用

微信搜一搜，关注“数据分析及应用”

神经网络是什么？

神经网络是一种机器学习程序或模型，它通过使用模仿生物神经元协同工作的方式来识别现象、权衡选项并得出结论的过程，以类似于人脑的方式做出决策。

每个神经网络都由节点层或人工神经元组成，即输入层、一个或多个隐藏层和输出层。每个节点都连接到其他节点，并具有自己的关联权重和阈值。如果任何单个节点的输出高于指定的阈值，则该节点将被激活，并将数据发送到网络的下一层。否则，不会将任何数据传递到网络的下一层。

神经网络依靠训练数据来学习和提高其准确性。一旦它们经过微调以提高准确性，它们就会成为计算机科学和人工智能的强大工具，使我们能够高速对数据进行分类和聚类。与人类专家的手动识别相比，语音识别或图像识别中的任务可能需要几分钟而不是几小时。神经网络最著名的例子之一是谷歌的搜索算法。

神经网络有时称为人工神经网络（ANN）或模拟神经网络（SNN）。它们是机器学习的一个子集，也是深度学习模型的核心。

神经网络与深度学习的区别

深度学习和神经网络在对话中往往可以互换使用，这可能会令人困惑。因此，值得注意的是，深度学习中的“深度”仅指神经网络中层的深度。由三层以上组成的神经网络（包括输入和输出）可以被视为深度学习算法。只有两层或三层的神经网络只是一个基本的神经网络。

要了解有关神经网络与其他形式的人工智能（如机器学习）之间的差异的更多信息，请阅读博客文章：一文读懂！人工智能、机器学习、深度学习的区别与联系！

神经网络工作原理

将每个节点视为其自己的线性回归模型，该模型由输入数据、权重、偏差（或阈值）和输出组成。公式如下所示：

∑wixi + bias = w1x1 + w2x2 + w3x3 + bias

输出 = f（x） = 1 如果 ∑w1x1 + b>= 0;0 如果 ∑w1x1 + b < 0

确定输入图层后，将分配权重。这些权重有助于确定任何给定变量的重要性，与其他输入相比，较大的变量对输出的贡献更大。然后将所有输入乘以各自的权重，然后求和。之后，输出通过激活函数传递，该函数确定输出。如果该输出超过给定的阈值，它将“触发”（或激活）节点，将数据传递到网络中的下一层。这导致一个节点的输出成为下一个节点的输入。这种将数据从一层传递到下一层的过程将该神经网络定义为前馈网络。

让我们使用二进制值分解单个节点的外观。我们可以将这个概念应用到一个更具体的例子中，比如你是否应该去冲浪（是：1，否：0）。去或不去的决定是我们预测的结果，或者说是 y-hat。让我们假设有三个因素影响您的决策：

海浪好吗？（是：1，否：0）
阵容是空的吗？（是：1，否：0）
最近有鲨鱼袭击事件吗？（是：0，否：1）

然后，让我们假设以下内容，为我们提供以下输入：

X1 = 1，因为波浪正在抽水
X2 = 0，因为人群已经出去了
X3 = 1，因为最近没有发生过鲨鱼袭击事件

现在，我们需要分配一些权重来确定重要性。权重越大，表示特定变量对决策或结果更重要。

W1 = 5，因为大浪不会经常出现
W2 = 2，因为你已经习惯了人群
W3 = 4，因为你害怕鲨鱼

最后，我们还假设阈值为 3，这将转化为 –3 的偏差值。通过所有不同的输入，我们可以开始将值插入公式以获得所需的输出。

Y-hat = （1*5） + （0*2） + （1*4） – 3 = 6

如果我们使用本节开头的激活函数，我们可以确定该节点的输出为 1，因为 6 大于 0。在这种情况下，你会去冲浪;但是，如果我们调整权重或阈值，我们可以从模型中获得不同的结果。当我们观察一个决策时，如上面的例子，我们可以看到神经网络如何根据先前决策或层的输出做出越来越复杂的决策。

在上面的例子中，我们使用感知器来说明这里起作用的一些数学，但神经网络利用了 S 形神经元，其区别在于值在 0 和 1 之间。由于神经网络的行为类似于决策树，因此将数据从一个节点级联到另一个节点，x 值介于 0 和 1 之间将减少单个变量的任何给定变化对任何给定节点输出的影响，进而减少神经网络输出的影响。

当我们开始考虑神经网络的更多实际用例时，例如图像识别或分类，我们将利用监督学习或标记数据集来训练算法。在训练模型时，我们希望使用成本（或损失）函数来评估其准确性。这通常也称为均方误差（MSE）。在下面的等式中，

i 表示样本的索引，y-hat 是预测结果，y 是实际值，m 是样本数。

最终，目标是最小化我们的成本函数，以确保任何给定观测值的拟合正确性。当模型调整其权重和偏差时，它使用成本函数和强化学习来达到收敛点或局部最小值。算法调整其权重的过程是通过梯度下降，允许模型确定减少误差（或最小化成本函数）的方向。对于每个训练示例，模型的参数都会进行调整，以逐渐收敛到最小值。

请参阅这篇 IBM Developer 文章，更深入地了解神经网络中涉及的定量概念。

大多数深度神经网络都是前馈的，这意味着它们只在一个方向上流动，从输入到输出。但是，您也可以通过反向传播来训练模型;也就是说，从输出到输入的相反方向移动。反向传播允许我们计算和归因与每个神经元相关的误差，使我们能够适当地调整和拟合模型的参数。

神经网络的历史

神经网络的历史比大多数人想象的要长。虽然“会思考的机器”的概念可以追溯到古希腊人，但我们将重点关注导致神经网络思维演变的关键事件，这些年来神经网络的流行程度已经起伏不定：

1943年：Warren S. McCulloch和Walter Pitts发表了“神经活动内在思想的逻辑演算（链接驻留在 ibm.com 之外）”这项研究试图了解人脑如何通过连接的脑细胞或神经元产生复杂的模式。这项工作的主要思想之一是将具有二进制阈值的神经元与布尔逻辑（即 0/1 或真/假陈述）进行比较。

1958年：弗兰克·罗森布拉特（Frank Rosenblatt）因感知器的发展而受到赞誉，这在他的研究“感知器：大脑中信息存储和组织的概率模型”中有所记录（链接位于 ibm.com 外部）。他将 McCulloch 和 Pitt 的工作向前推进了一步，在方程式中引入了权重。利用 IBM 704，Rosenblatt 能够让计算机学习如何区分左侧标记的卡片和右侧标记的卡片。

1974 年：虽然许多研究人员为反向传播的想法做出了贡献，但 Paul Werbos 是美国第一个在他的博士论文中注意到它在神经网络中的应用的人（链接位于 ibm.com 之外）。

1989 年：Yann LeCun 发表了一篇论文（链接位于 ibm.com 外部），说明了如何在反向传播中使用约束并将其集成到神经网络架构中来训练算法。这项研究成功地利用神经网络来识别美国邮政服务提供的手写邮政编码数字。

再后面，神经网络就慢慢走向大众的舞台了！

神经网络的类型

神经网络可以分为不同的类型，用于不同的目的。虽然这不是一个完整的类型列表，但下面将代表最常见的神经网络类型，您将在其常见用例中遇到这些类型：

感知器是最古老的神经网络，由弗兰克·罗森布拉特（Frank Rosenblatt）于1958年创建。

前馈神经网络或多层感知器（MLP）是我们在本文中主要关注的内容。它们由输入层、隐藏层和输出层组成。虽然这些神经网络通常也被称为 MLP，但需要注意的是，它们实际上由 sigmoid 神经元组成，而不是感知器，因为大多数现实世界的问题是非线性的。数据通常被输入到这些模型中以训练它们，它们是计算机视觉、自然语言处理和其他神经网络的基础。

卷积神经网络（CNN）类似于前馈网络，但它们通常用于图像识别、模式识别和/或计算机视觉。这些网络利用线性代数的原理，特别是矩阵乘法，来识别图像中的模式。

递归神经网络（RNN）由其反馈回路识别。这些学习算法主要用于使用时间序列数据对未来结果进行预测，例如股票市场预测或销售预测。