本文最后更新于 2024-11-11 15:51

AI极简科普（中）：AI概念与原理

From：有光AI
Date：2024年8月10日

在上一章节中，我们回顾了 AI 的发展历程，了解了它如何从科幻走进现实。在本章中，我们将深入探讨 AI 的概念与原理，揭示其工作的核心机制。AI 不仅仅是一个技术名词，而是由复杂的算法、机器学习和深度学习等技术构成的庞大体系。通过理解这些基本原理，我们可以更好地把握 AI 的潜力与局限，为未来的创新应用打下坚实的基础。

AI的概念

现在，让我们来了解一下 AI 的定义。

人工智能的英文是 Artificial Intelligence，简称 AI。维基百科给出的定义是：AI 是指用计算机程序来呈现人类智能的技术。当我们说 AI，通常是说一个软件、或一个人造机器，但是这个人造物能表现出媲美人类大脑的智能。

AI 也是一门学科，研究如何让计算机系统执行任务，这里的“任务”通常需要人类智能才能完成。这些任务包括但不限于感知、识别、理解、推理、学习和决策。想象一下，如果计算机能够像人类一样思考和解决问题，那么它就能够帮助我们完成许多复杂的任务。

过去，AI常指“机器学习”、“深度学习”。如今，谈到 AI，更多指由 ChatGPT 带火的“生成式 AI”，或是指人们对 AI 的终极畅想：通用人工智能（Artificial General Intelligence, AGI），那是一种无所不能、甚至超过人类的超强智能。我们对 AI 的期待已经越来越高。

为了理解 AI 是什么，我们可以把AI比作一只“超级智能的深海章鱼”。这只章鱼有无数只触手，每只触手都代表着一种不同的任务，比如“图像识别”、“语音识别”或者“自然语言处理”等等。当章鱼接收到外界的刺激时，它会通过这些触手来进行分析和处理，最终给出一个最优的解决方案。

或者简单一些，我们可以把 AI 理解成我们的智能助理，它能够替我们做很多不想做、不会做、或来不及做的事。比如，常见的写作、PPT 美化、生成图片、生成视频、智能体等等，都能交给它。

那 AI 是怎么做到的呢？这就不得不聊一下它背后的技术原理了。

AI技术原理

大模型

上面提到，AI 的发展是有很多阶段的，历史上曾诞生过很多相关的技术，而如今的技术主流是大模型。

如果要详细地去介绍大模型技术，那对于第一次试图了解 AI 的朋友来说，这篇文章一定会是晦涩难懂的。而如果由浅入深，一步一步带你了解所有的技术知识并尝试实践，那这篇文章就会写得非常长，我们要用一系列图文甚至课程去讲解，那推荐你不如去听 AI 领域顶级大神们的课，比如李宏毅、吴恩达。

我们的目标是让更多的非专业人士、第一次试图了解和学习 AI 的绝大多数老百姓去走进这个奇妙的世界。所以，关于大模型，我们这篇不讲眼花缭乱的术语解释和算法，我们就讲讲原理：

在 AI 世界里有一个神奇的“大脑”，它叫做大模型，Large Model，我们也可以说是基础模型，即 Foundation Model。

这个大模型的神奇之处，就在于它能像人类一样思考、学习和创造。打个比方，一个叫做“人工智能”的神秘王国里有一个叫做“大模型”的魔法师，这个魔法师有一个非常特殊的能力——它可以学会世界上所有的魔法咒语，并且用这些咒语来创造奇迹。

如果你有一个朋友，他读过世界上所有的书，听过所有的故事，看过所有的电影，那么他可能会变得非常聪明，对吧？而大模型就像这样一个朋友，但它比这还要厉害得多。它不仅能阅读和理解，还能自己创作故事，甚至学会如何解决问题。

我们先想象一下，当你还是一个孩子时，是如何学习说话和认识世界的？是不是通过听大人讲话、看周围的事物，慢慢模仿、积累经验，从而逐渐学会说话和辨别事物呢？AI 大模型也是这样，它通过大量的数据学习，从而涌现出“智能”。为什么用“涌现”去描述它，是因为我们设定了大模型的核心框架和规则、给了它数据，至于它是怎样产生智慧的，其中具体的每一步，我们无从得知，大模型就像是一个黑盒，就像我们不知道我们的大脑在产生意识、进行思考时，究竟发生了些什么。而为什么给智能打上引号，是因为当下大模型所展现出的智能，是否是真正和人类一样的智能，在行业内也有各种争议。

好，我们继续。这个大模型的核心，就像一个庞大的网络，这个网络由无数个神经元组成。每个神经元都负责接收信息，然后进行处理和传递。这些神经元连接在一起，形成了一个强大的“大脑”。它会通过几个关键步骤去实现“智能”：

首先，大模型要学会“倾听”。它通过阅读大量的文本、书籍、网页等，学习人类的语言规律。这就像我们小时候听大人讲话一样，慢慢积累词汇和语法规则。

其次，大模型要“思考”。它通过一种叫做“深度学习”的技术，让神经元之间相互传递信息，形成一个复杂的神经网络。这个网络能够自动找出数据中的规律，从而进行推理和判断。

接着，大模型要“行动”。它根据学到的知识和规律，生成新的内容。比如，当你输入一个主题，它就能为你写一篇生动的文章，就像讲故事一样。

最后，大模型还要不断“优化”。它通过一种叫做“反馈”的机制，根据生成内容的效果来调整神经网络中的参数，使自己的表现越来越好。

打个比方就是，大模型的魔法来自于一种叫做“深度学习”的神秘力量。这就像是一个魔法训练课程，通过这个课程，大模型学会了如何识别图片中的猫和狗，如何理解我们说的话，甚至如何写出一篇漂亮的文章或者创作出一首动听的歌曲。

这个魔法训练课程的第一步是给大模型看很多例子。比如，如果你想让大模型学会识别猫，你就需要给它看成千上万张猫的图片。大模型会仔细观察这些图片，找出猫的特征，比如毛茸茸的身体、尖尖的耳朵和胡须。这个过程叫做“训练”，大模型会逐渐学会倾听和思考。

训练结束后，大模型就变得非常擅长识别猫了。即使你给它看一张它从未见过的猫的图片，它也能够准确地告诉你：“嘿，这是一只猫！”这就是大模型的魔法——它能够从它学到的东西中“泛化”，也就是应用到新的情况中，举一反三。

但是，大模型的魔法并不仅限于识别图片。它还可以通过一种叫做“自然语言处理”的方式来理解和创造语言。这就像是一个翻译器，可以让大模型理解我们说的话，甚至用我们的语言来回答问题或者写故事。

大模型的魔法的确非常强大，但它也有一个秘密——它需要大量的能量，也就是我们说的“算力”，在大模型时代，计算算力以一种叫“GPU”的芯片和相关软硬件基础设施为主。

看到这，你应该能大概知道，如今的 AI 能帮你做很多事，是依靠大模型强大的学习能力、泛化能力。那大模型究竟又是怎么做到这一切的呢？这就不得不稍微展开说一下“神经网络”了。

神经网络

神经网络是大模型产生智慧的核心方法。

想象一下，如果你要学习一门新语言，你可能会从字母开始，然后是单词，接着是短语，最后是复杂的句子。在这个过程中，你的大脑就像是一群勤劳的小精灵，它们一起工作，帮你理解和记忆这些语言的规则。神经网络的工作方式也有点像这样，只不过这些小精灵是虚拟的，它们被称为“神经元”。

当你给神经网络一个任务，比如识别一只猫，它会将猫的图片转换成很多小碎片，就像是把图片拆成一堆拼图块。然后，这些拼图块会被传递给神经网络的第一层神经元。这些神经元会检查这些碎片，看看是否有它们认识的模式，比如边缘或颜色。

如果找到了它们认为重要的模式，它们就会将这些信息传递给下一层神经元，并告诉它们这个消息有多重要。这个过程会一直重复，每一层都会将信息进一步提炼，就像是在玩一个“传话游戏”，每一层都试图理解图片中更复杂的特征。

最终，经过多层的传递和提炼，神经网络会得出一个结论：“这是一只猫！”或者“这不是一只猫！”这就是神经网络如何通过许多简单的单元合作来实现“智能”的。

我们来具体了解一下神经网络的内部结构。（注意⚠️这一部分会涉及很多行业用语，不感兴趣的小伙伴建议先看个大概，理解神经网络整体的思想即可）

刚刚提到，神经网络是由“神经元”这样一些单元组成的，每个单元就像一个开关，可以是“开”或“关”。这些单元通过一种特殊的连接方式相互“交谈”，就像小精灵们通过信使传递信息一样。这些连接叫做“突触”，它们决定了信号如何在网络中传递。而每个连接又有“权重”和“偏置”，权重类似于突触的强度，决定了信号在从一个神经元传递到另一个神经元时的重要性，就像是信使的紧急程度，告诉下一个单元这个消息有多重要。偏置是加在神经元输入上的一个常数，它决定了神经元激活的阈值。“偏置”这个概念是不是不太好理解？我们用一个故事来理解一下：

想象一下，你是一位厨师，你的任务是根据客人的订单来准备美味的菜肴。在这个过程中，你的厨房就像一个神经元，而你接收的订单就是输入信号。每个订单都告诉你需要多少配料：比如西红柿、奶酪和面团。

但是，即使你没有收到任何订单，你也知道，为了准备一道美味的披萨，你至少需要一些基础配料。这就像是神经网络中的偏置——即使没有输入信号，它也给你的神经元一个基本的激活水平。

现在，假设你的厨房里有一个“魔法秤”，它不仅能够称重你添加的配料，还能够根据今天的特殊情况自动调整重量。如果今天是“奶酪节”，这个魔法秤就会自动增加奶酪的重量，即使订单上没有要求更多的奶酪。这个魔法秤的调整，就类似于神经网络中的权重调整。

当你把所有配料放进披萨烤箱时，你需要决定烤多久。这个决定基于配料的多少和你的魔法秤的调整。但是，无论你的配料有多少，烤箱都有一个最低温度设置，以确保披萨能够烤熟。这个最低温度，就相当于神经网络中的偏置值，它确保了即使在最少量的输入下，你的神经元也能产生一定的输出。

在神经网络中，偏置就像是一个调整旋钮，它允许每个神经元在没有输入或只有很少输入的情况下也能激活。这很重要，因为它让神经网络能够更好地适应数据中的各种情况，就像你作为厨师需要根据不同的节日和客人的口味来调整你的菜肴一样。通过调整偏置量，神经网络可以更灵活地学习和模拟复杂的数据模式。

好我们继续，当每个神经元在接收到信号后，会通过一个叫做“激活函数”的规则来决定是否以及如何传递信号。打个比方：

想象在一个古老的王国里，有一个被称为“沉默之塔”的神秘建筑。塔中居住着一群智者，他们负责接收来自王国各地的信息。但是，这些智者有一个特殊的习惯：只有当他们听到的消息足够重要时，他们才会做出回应。

这些智者的回应方式也很特别，他们只会说两种话：“是”或“否”。如果消息不够重要，他们就会保持沉默；如果消息很重要，他们就会说“是”，并采取行动。

在这个王国里，激活函数就像是智者的判断标准。它决定了消息是否足够重要，值得智者们做出回应。在神经网络中，激活函数的作用是引入“非线性”的规则，这样网络就可以学习和模拟复杂的模式和决策边界。

例如，一个常见的激活函数叫做“ReLU”（Rectified Linear Unit，线性修正单元），它的规则非常简单：如果消息（输入值）是正的，那么它就传递这个消息；如果是负的，那么它就保持沉默（输出0）。这就像是智者们只对好消息做出回应，而忽略坏消息。

再比如 Sigmoid 函数，它能够将输入压缩到0和1之间再输出，通常用于二分类问题。它的形状像一个S形曲线，能够输出概率值。Sigmoid 激活函数就是一个非线性的规则。

在最基本的神经网络结构中，信息以一种单向的方式流动，从输入层通过隐藏层，最终到达输出层。这种信息流动方式被称为“前馈”，也就是“前向传播”。

但是，经过一次前向传播后输出的数据，很有可能不准确，比如正确的输出应该是“这是一只猫”，但是我们的神经网络却输出了“这不是一只猫”。为什么呢？这是因为我们的神经网络还没有开始“学习”，或者说是学习得不够，权重和偏置还没有调整到最佳状态。

解决办法就是让神经网络通过“学习”来调整权重和偏置。最常见的学习方式是监督学习，神经网络可以通过比较实际的输出和期望的输出来调整参数，这个过程通常使用“反向传播”算法。神经网络的输出与真实结果（通常称为“标签”）之间的差异通过“损失函数”（比如均方误差或交叉熵损失）来计算，得到“损失值”。损失值可以通过反向传播算法，从后往前在神经网络中传播，这个过程会计算每个权重对损失造成的影响，从而确定如何调整权重和偏置来减少损失。根据反向传播得到的信息，再使用“梯度下降”或其它优化算法更新神经网络中的权重和偏置。不断重复这些步骤，直到神经网络的性能达到满意的水平，这个过程就叫做“迭代”。宏观来看，神经网络的整个学习过程也就是常说的“训练”。

那训练什么时候停止呢？有几种情况。

达到预定的迭代次数：训练会在完成设定的迭代次数（比如1000个 epoch）后停止；
损失值收敛：如果损失值在一定的迭代次数内不再显著减少，说明神经网络已经接近其学习能力的极限，此时可以停止训练。
验证集性能：在训练过程中，神经网络会在一个独立的验证集上评估性能。如果性能不再提升或开始下降（出现“过拟合”，也就是模型训练得太过了，在用来训练的数据上表现很好，但却不能很好地推广到新的数据上），这时候也可以停止训练。
时间或资源限制：在实际情况中，训练可能会因为时间限制或计算资源不足而提前停止。

看到这里，相信你对 AI 技术原理：大模型及大模型里面的神经网络已经有了一些初步的认知。那你可能还听说过深度学习、机器学习，它们和神经网络、大模型之间又是什么关系呢？我们来打个比方、做个小总结：

机器学习是一个智慧的国度，这个国度里的居民（算法）都拥有学习和适应的能力。他们通过观察周围的世界（数据）来提升自己的技能和知识。
神经网络是这个国度里的一群小精灵，其中每个小精灵都拥有特殊的能力，能够处理信息和做出决策。它们通过彼此间的连接（网络结构）和秘密语言（权重和偏置）来传递信息和协同工作。
深度学习是这个国度中一个高度发达的领域，这里的小精灵们不仅数量众多，而且层次分明。每一层的小精灵们都专注于学习世界的某个方面，从简单的形状和颜色（低级特征）到复杂的场景和对象（高级特征）。就像一个有很多层次的大型公司，每个部门（神经网络的层）都专注于不同的任务，但都是为了实现更大的目标（解决复杂问题）。
大模型则可以看作是这个国度中的巨型企业，它们拥有庞大的小精灵团队（大量的神经元）和复杂的组织结构（深层网络）。这些企业能够处理极其复杂和庞大的任务，比如管理整个城市（大规模数据集）或设计宏伟的建筑（复杂的算法）。然而，这些大企业需要大量的资源（数据和计算能力）来维持运作，并且需要精心管理和协调，以确保所有小精灵都能有效地协同工作。