
1.1 大模型的发展历程
大模型是人工智能领域几十年技术积累和研究沉淀的结果。大模型的概念已经不再是单纯的模型本身,而是硬件、算法、模型、数据、算力和应用等技术的综合体现。
深度学习是人工智能领域最重要的分支,经过几十年的发展,其在模型的参数规模和信息推理能力方面取得了重大突破,从而促进了大模型的创新和发展。
深度学习技术的发展经历了4个阶段,如图1.1所示。

图1.1 深度学习技术的发展阶段
1.第一阶段(1943—1969年)
1943年,Warren McCulloch和Walter Pitts发表论文“A logical calculus of the ideas immanent in nervous activity”,提出了人工神经元模型MCP(McCulloch-Pitts)。此模型模拟了神经元之间信息的传递和处理方式,为神经网络和人工智能研究奠定了基础。
1958年,Frank Rosenblatt提出了感知机模型和感知机学习算法(Perceptron Learning Algorithm,PLA)。PLA通过不断调整神经元之间的连接权重,使得神经网络能够自动学习和适应输入数据的模式,从而实现了神经网络学习。
1969年,Marvin Minsky和Seymour Papert指出,PLA是一种线性模型,无法解决4个输入参数的XOR(异或)问题。这一发现象征着深度学习领域首次遭遇挫折,随后该领域经历了长达近20年的相对停滞期。
2.第二阶段(1986—1991年)
1986年,Geoffrey Hinton等人提出了多层感知机(Multilayer Perceptron,MLP)模型,并在MLP的基础上实现了反向传播算法(Back Propagation Algorithm,BP),使得神经网络训练可以到达更深的层次,有效解决非线性分类和复杂训练的问题。此外,MLP可逼近任意连续函数,以便深度学习处理复杂的任务。
1989年,Yann LeCun等人利用BP算法成功训练了卷积神经网络(Convolutional Neural Network,CNN),并将其应用于手写邮政编码的识别。CNN通过卷积操作和权值共享机制,提高了处理图像和视觉数据的效率。
1990年,Jeffrey Elman在论文“Finding Structure in Time”中提出了Elman网络—— 一种可用于处理序列数据和时序任务的循环神经网络(Recurrent Neural Network,RNN)。RNN通过在隐藏层引入上一时间步的状态信息,以便捕捉序列中的时间依赖关系。
1991年,Sepp Hochreiter指出,多层神经网络在训练过程中存在梯度消失问题。这一问题会导致神经网络的训练速度非常慢或训练失败。虽然通用逼近定理证明了仅需一层以上的隐藏层,神经网络便能逼近任意连续函数。于是,深度学习的研究者始终面临使用多层神经网络的困境。在这一背景下,当时的计算资源相对匮乏,无法为大规模神经网络训练提供足够的算力支持。加之支持向量机(Support Vector Machine,SVM)等统计学模型在特定任务上展现出了卓越的性能,进而使得机器学习再度陷入低谷,研究热点纷纷转向支持向量机等模型。
3.第三阶段(2006—2016年)
2006年,Geoffrey Hinton等人在论文“A Fast Learning Algorithm for Deep Belief Nets”中提出了深度置信网络(Deep Belief Network,DBN)模型。该模型通过逐层贪婪预训练的策略,解决了多层神经网络训练中的梯度消失问题。
2006年,NVIDIA推出了CUDA框架。该框架将图形处理单元(Graphics Processing Unit,GPU)的并行处理能力转化为通用的并行计算能力,使得GPU在每秒浮点操作数(Floating-point Operations Per Second,FLOPS)上比中央处理器(Central Processing Unit,CPU)高了10倍不止,从而大幅提升了算法训练的效率。
2009年,李飞飞团队发布了ImageNet数据集,该数据集包含数百万个带有标签的图像,可被用于图像分类和目标识别任务。ImageNet数据集成为许多深度学习模型和算法的基准数据集,对计算机视觉领域的发展有着重要的推动作用。
2012年,Alex Krizhevsky等人在ImageNet图像分类竞赛(ILSVRC)中,凭借AlexNet模型取得历史性的突破。AlexNet首次引入了ReLU激活函数,进一步解决了深度神经网络训练中的梯度消失问题,标志着计算机视觉进入了应用和普及阶段。
2014年,Ian Goodfellow等人提出了生成对抗网络(Generative Adversarial Network,GAN)。GAN通过生成器和判别器的对抗训练,实现了图像生成和转换。
2014年,Dzmitry Bahdanau等人在机器翻译领域引入注意力机制(Attention Mechanism),提升了模型对长序列和大文本的处理能力,这是机器翻译领域的拐点。
2015年,Google推出了TensorFlow开源深度学习框架。这些框架大大降低了神经网络模型开发和训练的门槛,促进了深度学习的研究和应用。
2016年,DeepMind的AlphaGo战胜世界围棋冠军李世石,展示了深度学习和强化学习在处理复杂任务和决策制定方面的巨大潜力。AlphaGo通过大规模数据的学习和自我对弈的训练,逐步提高自身水平,开启了人工智能发展的新篇章。
4.第四阶段(2017年至今)
2017年,Google在论文“Attention is All You Need”中提出了Transformer模型,该模型避免了RNN模型中常见的梯度消失或爆炸问题,从而在机器翻译任务上的表现全面超越RNN模型。这一突破性的创新迅速扩散到整个深度学习领域,后续的BERT和GPT算法架构均是基于Transformer架构提出的。
2021年,DeepMind在国际蛋白质结构预测竞赛(CASP)中使用AlphaFold 2成功突破了蛋白质结构预测领域的技术瓶颈,为生物学研究和药物开发提供了新方法,展示了深度学习在解决复杂科学问题上的巨大潜力。
2022年,Stability AI推出了开源模型Stable Diffusion。Stable Diffusion通过逐步向样本中引入噪声,使其逐渐过渡到一个简单的分布状态,随后通过逆向的扩散过程来生成高质量的图像。Stable Diffusion对比之前的GAN,具备更容易训练、对GPU资源需求更低和生成的图像质量更高的特点,成为图像生成、视频生成领域的核心模型。
2022年,David Holz发布了Midjourney。Midjourney能够根据用户输入的文本快速生成高质量且具备差异化的图片,可以大大提高设计师的工作效率。Midjourney展现出巨大的商业化和产品化潜力,使人工智能生成内容(Artificial Intelligence Generated Content,AIGC)成为舆论的焦点。
2022年,OpenAI发布了基于1750亿参数规模的大语言模型应用ChatGPT,它所展示的能力充分证明了大模型在社会各领域的应用潜力。仅仅两个月,ChatGPT的活跃用户数就突破1亿,彻底“引爆”了人工智能,使大模型相关产业飞速发展。
2024年,OpenAI发布了基于文本生成视频的应用Sora。Sora不仅能够生成长达60秒的视频内容,还具备对现实世界的惊人建模与模拟能力,这意味着AI技术正在朝着能够全面理解和模拟物理世界规律的方向发展,通用人工智能(Artificial General Intelligence,AGI)的实现成为可能。