
1.3 大模型技术的应用现状
随着大模型技术的快速发展,大模型相关应用如雨后春笋般涌现。本节将以通用大模型技术的应用和领域大模型技术的应用为例,阐述大模型的应用现状。
1.3.1 通用大模型技术的应用
通用大模型技术应用的场景主要包括自然语言处理、图像处理和视频处理等,如图1.5所示。

图1.5 通用大模型技术应用的场景
1.自然语言处理
针对自然语言处理的典型大模型应用有OpenAI的ChatGPT、Anthropic的Claude、腾讯元宝、字节旗下的豆包等,其核心功能如下。
● 智能问答:支持多模态的智能问答,结合深度搜索模式,可以提供更新、更专业、更全面的信息。
● 文档写作:通过大模型的语言理解和输出能力,可以辅助内容创作,完成报告、方案的撰写等。
● 语言翻译:支持多种语言的对话,理解不同语言的任务,并且提供高质量的多语言翻译服务。
● 内容摘要:支持对多种类型的文档、链接、图片等进行解析和信息总结。
2.图像处理
针对图像处理的典型大模型应用有Midjourney、OpenAI的DALL-E 2、开源的Stable Diffusion等,其核心功能如下。
● 图像生成:用户描述场景或角色,大模型能够将这些语义信息转换为视觉元素,生成高质量的图像。
● 图像修复:能够处理低质量或受损的图像,使其变得更加清晰和逼真。
● 风格转换:能够将图像转换成不同的艺术风格,例如印象派、涂鸦等。
● 图像编辑:能够执行常见的图像编辑任务,如裁剪、调色和添加元素等。
实际使用时,需要提前准备好提示词(Prompt),并将提示词给大模型,这样大模型才能完成相应的图像处理任务。以Midjourney为例,给到大模型的提示词是“在夜晚的雪地中,一位拥有星星般的发光肌肤的女性,被花朵环绕,呈现出奇幻的风格。女性闭着眼睛,创造出一种超凡的效果。她的脸和脖子上有星星,增添了场景的魔幻感。--chaos10 --stylize150 --pdzkthys --ar3∶4”。此时,大模型会根据提示词生成高清图片,如图1.6所示。

图1.6 Midjourney根据指定提示词生成的高清图片
3.视频处理
大模型应用于音视频方向的典型场景包括视频生成、视频增强、音频生成、音频增强等。
针对视频处理的典型大模型应用有OpenAI的Sora、Luma的Dream Machine、Runway的Gen-3、Pika labs的Pika和MiniMax的海螺AI等,其核心功能如下。
● 文生视频:能够将用户提供的文本描述转化为动态的视觉内容,并在生成视频时模拟现实世界的物理规则,生成包含多个角色和复杂背景的视频。
● 多模态输入:支持基于文本、图像或视频输入来生成视频,或者在现有视频的基础上进行内容修改或者视频延长。
● 角色一致性:能够在模拟现实世界物理规律的同时,保持角色的完整性,确保视频内容在时间上的连贯性和逻辑性。
● 多种镜头运动:支持一系列流畅、电影化和自然的摄像机运动,确保与每个场景的情感基调相匹配。
同图像处理类似,实际使用时,需要准备好提示词给大模型,这样大模型才能生成视频。以Dream Machine为例,给到大模型的提示词是“该场景是从穿过繁忙的城市街道的骑行者角度拍摄的。摄像机捕捉到了自行车的车把、前方的道路和周围的交通情况。当骑行者穿梭在街道上时,行人、汽车和店面都模糊地闪过。使用POV镜头让观众身临其境地体验骑行,强调了速度和活力”。此时,大模型会根据提示词生成视频,视频的截图如图 1.7所示。

图1.7 Dream Machine根据指定提示词生成的视频的截图
另外,在音频生成和音频增强领域,用户也可以使用文本提示词来生成完整的音乐,其中典型的大模型应用有Udio、Fryderyk、Suno和网易天音等。
1.3.2 领域大模型技术的应用
大模型技术的应用已经广泛深入各个专业细分领域。本节将以大模型在科学发现、机器人、企业应用,以及代码编程等关键领域的技术应用现状为例,展示其在推动行业创新和解决复杂问题方面的潜力。领域大模型技术应用的典型场景如图1.8所示。

图1.8 领域大模型技术应用的典型场景
1.科学发现
大模型应用于科学发现领域的典型场景包括蛋白质预测、新材料发现、药物开发和天文物理等。
● 蛋白质预测:如DeepMind的AlphaFold 3,不仅能预测单个蛋白质序列或蛋白质复合物的结构,还能预测蛋白质与其他蛋白质、核酸、小分子中的一种或多种物质复合的结构。此项技术是一个革命性的创新,能够预测所有生命分子的结构和相互作用,并且在预测蛋白质与其他分子的相互作用的准确率上比传统方法提高50%。
● 新材料发现:如DeepMind的GNoME(材料探索图形网络)平台,其在17天内独自创建了41种新材料。GNoME发现了超过220万种稳定结构,将稳定结构的预测精确度提高到80%以上。在预测成分时,每100次实验的精确度提高到33%,此前仅为1%,相比之下,其速度和精确度远超人类。
● 药物开发:如Atomwise公司的AtomNet平台,其运用一种虚拟高通量药物筛选(High-Throughput drug Screening,HTS)方法,可以在由超过15万亿个可合成化合物组成的、不断扩大的化学库中进行搜索,准确地找到与任何已知结合剂截然不同的新型结合剂,从而在新的化学空间中找到热门药物。
● 天文物理:中国天眼FAST望远镜在寻找脉冲星的过程中,使用AI技术来应对每秒高达38 GB的传输数据,大幅提高了搜索效率。
2.机器人
针对机器人领域的典型大模型应用有DeepMind的RT-2、Google的PaLM-E、Covariant的RFM-1和北京大学的RoboMamba等,此类应用的核心功能如下。
● 多阶段任务规划:能够根据视觉和语言输入完成复杂的多阶段任务规划,例如决定哪种物体可以用作临时的锤子。
● 自主操作与控制:能够应对任务执行期间可能发生的中断,显示出对环境的适应性和弹性。
● 多模态理解和生成:能够对输入的语义和视觉进行理解,解释成命令,并通过执行基本推理来响应用户指令。
● 端到端执行:能够直接从视觉输入到机器人动作输出,降低了传统机器人学习过程的复杂性。
以RT-2模型为例,展示大模型技术在机器人领域的应用。RT-2模型是一个“视觉—语言—动作”模型,需要处理的数据包括当前图像、语言命令和特定时间步骤的机器人动作。RT-2模型可以将现有的视觉语言模型与机器人动作数据进行共同微调,通过生成的机器人动作文本字符串(如“1 128 91 241 5 101 127 217”)驱动机器人执行相应动作,于是,机器人就有了自主应对新对象、新环境和新任务的能力。
3.企业应用
大模型在企业应用领域的典型应用场景包括智能营销、智能设计、智能制造和智能客服等。
● 智能营销:Jasper 是一款专为企业营销场景研发的AI工具。例如,可以将AI生成的图像内容重新包装成符合品牌风格的多种格式和语言;支持跨平台使用,允许用户通过电子邮件、社交媒体和企业官网等多个渠道发布内容;具备撰写高质量文案的能力,支持用户上传品牌风格的写作指南,让AI模仿,从而确保内容的一致性;支持集成到常用开发工具和浏览器中,提高内容创作效率。Jasper 还是一个多人协作AI平台,可以在其中分配工作、查看状态等。
● 智能设计:新思科技(Synopsys)的DSO.ai通过AI自动优化流程,提高芯片设计的效率和质量。DSO.ai通过强化学习进行智能设计和优化,可在优化过程中智能优化数万亿个设计方案,从而在设计空间中实现更好的优化结果。DSO.ai还能够同时针对多个目标(如性能、功耗和面积等)进行设计空间优化,并在这些目标之间找到最佳平衡,实现更高效和有效的设计。此外,DSO.ai还支持从寄存器传输级(Register Transfer Level,RTL)到最终版图(GDSII)的全流程自动优化,从而缩短设计时间,提升设计质量。
● 智能制造:ClondNC通过AI可以实现无须模板或宏即可生产出优质零件,以及自动生成专业的加工策略,从而使得以前需要数小时甚至数天才能完成的任务,现在只需几分钟或几秒钟就能完成。使用ClondNC生成加工策略能够延长机器的正常运行时间、缩短交货时间和提高流程稳定性。
● 智能客服:Salesforce的Einstein平台通过AI技术提供多种功能,从而改善客户体验和提高服务效率。例如,通过自动化客户服务任务,帮助服务团队节省时间,从而服务团队可以专注于更复杂的客户问题;通过理解客户查询的自然语言,自动提取关键信息并将其路由到正确的服务代表或解决方案;根据客户的历史交互和偏好,推荐个性化的服务选项和解决方案;自动从客户交互中提取信息,并更新知识库,使服务团队能够快速地找到解决方案。
4.代码编程
大模型应用于代码编程领域的典型应用有GitHub Copilot、Tabnine、JetBrains Fleet等,此类应用的核心功能如下。
● 代码生成:根据开发者的注释或代码描述,能够生成多种编程语言的代码,支持Python、JavaScript、TypeScript、Ruby、Go、Java等。
● 代码补全:能够根据上下文、已有的代码、相关的代码库及开发者的编码习惯,给出合适的代码补全建议,帮助开发者快速编写程序。
● 错误检查:能够在开发者编码时识别潜在的错误,并给出修复代码的建议,从而提高代码的质量和可维护性。
● 测试用例:能够解释已有代码,并且根据现有代码生成测试用例,同时生成注释。
使用GitHub Copilot生成测试用例,如图1.9所示。

图1.9 使用GitHub Copilot生成测试用例
在使用大模型生成代码的领域中,SQL代码生成是一个重要的研究方向,它能够通过大模型解析用户描述的自然语言需求并生成相应的可执行SQL代码,还可以生成BI图表等,从而完成数据分析。