大模型工程化:AI驱动下的数据体系
上QQ阅读APP看书,第一时间看更新

2.1 业务对数据体系的需求

自1989年起,数据便开始在业务决策与增长中扮演着关键角色。1989年,高德纳(Gartner)公司的分析师Howard Dresner统一了商务智能(Business Intelligence,BI)的定义,将其界定为涵盖数据采集、存储、处理及应用分析的综合体系。随后,在1990年,数据仓库领域的先驱Bill Inmon进一步阐明了数据仓库的概念,并对联机分析处理(Online Analytical Processing,OLAP)与联机事务处理(Online Transaction Processing,OLTP)进行了系统性的区分。通过利用OLTP生成的数据构建OLAP系统,企业得以迅速分析并有效利用数据,从而加速BI系统的构建进程,进而辅助业务决策、驱动业务增长。

从1990年开始,BI和OLAP的发展进入快车道,尤其是随着互联网的普及和大数据相关技术的兴起,业务对数据体系的需求从经营分析(可视化)开始不断深入,发展出精细化运营(数据挖掘)、辅助决策(预测)、驱动业务(干预)、智能自适应业务(AI)等需求。业务对数据体系的需求如图2.1所示。

图2.1 业务对数据体系的需求

1.经营分析

经营分析类的需求一般以企业运营的关键绩效指标(Key Performance Index,KPI)为指引。通过对KPI的分解,将企业的整体运营目标落实到各部门、各小组及各员工层面,使业务目标可描述、可拆解和可度量。最终,通过OLAP和BI系统准时地反馈KPI的完成情况,从而提高企业整体的运营效率。

在构建指标体系时,首先,设计企业的北极星指标,如收入增长、营业毛利和资本效率等;其次,将北极星指标分解成各部门的KPI,如收入增长指标可以分解成营业收入、高附加值产品收入和市场占有率等;最后,将各部门的KPI进一步分解为小组或员工个人的KPI,如营业收入可以分解成新签用户数、续费用户数和平均客单价等。

为了满足上述需求,通常采用从ERP、SRM、CRM、HR等系统同步数据至OLAP数据仓库的方法。在数据仓库中,可以通过数仓建模构建指标体系,借助BI系统实现指标体系的全面监控与管理,确保各项指标的实时跟踪与评估。通常有3类厂商可以提供这样的解决方案:一是ERP等应用系统厂商,其优势在于能够更好地与自家应用系统进行深度集成;二是OLAP厂商,其优势在于拥有丰富的行业通用模型及强大的开发集成能力;三是BI厂商,其优势在于拥有丰富的图表展示方式,以及简单、灵活、易用的操作界面。

2.精细化运营

随着互联网的普及,企业和用户之间的关系从线下转为线上。同时,随着物联网(Internet of Things,IoT)技术的成熟,企业内部的人、设备、材料、环境间的交互也由线下变为线上。此外,随着云计算、大数据的兴起,企业存储、计算、应用数据的能力比以前高了几个数量级。因此,业务对数据的需求已不再局限于简单地查看报表和指标。相反,业务人员期望通过更丰富的数据来深入剖析和还原业务过程,了解发生了什么事情,并探究其背后的原因和机理。通过数据挖掘和归因分析,业务人员能够识别和沉淀那些有助于业务发展的正面运营动作,同时规避那些可能导致业务受阻的负面运营动作,从而推动业务的可持续、健康发展。

精细化运营通常根据特定场景进行分析。常见的场景包含用户运营分析、活动运营分析、设备综合效率(Overall Equipment Effectiveness,OEE)分析和企业能耗分析等。在确定场景后,需要采用生命周期、画像分层等方法来确定模型。例如,在用户运营场景中,常用的模型有AARRR模型、RFM模型等。在确定模型后,使用数据和算法进行建模,对用户进行分群,从而进行精细化分析,例如基于RFM模型,按照最近一次消费时间(Recency)、消费频率(Frequency)和消费金额(Monetary),可以给用户打上高、中、低等标签,从而对相同标签对应的群体进行精细化运营。

为了满足精细化运营的需求,企业通常从解决自身业务问题的角度出发,逐步发展出适合不同行业和场景的解决方案。客户数据平台(Customer Data Platform,CDP)便是典型的代表,这类解决方案最初主要由腾讯、阿里、百度等互联网公司提出,旨在解决自身业务中的精细化运营问题。随着实践的深入,客户数据平台逐渐积累了丰富的经验,并逐步实现了标准化,最终形成了标准的解决方案和产品。

3.辅助决策

随着机器学习技术的不断发展、硬件算力和数据的指数级增长,深度学习相关算法和模型在很多垂直领域已接近或达到人类的表现水平。特别是在2016年,Google的AlphaGo成功击败世界围棋冠军李世石,标志着深度学习在图像识别、声音识别、自然语音理解等方面取得了显著的进展。同时,也促进了人们对数据的理解,即意识到半结构化、非结构化的数据也需要采集、处理、分析和管理。随着业务对数据需求的日益增长,我们期望利用深度学习技术对结构化、半结构化和非结构化的数据进行模型训练。通过分析历史数据,预测未来趋势,从而做出及时的决策和预案。

辅助决策一般会嵌入业务场景,在业务流程中的某个或某几个节点上对后续节点和结果进行预测。特别是在流程的前期节点上,通过预测来优化资源、控制成本、合理安排计划和规避风险。常见的需求预测流程有销量预测、产品定价优化、产销协同规划、供应链计划和故障预测等。以产品定价为例,首先,收集多方面的数据,如用户偏好、市场信息、产品配方、产品成分、销售渠道和品牌价值等;其次,定义目标,如销量最大化目标、利润最大化目标和市场占有率目标等;最后,根据选定的目标进行数据清洗与加工、模型选择与训练等,最终得到产品定价优化模型,从而辅助新产品定价。

为了满足上述需求,我们可以构建一个机器学习平台,该平台整合了数据清洗与加工、模型选择与训练,以及上线发布的整个工作流程。通过这一平台,我们能够统一进行数据处理、特征工程的管理,以及算法模型的沉淀。这不仅促进了团队间的协作和知识共享,还显著提升了团队在机器学习训练和在线推理方面的效率。

4.驱动业务

移动互联网和智能终端的发展改变了人、产品、时空的关系。产品和服务提供者必须提升响应速度,通过持续的实时互动,吸引和保持用户的注意力,从而为用户提供更优质的体验。实时互动对数据也提出了更高的要求,如果之前基于T+1的数据做预测、做事后的复盘和改善,那么现在就需要基于T+0的数据实时处理和响应用户的行为,把实时的行为和历史的行为进行联合计算,并根据这些行为做出实时的、智能的判断和决策,从而使企业可以个性化地、高效地、精准地为更多客户提供服务。

驱动业务一般会嵌入业务流程的节点,具体而言,就是把原来需要人工处理的流程节点变成自动处理的流程节点;把原来按照规则机械执行的流程节点变成利用数据加算法的智能化流程节点;把原来执行效果需要事后评估的流程节点变成执行效果可以实时评估且动态优化的流程节点。驱动业务的常见流程节点有实时广告投放、实时个性化推荐与营销、实时价格调整与促销、实时订单处理与配送优化、实时顾客服务与反馈管理等。以实时个性化推荐与营销为例,首先需要实时处理大量的用户行为数据,如浏览记录、搜索记录、购买记录等,以及用户的历史行为、个人信息、偏好、商品热度等信息;其次运用协同过滤、深度学习等技术,基于实时数据通过算法模型预测用户的兴趣和需求,并生成个性化商品、店铺、优惠等推荐结果;最后通过推荐结果帮助用户发现感兴趣的商品,为用户提供更好的购物体验,同时也为商家提供更精准和有效的广告投放渠道,提高交易的成功率和效果。另外,可以应用A/B Test来评估推荐的效果、应用强化学习等智能自适应算法来逐步提升推荐的精准度,使算法和业务能够协同进化。

为了满足上述需求,通常需要建立实时数据处理系统,使其能够接收实时的用户、环境、产品之间的互动数据,并实时进行数据转换、过滤、聚合、计算和模型推理等工作。驱动业务实时嵌入业务流程的节点,一方面可以实现流程自动化来优化运行效率,另一方面可以通过数据和算法实现精细化管控和个性化服务,从而提高组织的竞争力。

5.智能自适应业务

在智能自适应业务场景下,我们仅需负责决策和设定目标,而AI则承担将目标细化与分解的重任,并负责制订详尽的计划与资源协调策略。在执行过程中,AI能够实时与人、环境、产品及规则等要素进行深度互动,准确评估目标的执行情况,并预测可能出现的各种状态。同时,AI还能根据预测结果和环境信息灵活调整计划与资源安排,不断积累经验、优化自身策略,当未来遇到类似任务时,就能够达到最佳执行效果。

通用人工智能依旧是理想目标,当下大模型只能在具体的任务(Task)上体现出强大的通识能力,对于工作(Job)还需要人机协同或者在人类的监督下完成。至于项目(Project)级别的管理和企业(Enterprise)级别的整体运营,智能自适应业务目前还没有成熟和完整的实现方案。