IT 管理者指南:为 AI 提供高质量数据

高质量数据是获得优质 AI 成果的关键,但其培育方法却往往迷雾重重。本指南可为您提供帮助。

IT 管理者知道,组织数据的质量直接决定了 AI 解决方案的成效。他们的数据工程师是这么说的。   

但这些数据工程师也常抱怨组织内部缺乏坚实的数据基础,并对培育优质数据所需的工作量感到焦虑。这两个群体与企业高管共同承担着这份压力。 

The Futurum Group  Kearney 的研究表明,近三分之二的 CEO 认为,由于基础架构孤岛化和技术堆栈碎片化导致的低质量或不连贯数据,正成为阻碍 AI 解决方案规模化部署的主要障碍。 

在探讨如何培育高质量数据以服务 AI 解决方案之前,有必要先了解劣质数据可能带来的后果。 

垃圾进,垃圾出的现实困境 

垃圾进,垃圾出”。随着生成式 AI 的崛起,这种说法已成为行业共识。当 AI 模型中包含的数据存在错误或偏差时(垃圾进),模型将无法有效泛化,导致预测或决策出错(垃圾出)。   

但在实践中这意味着什么?向 AI 系统输入低质量数据时,本质上是在要求它基于污染信息做出关乎百万美元的决策。   

以某零售连锁企业为例,该企业部署了 AI 系统来优化 500 家门店的库存管理。假设其销售数据错误标记了商品退货信息,使退货被统计为额外销售额。   

最终导致 AI 系统错误地认为某些产品销量增加了 30%。结果如何?滞销品订购过多、过剩库存高达数百万美元,而畅销品现货短缺。 

再以某大型银行为例,其 AI 聊天机器人接受的训练数据来自维护不善的客服记录,其中包含大量不准确数据 — 客服人员用“chk”、“checking”甚至数字账户代码来缩写支票账户数据。   

糟糕的是,该聊天机器人无法正确理解客户关于基础银行业务的请求,导致客户满意度评分下降。银行不得不雇用更多人工客服来处理激增的咨询需求。 

设想一下,类似场景正在其他受监管行业中上演,而这些行业正行走在合规与风险之间的锋刃之上。有时,最终会酿成声誉与财务的双重损失 — 这才是真正致命的垃圾出”。  

精选高质量数据 

Dell Technologies  NVIDIA 联合推出了此电子书,介绍组织如何制定数据策略以确保 AI 成功部署。构建高效数据策略的关键环节之一,在于数据准备工作。   

高质量数据决定 AI 模型的感知、预测和行动能力,这些都是关键的性能指标。没有坚实的数据,AI 基础就会崩塌。下文将阐述构建规范数据体系所需的步骤。

  1. 审核数据。将数据提升至理想状态前,必须先评估其现状。您的数据管理架构是否整洁有序、维护得当?执行审核有助于发现并修正错误、重复项或不一致问题。
  2. 打通数据孤岛。组织数据往往分散在不同业务部门的应用程序与平台中。整合数据源既能提升数据准确性、减少重复,又能催生更切实可行的见解。 
  3. 准备数据。随着时间的推移,数据会变得过时且冗杂。通过数据清理、标记和标准化操作,可提升 AI 模型性能并缩短部署周期。为数据结构、一致性和完整性制定组织标准,有助于确保业务所依赖的模型能够从正确的信号中学习。
  4. 实施治理与合规性。数据的安全性与弹性至关重要。建立清晰的数据沿袭、安全控制和合规性框架,可增强对 AI 系统的信任。保持健全的数据治理架构与审核追踪机制,既能保障敏感数据的合规使用,又能落实责任归属。
  5. 实现数据基础架构的现代化升级AI 解决方案需要现代计算、存储及网络技术,以及配置维护这些技术的专业知识。升级到支持实时访问、可扩展性与集成能力的平台,让组织能够满足日益增长的 AI 需求。 

数据基础架构的现代化之路 

简化数据移动、处理与治理方式,是确保 AI 工作负载可扩展性的关键。采用统一灵活的方法不仅能加速产品上市进程,更能为组织构建面向未来的竞争力。 

然而实现这一目标并非易事。Dell Technologies  NVIDIA 携手打造了 Dell AI Factory with NVIDIA,通过整合各种技术与服务,加速用例实施、集成数据与工作流,帮助企业设计自己的 AI 之旅。 

谨记:垃圾进,垃圾出。优质数据能够创造竞争优势,而劣质数据则会导致规模化的高昂代价。问题不在于是否承担得起在数据质量方面投入的成本,而在于是否承担得起不投资的后果。 

您真的承担得起吗? 

详细了解 Dell AI Factory with NVIDIA 

About the Author: Dell Technologies