文章 Qiao Peng · 十二月 2, 2022 9m read

通过智能数据编织应对数据挑战

1.数据的价值 

数据的核心价值是帮助我们决策。 

我们无时无刻不在决策,大到战略决策——为一家新医院选址,还有战术决策——鉴别产品的目标市场或抵押贷款审批,更频繁的是操作决策——决定患者的手术方案或患者药物的调整。

这些决策要求不同的决策速度,传统的数据中心已经能较好地帮助我们做战略决策、战术决策,甚至一些操作决策。但新的业务需求要求我们的决策速度越来越快,甚至借助机器学习自动为我们做出即时的决策,例如批准还是拒绝一笔信用卡交易或基于算法自动交易。 

无论是人工决策还是基于机器学习的自动决策,决策的依据是数据。数据的速度和质量决定了决策的速度和质量。要支持决策,需要数据具有如下特征: 

(1)完整 :关联且具有完整上下文; 

(2)干净 :数据质量没有问题; 

(3)及时 :在决策点上没有延迟。 

传统数据中心很难在及时性上满足要求。 

2.数据挑战

数字化浪潮下,我们面临更大的数据挑战: 

  • 数据规模:数据量已经完全超出了人工处理能力。 
  • 数据源多样性:数据源不再仅是数据库,流式引擎的消息、物联网、对象存储......它们还带来了越来越多模型种类的数据。
  • 更多的数据孤岛:更多的系统和应用被建设,进一步增加了数据孤岛现象。 
  • 跨部门的数据不一致:统计口径和统计时间的差异,造成财务部门统计的数据,总是和业务部门统计的数据对不上。