通过智能数据编织应对数据挑战
1.数据的价值
数据的核心价值是帮助我们决策。
我们无时无刻不在决策,大到战略决策——为一家新医院选址,还有战术决策——鉴别产品的目标市场或抵押贷款审批,更频繁的是操作决策——决定患者的手术方案或患者药物的调整。
这些决策要求不同的决策速度,传统的数据中心已经能较好地帮助我们做战略决策、战术决策,甚至一些操作决策。但新的业务需求要求我们的决策速度越来越快,甚至借助机器学习自动为我们做出即时的决策,例如批准还是拒绝一笔信用卡交易或基于算法自动交易。
无论是人工决策还是基于机器学习的自动决策,决策的依据是数据。数据的速度和质量决定了决策的速度和质量。要支持决策,需要数据具有如下特征:
(1)完整 :关联且具有完整上下文;
(2)干净 :数据质量没有问题;
(3)及时 :在决策点上没有延迟。
传统数据中心很难在及时性上满足要求。
2.数据挑战
数字化浪潮下,我们面临更大的数据挑战:
- 数据规模:数据量已经完全超出了人工处理能力。
- 数据源多样性:数据源不再仅是数据库,流式引擎的消息、物联网、对象存储......它们还带来了越来越多模型种类的数据。
- 更多的数据孤岛:更多的系统和应用被建设,进一步增加了数据孤岛现象。
- 跨部门的数据不一致:统计口径和统计时间的差异,造成财务部门统计的数据,总是和业务部门统计的数据对不上。