数据的关联性是指各个数据集之间的关联关系。例如员工的工资数据和绩效考核数据是通过员工关联在一起来的,而且绩效数据直接关系到工资数据。采购订单数据与生产订单数据之间通过物料的追溯机制进行关联,而生产订单又是由员工完成的,即通过员工作业数据与员工信息数据关联起来的。
本书探讨的企业经营数据,每个数据集都是相互关联的,有的是直接关联的,如员工工资数据和员工绩效数据;有的是间接关联的,如物料采购订单数据与员工工资数据。这些数据是由公司的资源,包括人、财、物和信息等关联起来的。如果有任何的数据集不能关联到其他的数据集,就会存在数据割裂或者数据孤岛。数据割裂和数据孤岛是企业经营数据关联性不足导致的。而数据的关联性直接影响到企业经营数据集的价值。
准确定义“大数据”概念的科技公司非谷歌莫属。根据搜索研究机构的数据,仅1个月的时间,谷歌处理的搜索词条数量就高达122亿条。谷歌的体量和规模,使它拥有比其他大多数企业更多的应用途径。
谷歌不仅存储了搜索结果中出现的网络连接,还会储存用户搜索关键词的行为,它能够精准地记录下人们进行搜索行为的时间、内容和方式,坐拥人们在谷歌网站进行搜索及经过其网络时所产生的大量机器数据。这些数据能够让谷歌优化广告排序,并将搜索流量转化为盈利模式。人们的行为会在互联网上留下痕迹和路径,谷歌能预测意图。这种抓取、存储并分析海量人机数据再进行预测,就是数据驱动产品。
本文来源:http://www.chinapex.com.cn/solutions/data_cloud |