个人简介
王岩,得克萨斯大学计算机科学专业硕士研究生。原花旗集团后端研发工程师,负责商业贷款风险评估系统的开发,维护及性能优化。拥有丰富的系统开发经验。
当我们进入世界上最大的连锁零售商沃尔玛商场中购物时会发现,啤酒和尿布的货架是摆在一起的。在我们看来,啤酒和尿布在任何层面也没有相关性,为什么要把他们放在一起出售?这是因为沃尔玛在分析其零售数据时发现,尿布和啤酒的销售量呈现很高程度的相关性。经过更加详细的客户调研后发现,美国的妻子大都喜欢在丈夫快下班时提醒他给孩子购买尿布,而丈夫在买完尿布后,有很大概率同时购买自己喜欢的啤酒回家。因此沃尔玛把两种商品的货架摆放在一起出售时,同时促进了两者的销量增长,为公司带来了更多的收入。这即是相关思维,即发现事物或信息中相关性的思考方式。相关思维是大数据思维中十分重要的一部分,是帮助我们发现数据潜在价值、制定具有数据依托的商业决策的好帮手。
什么是大数据?通俗的说,大数据的定义是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。因此,根据大数据的种种特性,除了相关思维外,全样思维和容错思维同样是大数据思维中十分重要的两个方面。全样思维,顾名思义,是要全面考虑数据样本的情况。在数据采集难度大,分析和处理困难的历史时期内,抽样统计曾极大的推动了社会的发展。例如:一家食品制造企业要调查生产过程中的残次品率。假设企业共有10条产线,我们随机抽取1条产线,任意选定1个小时的时间,并记录期间产生的产品总数为1000个,残次品数量为20个,由此得出残次品率为2%。但受设备情况、原材料品质等因素的影响,由抽样得来的计算结果总是不太稳定的。由于计算能力的飞速发展,现在企业可以很容易的统计出生产过程中的各种数据,如原材料信息、生产信息、包装信息等。将所有数据统一汇总形成数据集,不仅仅能分析出简单的残次品率,甚至可以分析出不同原材料的残次品产生率,哪个生产环节产生的残次品更多等更加隐蔽的信息。随着技术的发展,在过去不可能获取全样数据,不可能存储和分析全样数据的情况都将一去不复返。
在大数据分析的过程中,包容错误和异常数据同样是非常重要的,这就需要我们具有容错思维。现实中的数据本就是不完美的,可能会存在异常、纰漏、疏忽甚至错误。由于我们针对全样数据进行分析,数据样本数量庞大,少数的问题数据并不影响整体的趋势分析,而倘若某类关键数据大多数都存在收集不全或错误的情况,那么我们就应该采取更为有效的措施(强制或激励等)来促使此类信息收集的更加详尽和准确。
近年来,国家越来越意识到数字经济的价值和潜力,无论是两会政府工作报告还是“十四五”规划,“加快数字化发展,建设数字中国”都将是我国未来的重点发展方向之一。数据显示,当前我国数据总量正在以年均50%的速度增长,预计到2025年将占全球的27%,是名副其实的数据大国。从企业的角度,原材料采购、生产加工、工艺流程、销售、经营管理等过程中也积累了海量的数据。而大数据思维,将是帮助我们破译数字背后的逻辑,进一步释放数字价值的“有力武器”之一。