在小数据时代,相关关系分析和因果分析都不容易,都耗费巨大,都要从建立假设开始。
然后我们会进行实验--这个假设要么被证实要么被推翻。
但由于两者都始于假设,这些分析就都有受偏见影响的可能,而且极易导致错误。与此同时,用来做相关关系分析的数据很难得到,收集这些数据时也耗资巨大。现今,可用的数据如此之多,也就不存在这些难题了。
当然,还有一种不同的情况也逐渐受到了人们的重视。在小数据时代,由于计算机能力的不足,大部分相关关系分析仅限于寻求线性关系。这个情况随着数据的增加肯定会发生改变。
事实上,实际情况远比我们所想象的要复杂。经过复杂的分析,我们能够发现数据的“非线性关系”。
多年来,经济学家和政治家一直错误地认为收入水平和幸福感是成正比的。我们从数据图表上可以看到,虽然统计工具呈现的是一种线性关系,但事实上,它们之间存在一种更复杂的动态关系:
对于收入水平在1万美元以下的人来说,一旦收入增加,幸福感会随之提升;
但对于收入水平在1万美元以上的人来说,幸福感并不会随着收入水平提高而提升。
如果能发现这层关系,我们看到的就应该是一条曲线,而不是统计工具分析出来的直线。
这个发现对决策者来说非常重要。如果只看到线性关系的话,那么政策重心应完全放在增加收入上,因为这样才能增加全民的幸福感。
而一旦察觉到这种非线性关系,策略的重心就会变成提高低收入人群的收入水平,因为这样明显更划算。当相关关系变得更复杂时,一切就更混乱了。
比如,各地麻疹疫苗接种率的差别与人们在医疗保健上的花费似乎有关联。但是,最近哈佛与麻省理工的联合研究小组发现,这种关联不是简单的线性关系,而是一个复杂的曲线图。和预期相同的是,随着人们在医疗上花费的增多,麻疹疫苗接种率的差别会变小;
但令人惊讶的是,当增加到一定程度时,这种差别又会变大。发现这种关系对公共卫生官员来说非常重要,但是普通的线性关系分析师是无法捕捉到这个重要信息的。如今,专家们正在研发能发现并对比分析非线性关系的必要技术工具。一系列飞速发展的新技术和新软件也从多方面提高了相关关系分析工具发现非因果关系的能力,这就好比立体派画家同时从多个角度来表现女性脸庞的手法。
网络分析行业的出现就是一个最明显的例子。多亏了它,让描绘、测量、计算各节点之间的关系变成了可能,我们可以从Facebook上认识更多的朋友,还可以知道法庭上的一些判决的先例,以及谁给谁打了电话。总之,这些工具为回答非因果关系及经验性的问题提供了新的途径。
在大数据时代,这些新的分析工具和思路为我们提供了一系列新的视野和有用的预测,我们看到了很多以前不曾注意到的联系,还掌握了以前无法理解的复杂技术和社会动态。
但最重要的是,通过去探求“是什么”而不是“为什么”,相关关系帮助我们更好地了解了这个世界。这听起来似乎有点违背常理。毕竟,人们都希望通过因果关系来了解这个世界。
我们也相信,只要仔细观察,就会发现万事万物皆有因缘。了解事情的起因难道不是我们最大的愿望吗?
这听起来似乎有点违背常理。毕竟,人们都希望通过因果关系来了解这个世界。
我们也相信,只要仔细观察,就会发现万事万物皆有因缘。了解事情的起因难道不是我们最大的愿望吗?
文章来源:《大数据》 网址: http://www.dsjzz.cn/zonghexinwen/2020/1026/1258.html