“大数据”是当今信息时代一个非常热的概念。但对普通人来讲又觉得云里雾里,实际上,大数据就发生在你我身边,虽然你看不到它,但它却时时影响着我们的生活。大数据从本质上来讲是一种理念,是我们玩数的一种方法,而不是说数据本身有多大。但就是这么一个量不大的数据,它可以为我们揭示非常有价值的东西。大数据要做的事情,就是通过表面看起来没什么关系的数据,获得对超出数据行为层面的一些理解。
周涛 电子科技大学互联网科学中心主任
大数据是一个看起来非常前沿的概念。这个概念虽然很火,但它背后其实是有风险的。真正能让人看得见摸得着的,是大数据落地的应用。在先前召开的“第一届商业大数据全球峰会·觉醒”上,国内大数据领域的领军人物、电子科技大学互联网科学中心主任周涛教授,为大家分享了一些大数据在教育、金融、人力资源、平台建设等各个方面应用的实例。本刊特别采访整理了周涛教授的部分发言内容,以飨读者。
教育大数据
更新中国教育方式
大家都知道,大学生的心理问题一直是一个比较突出的问题。我们在电子科大进行了试点,利用大数据提前把那些有心理问题的学生找出来。
我们是怎么做的呢?首先我们拿到了该校学生线下几乎所有的记录,比如去食堂吃饭,去图书馆借阅图书,打水,买零食等等数据。这个线下记录一共包括了85项数据,共有万条。
学生去食堂吃饭、进出寝室和图书馆、去超市买零食等等活动,都要用到一卡通。在电子科大的清水河校区,一共有300多个一卡通卡机,分为78个类。我们通过一个简单的公式计算,得出如下结论:两个陌生人,在一个月内,两次前后刷卡的可能性是十多万分之一。也就是说,两个完全不认识的同学,在一个刷卡点一前一后刷卡,在一个月内出现两次这样的情况,基本不太可能。那么我们就可以判断,如果某两人前后刷卡的记录大大超出了可能的概率,很显然这两人的关系就比较特殊。因此,我们仅通过对学生前后刷卡这样一个数据的分析,就能分辨出这个学生有没有亲密朋友、好朋友或一般朋友,进而发现一个同学到底有多孤独。
结合社团活动等线下记录,我们发现,在电子科大,最孤独的前百分之三的人,去心理健康咨询的可能性是一般人的19倍!大家可以想象,有多少人是精确被我们抓出来的。
金融大数据
助力金融业健康有序发展
现在我们来利用大数据,在200万POS机、大概一百多亿条交易记录中,找到那些存在异常、MCC套用的商户。
什么叫MCC套用呢?我们知道,每一个POS机都有一个MCC代码,这个代码就标志了该机的主营业务。如果主营业务是以前东莞的桑拿按摩洗浴中心,费率是1.38,也即是收入一百块,商家要给央行结算中心上缴1.38元;如果这个POS机的主营业务是百货商店,那费率是0.78;如果是报刊报亭,则是0.38;如果是乡镇加油站,在2013年以前是0。
因为费率有高有低,就有大量商家,通过套用这种MCC码,把费率相对较高的主营业务报成费率低的主营业务,以此来节省费用。现在我们要从我们的数据库中,把MCC套用的商户给找出来。我们首先假设大部分商家都是良心商家。在这个假设下,分三步来解决这个问题。这三个步骤由浅入深,其中第三步的精确性可以达到百分之九十七点几。我们曾用这种方法找到了700家套用乡镇加油站的POS机商户,准确度高达100%。
企业征信
大数据为企业完美画像
我们找到了围绕这个企业的大量数据。包括2000多万企业主体在工商部门登记的所有数据;来自高院和中院的诉讼数据;所有的商标、知识产权,包括专利、转让、著作权等数据……我们把这些信息都汇总起来,然后和我们拥有数百万量级企业数据的合作伙伴一起,共同来对企业做画像。
这种画像给出的是对企业全风险的刻画。比如说能够很好的刻画关联方的数据。我们知道这个企业可能出现关联风险,它既是券商做会计审计中最大的风险,也是很多金融机构所面临的风险。比如银行,如果客户觉得贷款负担重,他可能会把他的客户和资源倒到另外一家公司,然后宣布向银行贷款的这家公司破产,这都是来自于关联方的风险。
文章来源:《大数据》 网址: http://www.dsjzz.cn/zonghexinwen/2020/0807/563.html