在大数据世界中探寻科学宝藏，科研新范式如何 -大数据杂志社投稿

通知公告

综合新闻

期刊导读

现在的位置：主页 > 综合新闻 >

在大数据世界中探寻科学宝藏，科研新范式如何

来源：大数据 【在线投稿】栏目：综合新闻时间：2020-11-12

【作者】:网站采编
【关键词】:
【摘要】:北京2020年11月11日 /美通社/ -- 模拟脑神经网络，探索人脑上亿个神经元之间是如何连接与工作的，带来每秒高达100TB数据高吞吐量；脑疾病研究中，通过数万份患者数据验证抑郁症与睡

　　北京2020年11月11日 /美通社/ -- 模拟脑神经网络，探索人脑上亿个神经元之间是如何连接与工作的，带来每秒高达100TB数据高吞吐量；脑疾病研究中，通过数万份患者数据验证抑郁症与睡眠治理不佳的脑区有重合之处；在自动驾驶车辆每天产生了数十TB数据中训练视觉识别算法；天文专家从数十PB海量数据中分析发现新天体……

　　如今在科研领域，数据正在发挥着越来越重要的作用。尤其是随着数据采集、存储等技术的不断提升，海量数据的出现彻底改变了传统科研模式。继实验科学、理论科学、计算科学之后，基于“数据密集型科学”的科研新范式在大数据时代下，受到越来越多科研人员的青睐。

　　在“数据密集型科学”的科研新范式驱动下，高校、科研机构加速构建人工智能与大数据平台、为不同学科提供创新基础设施成为当务之急。但由于科研聚焦前沿研究，且不同学科之间存在着很大的差异性，造成对于数据的计算、采集、存储、管理和利用的需求不尽相同，也让高校的人工智能与大数据平台加速向更高水准演进。

　　数据要素成为科研的驱动力

　　科研范式因为大数据而迅速改变。

　　正所谓是“巧妇难为无米之炊”，即便理论再“高明”、算法再先进，缺乏数据的支持，再好的研究设计都得“半途而废”。如果科研数据越多，研究人员就可以利用大量数据的相关性、可取代因果关系和理论与模型，基于海量数据间的相关性验证更多研究想法和理论，获得更多新知识和新发现。

　　例如，在当前非常热门的类脑科学研究，有一个重要的方向就是多模态多尺度数据分析理论与应用。首先建立脑成像中心，全套磁共振成像设备对小动物或者人体进行脑成像，不断采集和分析脑科学数据，构建起多模态多尺度脑数据库；然后，在利用模式识别、深度学习等类脑智能方法寻找基因、脑影像和认知功能的诊断指标，以揭示脑疾病致病机制、提升脑疾病临床诊断以及药物疗效评估的准确性和效率。

　　\"目前高校数据量增长的确非常大，很多科研领域对于各种科研数据的收集也非常重视。”复旦大学大数据学院副院长薛向阳教授如是说。

　　如何理解数据密集型科学与之前计算科学之间的区别，两种科研范式似乎都需要通过大量的计算、数据来完成科学研究。但计算科学通常是先提出可行理论，再搜集数据，之后通过计算仿真进行验证；而数据密集型科学则是先通过采集大量的数据，再通过计算与分析获得新知识和新发现。

　　“数据密集型科学”的科研新范式核心挑战还在于数据。科研数据的数据密集型，具有不可重复性、高度不确定性、高维、计算高度复杂等特征。如今越来越多科研人员，面临的不是缺少数据的难题，而是海量数据环境下如何存储、管理和利用数据，这对于科研数据底座的存储在容量、性能、扩展和管理等方面提出极高的要求。

　　薛向阳教授介绍：“我们正在建设一个人工智能与大数据的开放共享平台，就是希望为科研工作者解决数据存储、管理和利用等方面的挑战，让数据更好地为科研所用。”

　　科研新范式不应被存储所束缚

　　与其他行业相比，高校与科研机构在建立人工智能与大数据平台时，对于存储的要求更高，往往需要存储这个科研数据基础设施有效解决数据存不下、管不好、用不顺等挑战。

　　具体来看，如今的高校与科研机构普遍都在加速向“数据密集型科学”的科研新范式转变，多学科、交叉研究的现象很常见，都重视科研数据的采集与存储，直接导致了底层存储的巨大压力。

脑科研需要大数据平台的支撑和保障

　　以脑科学与类脑研究为例，其所产生的数据主要以影像大文件为主，并包含了大量临时小文件数据。由于需要存储的数据量极大，并且始终保持着很高的增长速度，很多科研机构之前采用传统纵向扩展的存储很快出现明显瓶颈；也有一些天文研究机构，一开始寄希望于通过公有云的方式来保存数据，但是随着数据不断积累，通过公有云的方式不仅带来了额外的带宽成本，还存在效率等方面挑战。

　　“当前很多高校的研究都是基于大数据，首先最关键的是将数据存下来。”薛向阳教授直言道。

　　除了将数据很好地存下来，高校与科研机构大多都渴望将数据流动与共享起来，但现实情况却是数据管理粗放、不够精细化，数据共享低效、管理困难。比如在高校中，经常会遇到一份科研数据同时被多个课题组所使用，每个课题组都需要拷贝一份数据，在不断科研过程中，又各自产生了大量不同的数据，最后衍生出多种版本，让数据管理的复杂度大幅升上，降低了数据功效与流动的效率。

文章来源：《大数据》网址: http://www.dsjzz.cn/zonghexinwen/2020/1112/1391.html

上一篇：鹰眼大数据采集系统合法吗？
下一篇：是该治治电商们的老毛病了，告别大数据杀熟，

现在的位置：主页 > 综合新闻 >

在大数据世界中探寻科学宝藏，科研新范式如何

【作者】:网站采编【关键词】:【摘要】:北京2020年11月11日 /美通社/ -- 模拟脑神经网络，探索人脑上亿个神经元之间是如何连接与工作的，带来每秒高达100TB数据高吞吐量；脑疾病研究中，通过数万份患者数据验证抑郁症与睡

【作者】:网站采编
【关键词】:
【摘要】:北京2020年11月11日 /美通社/ -- 模拟脑神经网络，探索人脑上亿个神经元之间是如何连接与工作的，带来每秒高达100TB数据高吞吐量；脑疾病研究中，通过数万份患者数据验证抑郁症与睡