科技部高技术研究发展中心日前发布“2020年度中国科学十大进展”,其中一项进展是,南京大学沈树忠、樊隽轩团队联合国内外专家创建国际大型数据库,自主研发人工智能算法,利用“天河二号”超算取得突破,获得了全球第一条高精度的古生代3亿多年的海洋生物多样性演化曲线,时间分辨率较国际同类研究提高400多倍。
古生代约3亿年海洋生物多样性曲线与重要演化事件。
生命起源与演化是自然科学领域的十大科学问题之一。地球生命从最早的单细胞生命,到纷繁复杂、高度多样化的现今生命世界,中间经历了复杂的甚至可以称之为波澜壮阔的演化过程。本报约请樊隽轩教授撰文向读者解读该项研究的科学内容。
寒武纪莱得利基虫化石。
奥陶纪镜眼虫化石。
志留纪王冠虫化石。
泥盆纪鸮头贝化石。
石炭纪栉羊齿化石。
二叠纪扇贝化石。
早先化石古生物数据库识别出五大灭绝事件
2011年国际著名学术期刊《自然》报道,根据科学家的估算,现今地球上一共有870万种生物物种。地球已经有46亿年的历史,其中最早的地球生命出现在38亿年前。在这漫长的生命历史中,不断有物种消失,以及新的生命类型的出现。那么,在整个地球历史中,一共存在过多少物种呢?根据科学家的估算,这个数字是40亿!也就是说,如果要恢复生命演化的全部历史,我们就必须对所有现生的以及已经消失的物种进行全面的统计。对于这些已经消失的物种,只能通过它们留下来的化石记录来进行统计分析。比如三叶虫最后的化石记录发现于二叠纪末的沉积岩里,因此科学家就可以推测,三叶虫最终消失的时间是在2.5亿年前。
对化石记录开展的研究已有数百年历史,地质学家和古生物学家已经积累了海量的化石记录信息。对这样庞大的数据进行准确、可靠的分析,就必须利用大数据的手段。
上世纪70到80年代,美国芝加哥大学的演化古生物学家杰克·塞普柯普斯基教授,耗费十多年时间,收集了北美、欧洲等地的化石记录,构建了第一个较为完整的古生物数据库。这个数据库里,只有化石的分类名称,以及该种化石出现的时间以及消失的时间,虽然信息很简单,但是已经可以用来统计各个时段有多少种化石生物了。
地球历史很长,以亿年计。塞普柯普斯基的这项研究,时间精度或者说时间单位只能做到以千万年计,也就是说只能统计到每一千万年地球上生活过多少种生物。通过这个方法,他识别出过去6亿年的地球生物多样性的变化规律。这就相当于人类五千年历史中,统计出了每一百年的人口变化。在这个生物多样性变化曲线上,他识别出了五次显著的生物类群数目快速下降的事件,他称之为五大灭绝事件,代表了地球历史上最为重要的五次生命灾难。这项研究被誉为20世纪后半叶地球科学领域最为重要的发现之一。
后来的学者觉得这个数据库太简单,有必要建立一个更为庞大的数据库,收录种类更丰富的信息,不仅可以重新检验上述结果,还可以进一步揭示生命演化的机理、机制及其与地球环境变迁间的关系等。1998年,在美国国家自然科学基金委的支持下,一批美国与欧洲的古生物学家联合,发起了一个大型的古生物网络数据库项目。这个数据库的结构要复杂得多,不仅包含了上述化石的名称以及出现和消失的时间信息,还包括了产出化石的岩石信息、化石生物的地理位置信息、化石生物的生活状态信息等。利用这些数据,这些科学家在2008年重新计算了过去6亿年的地球生物多样性曲线,时间精度与上述曲线类似,也是一千万年。这一新曲线与塞普柯普斯基的曲线相比,既有相似的地方,但也存在一些不同的地方。这两条曲线,究竟哪条曲线更准确呢?如果我们重新回顾一下这两项研究,可以发现他们统计生物数目的时候时间单位是以千万年计,这个精度是很粗糙的,因此容易带入一些因为时间不准确导致的偏差。
数据、算法和算力创新
推动古生物时间分辨率大大提高
为了获得更加全面、可靠的古生物多样性曲线,需要实现三方面的突破,一是需要更加准确的海量化石记录,也就是古生物大数据的支撑;二是需要研发全新的算法,实现数据的有效计算与分析;三是需要强大的算力,从而可以在有限的时间里,比如数周内完成计算与分析。
文章来源:《大数据》 网址: http://www.dsjzz.cn/zonghexinwen/2021/0407/1916.html