从1992年到现在,我虽然积累了一百多万条和唐诗宋词有关的数据,但还不完备、不均衡。有的时段数据多,有的时段数据少;有的这一类数据多,那一类数据少;有的诗人数据多,有的诗人数据少。我们常感慨“书到用时方恨少”,数据更是这样。全方位分析唐诗宋词时,常常觉得数据不够用。
答:数据来源于我的老朋友尚永亮教授的两篇论文:《八代诗歌分布情形与发展态势的定量分析》和《唐知名诗人之层级分布与代群发展的定量分析》。
提到唐诗宋词的名家,人们习称“李杜”“苏辛”,似乎李优于杜、苏胜于辛。但综合影响指数表明,杜甫高于李白、辛弃疾强于苏轼。更令人意外的是,最受追捧的词人不是苏、辛而是周邦彦。在一百首和三百首宋词名篇中,周邦彦各占十五首和四十首,占有率远高于苏、辛。
答:用数据衡定的。我们用了多种数据,对唐代诗人影响力进行排名。白居易的影响力,在现当代大于古代。他的综合影响力,远不如李白、杜甫。
问:您在课题里提到,据统计,东汉到隋末近六百年,诗歌总共才五千余首,而到唐代,诗歌第一次超过万首并直接跨越到五万多首。唐诗比之前的八代诗增加了七倍多,诗人由六百余位增加到三千余位,诗人和诗作都达到前所未有的量级。这个数据从何而来,有参考哪些重要的文献资料吗?
(来源:北京青年报)
问:那您是如何利用大数据来衡量唐宋诗词质量的呢?这些数据是如何统计出来的?
在我看来,文学评价指标体系应该以作品为中心来建立。作家的影响力是以作品的影响力为前提。而作品评价,可分两个维度,一是相对稳定作品的内在文学价值,二是动态不居作品的外在影响力。其文学价值,可考虑从内容和形式两个层面来评估。
用大数据分析唐宋诗词,结论可能超出你的想象——唐代诗人中作品量居第一的白居易,影响力排在十名之外;宋词名篇中收录词作最多的不是苏轼、辛弃疾而是周邦彦;综合影响指数表明,杜甫高于李白、辛弃疾强于苏轼……
答:目前只能用大数据衡量唐诗宋词影响力的大小——包括对后代词人创作的吸引力,在后代词评家中的美誉度,在普通作者中的知名度等等。目前暂时还不能用数据测度唐诗宋词艺术含量和审美价值的高低。
答:大数据时代的文学数据,需要分类分层建立起文学史数据的指标体系,以确保数据的信度和效度。但目前用大数据来做唐诗宋词研究的学者不多,为学界共享的唐宋诗词大数据也相当有限。
问:《大数据里的唐宋诗词世界》课题的初衷是什么?
用客观的数据去衡量、分析颇为主观的诗词鉴赏,是否科学、能否可行?在接受北京青年报记者专访时,王兆鹏强调,虽然数据能在一定程度上描述显示文学史的发展面貌和进程,但也有明显的局限性。
数据无法测度艺术含量和审美价值高低
问:用大数据研究唐宋诗词有无遇到一些学术上的困难,又是如何克服的?
答:文学研究从来没有数据意识,困难不仅在于到哪儿去找数据,更在于找什么样的数据。究竟什么样的数据有用有效,既需要理论的支撑,也需要在实践中检验。理论上,我们不断探求,从统计学、计量信息学和计量历史学中去寻找理论和方法的启示;实践上,反复试验,失败了重来。最痛苦的是,数据库建好了,文章也写完了,忽然发现数据来源不全,只好从头补齐数据,写好的论文又推倒重来。
以上新发现,是国家社科基金重大项目“唐宋文学编年系地信息平台建设”首席专家、四川大学文学与新闻学院讲席教授王兆鹏分析所得。
问:那您通过大数据判定唐诗宋词质量的依据是什么?
问:关于文学指标体系,学界目前的研究现状怎样?
文学中心在北宋初就完全移到南方
唐诗是中国诗歌史上第一座高峰。唐代诗歌五万多首,诗人三千余位,诗人和诗作都达到前所未有的量级。宋代词人近一千五百位,词作超两万一千阕。
此外,我们还发现苏东坡词的创作高峰是在黄州,他三分之一的词是在贬谪黄州期间写的,他的名篇佳作一半是在黄州写的。比如宋词的第一名篇《念奴娇·赤壁怀古》就是在黄州写的。黄州成就了苏轼词作的辉煌。
答:唐宋诗词作品的质量,目前还没找到有效数据来评估、衡量。我目前正在努力尝试构建文学作品质量的评价指标体系,以便搜集数据。这需要比较长的过程。此外,个人建立的评价指标体系,需要学界的认同和共识。
文章来源:《大数据》 网址: http://www.dsjzz.cn/zonghexinwen/2022/0801/3483.html