唐诗宋词遇上大数据,用大数据研究唐诗宋词

唐诗宋词遇上大数据,用大数据研究唐诗宋词

大数据分析唐宋诗,结论可能是你想象中的——唐代诗人中作品量超过第一名白居易,影响力在第十名之外; 最受欢迎的词不是苏轼、辛弃疾,而是周邦彦。 综合影响指数显示,杜甫高于李白,辛弃疾强于苏轼……

综合影响指数杜甫最高

以上新发现由国家社科基金重大项目“唐宋文学编年系地信息平台建设”首席专家、四川大学文学新闻学院讲座教授王兆鹏进行分析。

唐诗是中国诗歌史上的第一个高峰。 唐代诗歌五万余首,诗人三千余人,诗人和诗作均达到前所未有的水平。 宋代词人近一千五百人,词作逾二万一千阕。

从个人诗人来看,唐诗宋词中谁的作品最多? 王兆鹏的大数据显示,白居易名列唐诗作品量首位,诗作近3000首杜甫和李白紧随其后,均超过千首大关。 宋词中辛弃疾词作量居首位,有六百余阕,其次为苏轼、刘辰翁。 宋诗数陆游称雄,约九千余首,其次为刘克庄和杨万里。

宋诗编数陆游称雄

综合影响指数排名显示,唐代诗人影响力居首的是杜甫,其次是李白、王维,作品量居首的白居易,影响力居前十。 宋代作品数量和影响力排名第一的是辛弃疾,苏轼和周邦彦分别位居第二、第三。 受宋诗影响力排名第一的是苏轼,作品量雄名列第一的陆游紧随其后。

说起唐诗宋词中的名家,人们常说“李杜”“苏辛”,李优胜杜,苏胜胜胜辛。 但综合影响指数显示,杜甫高于李白,辛弃疾强于苏轼。 更让人意外的是,最受欢迎的语言人不是苏辛,而是周邦彦。 在百首和三百首宋词名篇中,周邦彦分别占15首和40首,占有率远远高于苏、辛。

用客观数据衡量和分析非常主观的诗词鉴赏,是否科学、可行? 在接受北京青年报记者采访时,王兆鹏强调,数据可以在一定程度上描述文学史发展的面貌和过程,但也有明显的局限性。

宋词中辛弃疾的词作量位居第一

30年前开始研究,积累了数百万的数据

《大数据里的唐宋诗词世界》课题的初衷是什么?

答:我于1992年开始对唐宋诗进行定量分析。 初衷是每个人心中都有自己的唐宋诗名篇。 想用统计数据分析测定历史上哪个唐宋诗被认为是名篇。

问:那么,你是如何用大数据来衡量唐宋诗的质量的呢? 这些数据是怎么统计的?

答:唐宋诗歌作品的质量,目前还没有找到有效的数据来评价和衡量。 目前,我正在试图建立文学作品质量的评价指标体系,收集数据。 这需要一个相对较长的过程。 另外,个人建立的评价指标体系需要学术界的认同和共识。

问:关于文学指标体系,学术界目前的研究现状如何?

a )大数据时代的文学数据需要分类分层建立文学史数据指标体系,以确保数据的信度和效度。 但目前大数据研究唐诗宋词的学者很少,学术界共享的唐宋诗词大数据也相当有限。

从1992年至今,我积累了一百万多条唐诗宋词的相关数据,但还不完整、不均衡。 根据时间段数据多,根据时间段数据少的某种数据多,某种数据少; 有人诗人的数据很多,也有人很少。 我们经常感慨“书用时恨少”,数据更是如此。 全面分析唐诗宋词,往往觉得数据不够。

我认为文学评价指标体系应该以作品为中心来构建。 作家的影响力是以作品的影响力为前提的。 作品的评价可以分为相对稳定的作品的内在文学价值和非动态居住作品的外在影响力两个维度。 其文学价值可以考虑从内容和形式两个层面进行评价。

作品的影响力从创作者、评论家、普通读者三个层面来衡量。 一是对创作者的影响,包括引用、化用、模仿、改编、翻译等,体现作品的范型和魅力二是对评论家的评论和学者的研究,反映作品在文学批评、学术研究层面的美誉度和关注度三是读者之间的传阅度和认知度。 确定作品价值、影响的基本要素和结构后,建立计算模型,然后由计算机运行到相关库、语料库、网络,挖掘和提取相关数据,最后计算出每个作品的得分。

数据无法衡量艺术含量和审美价值的高低

问:我注意到你在课题中提到,据统计,东汉至隋末近600年,诗歌共有5000多首,而到唐代,诗歌首次超过万首直接达到5000多首,达到前所未有的高峰。 唐诗比过去的八代诗增加了七倍多,诗人从六百多人增加到三千多人,诗人和诗作都达到了前所未有的水平。 这个数据来自哪里,参考了哪些重要的文献资料?

a )数据来源于我的老朋友尚永亮教授的两篇论文。 是《八代诗歌分布情形与发展态势的定量分析》和《唐知名诗人之层级分布与代群发展的定量分析》。

问:白居易的诗歌数量最多,但影响力却在前十名之外。 这是怎么判定的?

a :用数据取得了平衡。 我们用了很多数据,对唐代诗人的影响力进行了排名。 白易的影响力在现代比古代大。 他的综合影响力远不及李白、杜甫。

问:那么,用大数据判定唐诗宋词质量的依据是什么? 用树形统计图支撑着吗?

A (还没有树状图,我试着努力。 目前,只能用大数据来衡量唐诗宋词影响力之大的——,包括后人词人创作的魅力、评论界对后代名词的美誉度、在普通作者中的知名度等。 目前,唐诗宋词艺术含量和审美价值的高低尚无法用数据来衡量。

苏东坡词的创作高峰在黄州时期

战争不是推动文化中心向南移动的唯一因素

问:大数据研究唐宋诗遇到过学术困难吗? 又是怎么克服的?

答:文学研究没有数据意识。 困难不仅仅是在哪里找数据,还有要找什么样的数据。 什么样的数据是有用有效的,既需要理论的支持,也需要实践的验证。 在理论上,我们不断探索,从统计学、计量信息学和计量历史学中寻找理论和方法的启示; 在实践中,反复试验和错误,以失败重新开始。 最痛苦的是数据库建成,文章刚写完,突然发现数据来源不全,不得不从头补充数据,把写好的论文又推倒重来。

问:在大数据的具体研究中,有什么新发现?

A )数据语义既能确证传统结论,又能修改传统结论,发现新问题,改变传统认知。 例如,中国文化地理有一个著名的结论。 中国文化的中心从北方中原向南方逐渐移动。 第一次南移是东晋永嘉之乱,第二次南移是唐代安史之乱,第三次南移是宋代靖康之乱。 三次战乱促使文化中心南移,靖康之乱后,文化中心完全南移。 我们的大数据显示,文学中心在北宋初完全向南方移动,南方作者数量全面超过北方,不必等到靖康之乱之后。 而且,战争并不是推动文化中心南移的唯一因素。

研究还发现宋代的文学中心逐渐向东南沿海移动。 根据今天的地市级行政区划,宋代福建南平作者人数最多,名列第一,福州位居第二,令人惊叹。 与此相关,宋代进士人数为福州第一、南平第二。 可见当时南平、福州教育发达,进士众多,诗词作者也很多。 教育与文学是高度正的相互关系。

研究还发现,苏东坡词创作高峰在黄州,他的三分之一词写于贬谪黄州时期,他的名篇佳作有一半写于黄州。 例如宋词的第一篇《念奴娇赤壁怀古》是在黄州写的。 黄州成就苏轼词藻辉煌。

文/北京青年报记者张恩杰

编辑/乔颖