凡科轻站小程序收费吗,初中毕业怎么样提升学历,设计微信小程序,网站建设任职研究人员用数据统计的方法来做文学研究 大数据与文学#xff0c;一个是理性工具#xff0c;一个是感性思维#xff0c;看起来似乎不沾边。但如今#xff0c;二者的联系却日渐紧密起来#xff0c;也由此引发了不少争议。 谁是最爱往外跑的诗人#xff1f; 唐宋时期最爱往外… 研究人员用数据统计的方法来做文学研究 大数据与文学一个是理性工具一个是感性思维看起来似乎不沾边。但如今二者的联系却日渐紧密起来也由此引发了不少争议。 谁是最爱往外跑的诗人 唐宋时期最爱往外跑的诗人是谁答案可能是苏轼。 打开“唐宋文学编年地图”点击苏轼的名字地图上立刻显示出密密麻麻的足迹西到雅安东到蓬莱、青浦北到定州南到海南南部的陵水。从青年时代开始苏轼的脚步就一直没停过在他58岁那年甚至一口气走了31个地方堪称中国古代一股“行走的力量”。 “苏轼一生的轨迹信息高达近万条遍布全国各地是我们录入信息最多的一位唐宋诗人。”“唐宋文学编年地图”的建立者、中南民族大学教授王兆鹏告诉《中国科学报》记者。 “唐宋文学编年地图”在今年3月上线是王兆鹏主持的国家社科基金重大项目“唐宋文学编年系地信息平台”的一个研究成果。这个电子地图的形成花费了五年的时间100多人的团队参与其中负责数据的整理编写融合了地理信息系统、测绘、计算机、文学等多个领域的内容。 目前这份地图已录入了100多位唐宋诗人的行迹信息范围北至蒙古乌兰巴托南至越南清化。点击任何一位诗人的名字地图上就会出现他一生的行走路线图再点击任一地点这位诗人在此创作的诗歌作品就会展示出来。如以地点或年份为关键词进行检索则会看到某地在某个时间段共有多少位诗人来过、留下了哪些作品。于是从地图上我们可以看到李白出生于西域碎叶城今吉尔吉斯斯坦托克马克市王维出生于晋中12岁的孟浩然在襄阳居乡读书45岁的宋之问则从郑州来到洛阳又到西安写下了多首诗作。“这张地图的最大亮点就是打通了时空维度。”王兆鹏说。 地图上线后火爆程度让王兆鹏大吃一惊他没想到这样一份文学地图引起了大众这么多关注。“本来项目是年底结题我们还没着急没想到一下子火了上线第一天的点击量超过了100万两天就到了220万。大家一直在问为什么没有某某诗人所以我们现在必须要加班加点尽快将所有诗人的信息传上去。”王兆鹏说。 用大量数据来展现唐宋诗人的故事不仅有文学专业的教授在做。今年3月一篇名为《计算机告诉你唐朝诗人的关系到底是什么样的》的文章刷爆朋友圈很快达到了10万 的阅读量。这篇文章来自一位普通的程序员“前进四先生”之手发布于他的个人微信公众号“前进日志”中。 在对四万多首唐诗进行了数据整理后“前进四先生”发现在唐朝两位关系最好的诗人不是李白和杜甫也不是白居易和元稹而是陆龟蒙和皮日休。这两位诗人互相提到对方的次数都在百次以上中国文学史上的第一本唱和诗集《松陵集》也是他俩的作品。从排名前30的引用关系来看白居易绝对是唐朝诗人朋友圈中的明星。 大数据与小阅读 用数据统计的方法来做文学研究王兆鹏早在1992年就开始了。“当时我是系里主管研究生工作的副主任偶然一次机会在杂志上看到一篇定量分析研究生学位教育的文章我就想古代文学史的研究能不能也用定量分析的方法来做。后来我写了一篇文章《宋代词人历史地位的分析》就是用量化数据来描述词人的地位比如什么叫地位很高、比较高或一般。从那时起我就开始了这个领域的研究。”王兆鹏介绍说。 在国外也有展现中国历代人物生平资料的数据库比如由哈佛大学、北京大学、台湾“中研院”合作开发的CBDB数据库通过字号、亲属关系、生卒年份等数据展现人物的社会关系网。 对于大数据手段与文学研究的关系在华东师范大学教授金雯看来使用电脑算法来分析文本不是让电脑复制人脑的功能或者更大规模地完成人脑擅长的任务。人脑和电脑在阅读文本的时候所用的方法和关注的重点不一样读出来的东西也可能截然不同。不过人脑和电脑在阅读阐释文字的时候也往往可以互为体用、互补短长文学大数据分析和学者个人的“小阅读”之间存在着许多交融和合作的可能。正因为如此借助电脑进行文本分析是近年来不断升温的“数字人文”的一个重要分支。 几年前王兆鹏利用数据分析进行过另一项研究——唐诗宋词排行榜曾招来过不少争议。 2011年王兆鹏出版了《唐诗排行榜》一书运用统计学方法得出了唐诗前100名排行榜排在榜首的是崔颢的《黄鹤楼》其次是王之涣的《凉州词》、杜甫的《登高》、王之涣的《登鹳雀楼》和张继《枫桥夜泊》等被大众熟知的陈子昂的《登幽州台歌》等诗作则名落孙山。2012年他又出版了《宋词排行榜》将《念奴娇·赤壁怀古》列为宋词第一名。 “这是通过对历代选本、评点、论文、网络链接总数等指标综合计算而来的。”王兆鹏说自己的数据采集分为三个方面一是作家数据包括生卒年月、创作起始时间、出生地、去世地、活动地点和在社会上扮演的身份等二是作品数据即作品的分类、版本、编年、系地等三是读者数据包括普通型读者、专家型读者和作家型读者三项。 两本书出版后立刻有人质疑“对古典文学的艺术鉴赏也能列排行榜”“甚至有人说是不是因为你是湖北人所以把唐诗宋词第一名都给了写湖北的”王兆鹏说。但在他看来这两个排行榜是将现代科学手段引入到古典文学作品的研究赏析中的尝试是严肃的学术研究。“而且我评价的不是一首诗的好坏而是评价它的影响力和知名度。” 但在中国科学院数学与系统科学研究院研究员安鸿志看来“影响力”仍然是个模糊的指标。“要给唐诗宋词做排名目的不同指标不同得出的结论就可能会截然不同。如果我们要办的是跑步比赛首先就要确定跑一万米还是一百米男子还是女子个人还是接力一旦确立指标比如男性100米个人短跑那么世界第一就是唯一解。可是对于唐诗宋词会有唯一解吗同样是看影响力如果指标是‘哪首唐诗被现代人记住的最多’那有可能是《静夜思》如果把指标设为‘哪些诗句在日常生活中使用频率最高’答案又可能会是‘粒粒皆辛苦’。话说回来没有唯一解就不能去研究吗”安鸿志说“当然也不是这项研究是有价值的。但你要承认指标不唯一得出的结论也不唯一这才是科学方法、科学态度、科学结论。” 正确利用大数据技术 在王兆鹏看来哪首诗词排第一名倒也在其次这些诗词为何能从古至今一直为人们所熟知这其中有何传播规律更能引起他的兴趣。 “比如除了诗本身之外故事对作品的传播有着非常重要的助推力。”王兆鹏解释说“崔颢的《黄鹤楼》在古代非常有名为什么一个重要原因是李白很欣赏。李白到黄鹤楼后想写一首诗后来因为 ‘崔颢题诗在上头’便搁笔未写。这在宋代还成了一句俗语 ‘莫因崔颢不题诗’。所以历代唐诗选本没有不选《黄鹤楼》的。王之涣的《凉州词》也有 ‘旗亭画壁’的故事流传至今。” 此外这些唐诗宋词大数据还能告诉我们一些其他的信息。“一般认为北宋王朝的毁灭代表了中国经济文化重心南移的真正分野。但通过大数据我们可以看到中国诗坛重心的南移始于晚唐五代完成于北宋。唐宋诗歌版图南移的时间和社会经济重心南移的时间并不完全一致这打破了我们一些固有观点。”王兆鹏说。 通过数据整理王兆鹏还统计出唐宋诗人创作的优秀作品大多是在落后地区完成的在失意受贬谪的地区更可能诞生名篇。“而且优秀作品的作者大多不是本地人。比如黄州、惠州打名片爱说苏轼可苏轼是四川人写黄鹤楼那么多名篇可没有一个人是湖北人写的。” 王兆鹏正在做着更多探索。他计划将更多历史信息融入到现有的电子地图中去比如某年哪些人中了进士、哪些人做了官、他们之间有何相互影响等。“数字技术正在改变我们观察文学、思考文学的方式。以前由于纸本的局限我们每次只能看一位人物或一个时期。现在利用信息技术我们可以把大大小小的人物同时放在一个舞台上就像把树与树之间隔着的围墙打破后展现出一片森林一样把历史的一个个横截面完整地呈现出来。” “大数据技术作为人类认识客观世界的一种工具给我们带来的进步是难以想象的。从研究者的角度来说以前我们要到图书馆去查阅很多资料现在只要坐在屋子里摆上一台电脑连接上网络海量的资料就送到了眼前。”安鸿志说“大数据资料既可影印又可编辑我们可以从中查询关键词提取信息进而进行修改、识别、对比。大数据技术是时代的象征各行各业都要适应这个潮流在文史哲研究领域当然也是如此。” 安鸿志同时也强调大数据技术是客观的但一旦有人使用它达到某种目的、得出某种结论时就有了主观性涉及到方法、目的以及表达等问题。“在这个时代谁往大数据库中‘增砖添瓦’都是一种贡献但对得出的结论要慎重。你也可以对某位研究者得出的结论提出质疑但不能将其归罪于大数据技术。这两件事情要分清。” 转载于:https://www.cnblogs.com/amengduo/p/9586922.html