用计量风格学方法考察《水浒传》的作者争议问题——以罗贯中《平妖传》为参照

宋 丽,刘 颖,马艳军

(1. 清华大学 人文学院 中国语言文学系,北京 100084;
2. 北京百度网讯科技有限公司,北京 100085)

《水浒传》是我国古典长篇小说四大名著之一,讲的是北宋宣和年间,一众好汉聚义梁山泊反抗欺压,后被朝廷招安,为国征战,损兵折将,最终消亡的故事。然而《水浒传》的作者究竟是谁众说纷纭,施耐庵与罗贯中是否为同一人也尚无定论。温庆新[1]根据多项研究成果指出,明代人关于《水浒传》的作者主要有三种代表性意见,分别为施耐庵作、罗贯中作、施罗合作。现代文学界也围绕《水浒传》的作者身份展开了大量研究。刘冬[2]、洪东流[3]等认为施耐庵就是兴化人施彦端;
王晓家[4]、顾文若和焦中栋[5]等认为施耐庵是罗贯中为避文祸而取的托名;
罗尔纲[6]从赞词、叙事、对待人民大众的态度等三方面对《水浒传》百回本和罗贯中《三遂平妖传》(即《平妖传》二十回本)进行对勘,得出《水浒传》前70回为罗贯中一人所著,后30回为他人续加的结论;
吕乃岩[7]通过将《水浒传》后半部分与罗贯中的其他作品相对照,得出《水浒传》前半部分为施耐庵所作,后半部分为罗贯中续加的结论;
文献[8-10]认为《水浒传》是施耐庵作底本,罗贯中改写而成的。这些研究大多是从文献学、历史学的角度展开的,或多或少会存在主观性和疏漏,本文则利用统计学原理和计算机技术抽取文本特征,采用计量风格学的多种方法对《水浒传》的写作风格进行考察,试图为《水浒传》的作者身份认定提供一些参考。

由于《平妖传》是罗贯中所作的另一部著名小说(1)由于罗贯中的其他作品目前还没有高质量的人工标注文本,且现有的自动分析工具遵循的分词和词性标注标准与本文使用的台湾中央研究院近代汉语标记语料库并不完全相符,无法通过自动分析直接进行量化对比,故本文仅选取《平妖传》为参照文本。另外,由于施耐庵的真实身份、生卒年代尚无定论,故本文选取参照作品时忽略时代因素。对于其他相关作品的分析将在后续研究中进一步展开。(或为冯梦龙增补,下文将对其版本问题加以说明),可以用其考察罗贯中与《水浒传》之间的关系,而施耐庵除《水浒传》外并无其他传世之作,故本文以罗贯中的《平妖传》为参照,将《水浒传》的作者身份粗略地划分为以下五种情况:

(1) 施耐庵作

施耐庵与罗贯中并非同一人,《水浒传》为施耐庵一人独作,即《水浒传》和《平妖传》分别为两人所作,《水浒传》全书的写作风格应保持一致,且与《平妖传》不同。

(2) 罗贯中作

施耐庵是罗贯中的托名,《水浒传》为罗贯中一人独作,即《水浒传》和《平妖传》为同一人所作,《水浒传》全书的写作风格应保持一致,且由于两部小说题材不同,故《水浒传》的写作风格会与《平妖传》有所差异。

(3) 施作罗续

施耐庵与罗贯中并非同一人,《水浒传》前半部分为施耐庵所作,后半部分为罗贯中续写,即《水浒传》后半部分的作者与《平妖传》为同一人,写作风格应较为相近,且与《水浒传》前半部分有所差别。

(4) 罗作他续

施耐庵是罗贯中的托名,《水浒传》前半部分为罗贯中所作,后半部分为不知名的他人续写,即《水浒传》前半部分的作者与《平妖传》为同一人,写作风格应较为相近,且与《水浒传》后半部分有所差别。

(5) 施作罗改

施耐庵与罗贯中并非同一人,《水浒传》底本由施耐庵所作,后罗贯中对全书进行了修改润色,但修改比重不详。也就是说《平妖传》的作者对《水浒传》进行了修改,使得《水浒传》的写作风格与《平妖传》有相似之处,但具体对哪些部分进行了修改,以及修改的篇幅则有待考察。

《水浒传》自传世以来出现了多种版本,据《水浒书录》[11]可知,明刊本有25种,清刊本有47种。这些版本可大体分为繁本和简本两个系统,且文学界对繁本更为重视。繁本系统主要包括七十回本、百回本和百二十回本三种规模,每种规模又包括若干个版本。从大体上说,这三种规模的版本是内容依次增加的关系,七十回本的内容与百二十回本中的前七十回基本一致,写到分封一百单八将为止;
百回本在七十回本的基础上增加了接受招安、抗击辽国军队和剿灭方腊义军的故事;
百二十回本又在百回本征方腊的情节之前增加了剿灭王庆和田虎所率领的起义队伍的故事,百二十回本中较为通行的是袁无涯本。《平妖传》有二十回本和四十回本两个版本,且它们分别有多种刻本,作者问题也存在一定争议:
孙楷第[12]等认为二十回本是罗贯中的原著,而四十回本为冯梦龙增补(这种观点较为流行);
欧阳健[13]等认为四十回本是罗贯中原著,而二十回本是其删节本,等等。尽管如此,罗贯中是《平妖传》的主要作者这一观点几乎得到公认,也就是说无论哪个版本,《平妖传》中必然会体现出罗贯中的写作风格。由于受时代所限,近代汉语小说在版本方面大多都存在有待考证的问题,难以避免,且版本的考证问题并非本文的重点,故本文仅以内容最为完整且最为通行的《水浒传》繁本百二十回本中的袁无涯本、《平妖传》四十回本中的嘉会堂本为研究对象,运用计量语言学的研究手段,对《水浒传》的写作风格进行考察,从而推测以上五种作者身份情况的可能性大小。

由于《水浒传》作者身份争议较大的部分主要体现在前70回与后50回的差异,所以本文以70回结尾为界,将《水浒传》分为两部分。为方便阐述,下文分别用“SHZa”“SHZb”和“PYZ”代指三个待考察总体,SHZa中包含70个样本,即《水浒传》的前70回;
SHZb中包含50个样本,即《水浒传》的后50回;
PYZ中包含40个样本,即《平妖传》的全40回。另外,使用Diff(X,Y)表示两个总体之间的差异程度,如Diff(SHZa,SHZb)表示SHZa和SHZb之间的差异程度。上述五种作者身份的情况可简单总结为表1。

表1 《水浒传》作者的主要争议情况归纳

两部小说的电子文本均来源于台湾“中央研究院”近代汉语标记语料库(2)http://lingcorpus.iis.sinica.edu.tw/cgi-bin/kiwi/pkiwi/kiwi.sh?ukey=-1316487165&qtype=0,语料均已进行了人工分词和词性标注,质量较高,且均为繁体中文(该语料库中使用的词类标记共计59个,排除标题、外文标记、被解释的字、记录者姓名,以及两部小说中均未出现的引述句这5项,本文考察的词类共计54项,其中虚词13项,实词41项)。由于古代汉语使用句读进行断句,数字化古籍中的标点符号都是由古籍整理人员根据现代汉语标点规范人为增添的,因此下文中提及的所有统计数据和文本特征均不考虑标点。两部小说的基本统计数据见表2。

表2 两部小说的基本统计数据(不含标点)

关于文本特征,一方面,本文提取了作者身份识别任务中较为常用,且已在多项实验中被验证有效的能够体现作者写作风格的特征,包括语法单元的长度、虚词、词类等。另一方面,虽然文本中实词的相关特征通常用于考察文本内容和主题,但也有不少学者从用词情况、对人物形象的塑造等角度来分析《水浒传》的作者[8, 10, 14],可见考察《水浒传》的作者身份不能完全不考虑实词。为避免与内容高度相关的特征对作者身份判定造成影响,本文只补充提取在三个总体中均出现的高频实词Top500的词频作为特征。提取的特征共计1 808个,如表3所示。

表3 提取的特征及其数量

首先使用假设检验和聚类分析的方法对“施耐庵作”“罗贯中作”和“施作罗续”这三种情况的可能性进行考察。

2.1 假设检验

假设检验(3)假设检验的具体方法参见文献[15]。可用于考察不同总体之间是否存在显著差异。由于本文考察的三个总体的样本量不大且不相等,为避免数据分布和方差的差异对假设检验结果造成影响,本文先针对每个特征,分别对三个总体做Shapiro-Wilk检验(适用于样本量小于2 000时的正态性检验)[15]和Levene方差齐性检验[16],抽取出了在三个总体中均服从正态分布(显著性水平α= 0.05(4)统计学上一般把概率≤0.05的事件称为小概率事件。,下同)且满足方差齐性的特征56个(包括高频实词“去”、虚词“了”、词类VC(动作及物动词)、平均小句长等)。然后,分别针对这56个特征,对SHZa、SHZb和PYZ这三个总体做单因素方差分析(可用于考察多个正态总体的均值之间差异是否显著,仅涉及一个变量),结果显示三个总体在47个方面存在显著差异。为进一步确认显著差异存在于哪几组数据之间,还利用LSD检验法[17]进行了多重比较,得到了每两个总体中有显著差异的特征的数量,见表4(最小数量加粗,下同)。

表4 每两个总体中差异显著的特征数量对比

针对余下特征,对三个总体做Kruskal-WallisH检验(5)有学者将Kruskal-Wallis H检验称作单因素方差分析的非参数方法。(通过秩和均值来考察多个总体差异是否显著,不依赖总体的分布,仅涉及一个变量。以下简称K-W检验)[18],结果显示三个总体在1 227个方面存在显著差异,进一步做多重比较[19],每两个总体中有显著差异的特征数量见表4。

观察表4可知,在被实施多重比较的特征中,不论是进行LSD检验,还是进行K-W多重检验,《水浒传》前70回与《平妖传》呈现显著差异的特征数量都是最少的,也就是说与其他两组相比,它们在较少的方面存在差异。众所周知,这两部小说的题材不同(《水浒传》为英雄传奇小说,《平妖传》为神魔小说),但多重比较结果却显示出自同一部小说的《水浒传》前70回和后50回之间的差异程度较大,与《水浒传》后50回和《平妖传》的差异特征数量接近,反而是分别出自不同题材的两部小说的《水浒传》前70回和《平妖传》差异程度较小。

2.2 文本聚类

K均值聚类以k为输入参数,把n个对象的集合分为k个簇。本文指定k=2(即分为两类),文本之间的相似度使用欧氏距离计算。分类结果见表5(数字加粗表示被分到相应类别的章回数较多)。由于样本数据处于一个高维空间中,K均值聚类的结果难以用平面图表示,所以采用主成分分析法(Principal Component Analysis,PCA)[20]进行维数约减,提取了最重要的两个主成分(保留的信息量分别为0.11和0.05),将结果映射到二维平面,做散点图1。从图中可见,160个样本明显被分为了两类,也就是说仅0.16的信息量值可得到近似线性二分的结果。

图1 两部小说各章回的K均值聚类结果(主成分Top2)

层次聚类将数据对象组成一棵聚类树,无须指定类别数量。本文用欧氏距离计算文本之间的相似度,用离差平方和计算类与类之间的相异度。聚类结果见图2,其中横坐标为各章回编号,纵坐标为文本之间的相似度。以150为界做一条横线,可将160个样本分为两类,类别内部的欧氏距离均小于150,而两个类别之间的欧氏距离超过了200。各章回的具体分类情况见表5。

图2 两部小说各章回的层次聚类结果

表5 三个总体中各章回的聚类结果详情

观察K均值聚类和层次聚类的结果,发现《水浒传》前70回和《平妖传》中的大部分文本都聚在了同一类,而《水浒传》后50回中的大部分文本则聚在了另一类,这说明三个总体中,《水浒传》前70回和《平妖传》之间的差异程度最小,与第2.1节中假设检验的结果相符。

假设检验和聚类分析的结果都显示Diff(SHZa,SHZb)、Diff(SHZa,PYZ)、Diff(SHZb,PYZ)中值最小的应为Diff(SHZa,PYZ)。然而根据表1可知,若《水浒传》为“施耐庵作”或“罗贯中作”,则Diff(SHZa,SHZb)应最小;
而若是“施作罗续”,则Diff(SHZb,PYZ)应最小,据此可推断,“施耐庵作”“罗贯中作”和“施作罗续”这三种情况的可能性小。

由第2节可知,SHZa、SHZb、PYZ这三个总体之间差异程度最小的应为SHZa和PYZ,这一结果与“罗作他续”相匹配。为进一步验证这一情况,本文利用文本分类方法支持向量机(Support Vector Machine,SVM)[21],从作者身份归属(Authorship Attribution,即判断待分类文本的作者是已知作者中的哪一个)和作者身份验证(Authorship Verification,即判断待分类文本的作者与已知作者是否为同一人)两个角度对上述三个总体加以考察。

3.1 作者身份归属

从作者身份归属的角度出发,假定《水浒传》前70回为罗贯中所作,后50回为另一不知名作者所作,考察《平妖传》中的各章回被分类到《水浒传》前70回和后50回的可能性大小。也就是说,假定SHZa和SHZb中的样本被分为不同的两类,用SVM考察PYZ中的各样本被分到这两类的可能性。由于SHZa和SHZb中的样本数量不均衡(70 vs. 50),故在实际操作时,随机剔除SHZa中的20个样本进行训练,重复10次,以最终输出的概率均值为预测结果,作堆积柱状图,如图3所示。图中横坐标为PYZ中各章回的编号,纵坐标为概率值,每一章回被分到SHZa和SHZb的概率值之和都为1。

图3 《平妖传》中各章回被分类到《水浒传》前70回和后50回的可能性

虽然总体看来,PYZ中的文本被分类到SHZa和SHZb的概率大致相当,但若除去开头和结尾的几个章回,则更多地被分到SHZa中。研究《平妖传》的多数学者认为其二十回本为罗贯中所作,而四十回本是冯梦龙增补而成。谭红[22]从多方面对这两个版本进行了细致的对比分析,综合其分析结果可知,与二十回本相比,人物方面,四十回本中新增的人物(如九天玄女、白猿神)和对原有人物(如王则、蛋子和尚)的改写大多出现于开篇第1回和结尾第37~40回;
情节方面,四十回本新增和大幅扩充的内容主要出现在第1~18,34~40回。也就是说,中间的章回,尤其是第19~33回基本保留了罗贯中二十回本的原貌。这一结论与图3的结果高度匹配,可见《平妖传》中保留的罗贯中的写作风格与《水浒传》前70回很相近,所以《平妖传》与《水浒传》前70回的作者很可能都是罗贯中,这说明“施耐庵”可能只是罗贯中的一个托名,而《水浒传》前后写作风格差异大,后半部分可能是由他人续写。这一结果支持了“罗作他续”的说法。

3.2 作者身份验证

Koppel & Schler[23]指出,由于主题、体裁、写作目的、写作年代等因素的变化,甚至出于掩饰身份的目的,同一个作者所作的不同作品在少量特征方面会有明显不同。也就是说,这些特征对作者身份的验证造成了困难。为了解决这种困难,他们提出了“揭露(Unmasking)算法”,其思路为将作者身份已知的文本和作者身份未知的文本拆分为多个组块,并假定它们分属不同的两类,不断删除对区分这两类文本最有用的特征,测量交叉验证时分类正确率下降的速度,若下降速度快,则表示两个文本难以区分,即作者为同一人,反之则作者并非同一人。在验证小说TheHouseofSevenGables的作者身份时,揭露算法在三位候选作者中明确选中了正确的作者Hawthorne(8)将The House of Seven Gables与其他作者的作品比较时,正确率下降缓慢,而与Hawthorne的作品比较时,正确率下降迅速。。Bevendorff 等[24]通过改变生成组块的方式,打破对组块长度的要求,将揭露算法引入了对短文本的作者身份验证任务中,也取得了与目前高性能算法相当的效果。本文参考揭露算法的思路,以小说章回为文本的自然组块,进行了如下实验:

迭代50次{

步骤①:
对总体A和B,假定它们的作者并非同一人(即分属两个不同类别),利用LinearSVM模型训练分类器,做10折交叉验证,计算平均正确率

步骤②:
去掉步骤①训练出的分类器中权重最高的5个特征和权重最低的5个特征

步骤③:
回到步骤①

}

图4 揭露算法的分类正确率变化情况

分别设A=SHZa,B=PYZ;
A=SHZb,B=PYZ,各进行一次实验(9)由于该实验主要关注的是删除特征后分类正确率的变化速度,所以并未对两类样本数量的不均衡做额外处理。,将50次的分类正确率做折线图,如图4所示。横坐标为迭代次数,纵坐标为交叉验证后的平均分类正确率。从图中可以很直观地看出,SHZa vs. PYZ的分类正确率的下降速度明显比SHZb vs. PYZ快,也就是说,《水浒传》前70回和《平妖传》的作者为同一人的可能性大,而《水浒传》后50回和《平妖传》的作者为同一人的可能性较小。这一结果也支持“罗作他续”的说法。

3.3 对诗词的补充分析

由于本文所考察的文本数据中的诗词均被剔除,也就是说上述统计数据并未能覆盖小说中诗词部分的信息,所以需对两部小说中的诗句、赞词等内容进行补充分析。罗尔纲[6]曾对《水浒传》百回本和《平妖传》二十回本中的赞词进行对勘,发现《平妖传》二十回本中有13处赞词被直接或经改写后插入了《水浒传》百回本的前70回中(插入15处)。这些赞词均被相应地保留在了《水浒传》百二十回本和《平妖传》四十回本中。此外,本文还通过字符串比对(10)诗词比对选用的是简体版文本。,在两部小说中找到了另外9处或长或短的相似诗词,例如《水浒传》第41回描写众好汉火烧黄文炳家的场景时用了一句“骊山顶上,多应褒姒戏诸侯;
赤壁坡前,有若周瑜施妙计。”《平妖传》第18回描写胡员外家解库起火的场景时用了一句“骊山顶上,料应褒姒逞英雄。扬子江头,不若周郎施妙计。”这两句话的句式、用词、内容都很相似,只改动了个别字词(相同的字词加粗)。

表6罗列了两部小说中24处相似的诗词以及它们各自的章回信息(受篇幅所限,只摘录部分相似内容)。其中仅有6处出自《水浒传》后50回,其他全都出自《水浒传》前70回。可见,《水浒传》前70回和《平妖传》中的诗词有较高的相似度,这进一步佐证了SHZa和PYZ很可能是出自同一人之手。当然,不可否认的是,诗词的相似度高也有可能是因为不同作者挪用并改写,这有待进一步考证。

表6 两部小说中的相似诗词及其所在章回

续表

商韬和陈年希[25]指出,宋元以来的许多话本小说和章回小说往往不是个人的独立创作,而是时代积累型的集体创作。所以仅凭上述分析,不能直接断定“施耐庵”只是罗贯中的一个托名,《水浒传》是罗作他续。或许《水浒传》也并非一人独著或有人续写,而是一部集体创作的作品,而且无法区分各章回分别由谁所写。接下来,本文假定《水浒传》的确符合第五种情况“施作罗改”,引入波动风格计量的方法对二位作者的风格比重加以分析。

波动风格计量(Rolling Stylometry)是由Eder提出的一种考察合作型文本的文体特征或写作风格的方法,其将有监督的机器学习分类方法与序列分析相结合。Eder[26]指出线性序列中元素的顺序与元素本身同样重要,文本中连续的部分可以体现风格特征的线性发展。这一思想最早被应用于语言学是1913年Markov[27](11)该篇论文成文于1913年,2006年由Science in Context期刊出版。提出的马尔科夫链(Markov chains),只不过马尔科夫链的滑动窗口只包含连续的几个字符,而波动风格计量方法的滑动窗口则包含连续的上百或上千个词,其目的在于从文本中生成一连串含有重叠内容、前后相互关联的虚拟子样本,从而可以使用有监督的机器学习分类方法测试它们在整个文本中的风格一致性。与传统的方法相比,波动风格计量分析方法打破了文本中预设的界线,如章回、段落等,转而对一系列连续的、长度相等且包含重叠成分的样本进行分类,因此可以用于考察合作型文本中不同作者各自的贡献份额的变化情况。图5是该方法抽取子样本的示意图,其中k表示每个子样本包含的词数,d表示连续两个子样本中重叠的内容长度。Plech[28]利用Shakespeare和Fletcher的各4部剧作,以500个高频节奏类型和500个高频词为特征,测试了这种方法的有效性(12)与Eder[28]不同的是,Plech[30]设置的滑动窗口以剧作的台词(line)为单位,而非单个词。,结果显示,在Shakespeare的剧作中,Fletcher的贡献程度都非常低,反之亦然,若根据概率值大小判断作者身份,正确率则高达0.997 7,可见波动风格计量分析方法对作者贡献程度的度量具有较高的有效性。

图5 波动风格计量方法抽取子样本的示意图(13)截取自文献[28]。

本文考察的《水浒传》的作者身份的第五种情况是“施作罗改”,其蕴涵为施耐庵与罗贯中并非同一人。由于除《水浒传》以外,施耐庵并没有其他传世之作,所以无法选用其他作品作为施耐庵的训练集。综合持“施作罗改”观点的多位学者的分析,他们虽然对施耐庵和罗贯中对《水浒传》的具体贡献各持己见,但几乎都认为施耐庵的底本主要是以宋江的故事为主线,罗贯中在前期保留了与宋江有关的主要情节,即约为后人总结的“宋十回”(第33~42回)。从第2.2节聚类分析的结果可知,这些章回也的确被聚在了同一类。所以,本文提取“宋十回”覆盖的97个样本作为施耐庵的训练样本,以《平妖传》的284个样本作为罗贯中的训练样本,用波动风格计量的方法对《水浒传》全书进行测试。

从图6中可见,在假定《水浒传》是“施作罗改”的前提下,波动风格计量方法的测试结果的确显示《水浒传》全书中,二者的风格占比存在明显的波动。但是,除了本就被选为施耐庵训练样本的部分,其余部分的黑色曲线大多落在了罗贯中的区域,约第1~32,43~46,52~56,60~110,117~120回,也就是这些部分都主要由罗贯中所写。罗贯中对《水浒传》的贡献度很高,且显然远超施耐庵,由此可以推测,“施作罗改”的可能性较小,即使真的存在所谓施耐庵的底本,在经过罗贯中的改写后,也已经基本不复原貌。

图6 《水浒传》作者身份识别的波动风格计量测试结果

由于事先已做了“施作罗改”的假定,且没有施耐庵的其他作品作参照,所以同样还需进一步结合文献学和历史学的知识对该测试结果加以考证。下面结合波动风格计量的测试结果与《水浒传》的文本内容,就相关研究成果中的部分观点加以比对分析:

(1) 侯会[29]、杨林[8]认为《水浒传》开篇关于鲁智深、林冲等人的故事(即第1~13回)和描写武松的“武十回”(从第23回武松打虎开始,到第32回武行者醉打孔亮结束)这些与宋江的故事毫无联系的内容均为罗贯中增补。波动风格计量的测试结果显示,前32回都应主要出自罗贯中之手,所以该观点仅与测试结果部分相符。

(2) 李永祜[10]认为杨志押运生辰纲(第16回)是施耐庵重点描写的内容;
宋江私放晁盖、杀掉阎婆惜后逃亡避难(分别在第18、21~22回)等情节均出自施耐庵之手;
第72回柴进潜入宫禁,在睿思殿看到素面屏风的场景是施耐庵根据自己的真实经历模仿的;
而宋江率军队征讨辽国(第83~89回)的故事是罗贯中设计出的鲁智深经历的重要关节。波动风格计量的测试结果显示,第16、18、21、22、72、83~89回均主要为罗贯中所作,所以这几个观点中只有征辽情节由罗贯中设计这一个观点与测试结果相符。

(3) 孟繁仁[30]、宣啸东[31]等认为“征田虎”部分的人物许贯忠是罗贯中在修改施耐庵创作的底本时创作出的自己的虚像,也就是说关于许贯忠的内容均是由罗贯中主笔撰写。原著中许贯忠于第90回作为燕青巧遇的故交出场,带他到家中做客,提醒他功成名就之时要及时抽身,送他画作,着墨较多,第91、94回也对许贯忠有所提及。波动风格计量的测试结果显示,罗贯中对第90~94回的改动的确较大,所以该观点与测试结果相符。

(4) 杨林[8]认为宋江等人平方腊有功,升官受赏是施耐庵底本的结局,而他们功成名就之后被害死的情节并非出自施耐庵之手,而是罗贯中在元、明朝代更迭之际看到乱世的残酷现实后所增益的内容。原著中征方腊的情节从第110回开始,到第119回以宋军平定方腊叛乱,梁山好汉得到封赏,宋江衣锦还乡结束,而宋江、卢俊义等人被蔡京、高俅等奸臣迫害致死的情节出现在第120回。波动风格计量的测试结果显示,罗贯中对第120回的改动的确较大,对第111~116回的改动较小,所以该观点与测试结果部分相符。

总的来说,波动风格计量分析的结果仅与“施作罗改”的少数观点相符,其他观点诸如施耐庵集撰了前人所作的水浒故事,罗贯中删去了施耐庵底本的一些内容等,仅仅基于本文的测试结果无法得到验证,有待进一步考察。

本文以《水浒传》的作者身份为研究对象,根据前人研究将《水浒传》的作者争议粗略地归纳为施耐庵作、罗贯中作、施作罗续、罗作他续、施作罗改等五种情况,以罗贯中的另一部小说《平妖传》为参考,利用统计学原理和计算机技术对文本特征进行抽取,采用计量风格学的多种方法对《水浒传》的写作风格进行考察,试图为《水浒传》的作者身份认定提供参考。

首先通过假设检验、K均值聚类和层次聚类发现,在《水浒传》前70回、《水浒传》后50回、《平妖传》这三个总体中,《水浒传》前70回和《平妖传》的写作风格之间差异最小,从而得出结论:
《水浒传》为施耐庵作、罗贯中作、施作罗续的可能性小,而罗作他续的可能性大。然后,从作者身份归属和作者身份验证两个角度出发,利用文本分类方法SVM,结合对两部小说中相似诗词的补充分析,进一步验证了罗作他续可能性大这一结论,这或许可以为“施耐庵是罗贯中的化名”这一观点提供佐证。此外,还采用波动风格计量的方法对施作罗改的情况加以考察,测试结果显示,“施作罗改”的可能性也较小,即使的确存在施耐庵的底本,罗贯中的改写也已使其基本不复原貌,通过与原著内容的比对可知测试结果仅与施作罗改的少数观点相符。综合而言,《水浒传》作者争议的五种情况中只有罗作他续可能性大,其他四种情况可能性都较小。

由于施耐庵与罗贯中究竟是什么关系这一问题尚无定论,而本文在采用有监督的机器学习分类方法时对施耐庵的身份做了假定,而且本文尚未考察“罗作他续”中“他”的身份,所以未来还需进一步结合文献学和历史学的知识对分类结果的可靠性加以考证,并探究罗作他续中“他”的身份。此外,未来还需进一步结合《水浒传》和《平妖传》的文本内容对本文的计量结果加以分析。

猜你喜欢 罗贯中施耐庵水浒传 读《水浒传》,看北宋社会风俗金桥(2019年12期)2019-08-13施耐庵巧用对联治病祝您健康·文摘版(2019年2期)2019-06-11半斤八两故事作文·低年级(2017年12期)2017-12-13剑胆琴心向《三国》湖海·文学版(2015年4期)2016-01-28罗贯中与施耐庵(下)小雪花·成长指南(2014年9期)2014-10-20罗贯中与施耐庵(上)小雪花·成长指南(2014年8期)2014-08-26罗贯中写《三国》趣事多作文周刊·小学六年级版(2014年1期)2014-06-04《水浒传》绰号中智能文化的解读世界文学评论(2014年2期)2014-04-12无巧不成书小学教学研究·新小读者(2014年4期)2014-03-22On the Translation of the Antitheses in Outlaws读与写·教育教学版(2009年5期)2009-08-07

推荐访问:水浒传 参照 计量