红楼梦与语言统计学#

红楼遗梦——红楼梦作者有谁?胡适的前80后40之说是否正确?

1987年,复旦大学李贤平教授的一篇《〈红楼梦〉成书新说》[1] 以一个全新的视角震动了红学界。其时作者自述用UWMadison的硬软件设备分析数月,当今俺花一天时间在pc上简单复现了文中的成果。

为了获取高质量的文本,最后选择了直接爬取“红楼星语”网站。我以庚辰本(北大脂批本)作1-80回,81-120采用程乙本。(庚辰本1718未分回,李文中对半拆开)

P1 以120回每回作为观测数据,以44个虚词和句长为特征,对应变换后在主平面的投影

P2 以类卡方距离度量,类平均法递归的系统聚类图

与 [1] 给出的主要论据“正视图”“聚类图”基本一致。可以看到两部分点有明显的分隔——前80回与后40回很可能出自截然不同的手笔。

争议极大的1-5回(“曹第五次批阅说”)、17-18回、53回都得到了一定的支持。

细分来看前80与后40均非浑然一体,李文还给出了许多激进的论断:前80由佚名《石头记》经曹雪芹《风月宝鉴》插入;及三次增删的具体回目;后40并非胡适所说高鹗一人而由曹家据遗稿补写,程刊高校而成;但同时回避了脂砚斋、曹頫等说的疑问。其后对此文章观点、方法论讨论不少。

reference

[1] 李贤平. (1987). 《红楼梦》成书新说. Fu Dan Xue Bao. She Hui Ke Xue Ban, (5), 3-16.

[2] 施建军. (2010). 关于以《红楼梦》120回为样本进行其作者聚类分析的可信度问题研究. Hong Lou Meng Xue Kan, (5), 318-335.

[3] 潘旭澜. (1987). 序《成书新说》. Fu Dan Xue Bao. She Hui Ke Xue Ban, (5), 17-18.

[4] 碧峰. (1988). 《〈红楼梦〉成书新探》讨论会简述. Fu Dan Xue Bao. She Hui Ke Xue Ban, (1), 111-112.


下载链接:

红楼梦文本(网站文本、电子书转换的较脏文本,包含庚辰本、程乙本、当代校注本、脂评汇校本)

处理代码Python,包括爬虫、分析、变量数据)