《日语学习与研究》| 施建军、王大钊：基于汉文体计量特征的《日本书纪》各卷分类研究

Original 施建军、王大钊日语学习与研究

2024-09-08

文章信息

题目 | 基于汉文体计量特征的《日本书纪》各卷分类研究

来源 |《日语学习与研究》2024年第4期

作者 | 施建军、王大钊

作者单位 | 上海外国语大学语言研究院

作者单位 | 上海外国语大学博士研究生

引用格式 | 施建军,王大钊.基于汉文体计量特征的《日本书纪》各卷分类研究[J].日语学习与研究,2024,(04):12-25.

*[本文为2014年度国家社科基金重大项目“日本汉文古写本整理与研究”（项目批准号：14ZDB085）的阶段研究成果。项目主持人：王晓平]

引言

1 前人研究综述

2 前人研究得失分析和本文研究的课题

3 本研究的思路

4 文本的聚类分析方法及其有效性

5 基于文本聚类的《日本书纪》汉文体特质分析

6 结语

摘要

《日本书纪》是日本现存最早用汉字和汉文编纂的史书。从语言的角度来看，该书各卷所使用的汉文体呈现出了不同的特点。前人根据万叶假名的汉字及音韵系统、天皇即位和定都的叙事风格、天文天象的记载情况、语言表达的语法问题等尝试对该书各卷进行划分，但是这种分类不能够系统反映各卷的汉文体特点，也无法对第1卷、第2卷、第30卷进行划分。常用字词的使用和分布可反映文章的行文特点，本文利用无指导机器学习技术对这些汉文体语言特征进行聚类分析并和《隋书》进行对比发现，《日本书纪》30卷的汉文体可以分成4类，部分结果和前人研究结果一致。新的发现是，《日本书纪》第1、2、3卷的汉文体和《隋书》一致；第14卷至30卷（第23卷除外）和《隋书》相似；第5卷至13卷以及第23卷和《隋书》差距较大；第4卷的行文不但和《隋书》不同，也和《日本书纪》其他各卷有很大差距。通过对《日本书纪》和《古事记》汉文体的研究也证明，前沿的语言智能技术可以在古文献研究中发挥作用。

引言

《日本书纪》是日本现存最古老的正史，成书于公元720年。根据日本学者远藤庆太（2015）的研究，《日本书纪》的编纂有一个重要的历史背景，即公元四世纪以后，和隋唐的交往，触发了日本的国家意识。出于对外交往目的，推古朝（593）时期日本也开始了修史工作。根据《续日本纪》的记载，一品舍人亲王奉天皇之命编纂《日本纪》（即《日本书纪》），于养老四年（720）完成。《日本书纪》的编纂是当时日本的国家大事，关乎皇室的历史定位，具有浓厚的政治色彩。根据铃木靖民（2020），《日本书纪》主要承担着宣传皇室正统性以及其刚刚诞生的国号（“日本”）的任务。由于当时汉字和汉文是汉字文化圈的国际语言文字，因此，《日本书纪》的行文采用汉文体（古代汉语），对历史事件的书写参照了中国的史书。根据坂本太郎（1970）、木下礼仁（1993），《日本书纪》编纂过程中，参照《三国志》《隋书》等中国古代史书进行了润色。

关于《日本书纪》编纂经纬以及其所记载史料的真伪有很多值得研究的地方，但是这些问题不是本文的研究重点。本文从语言研究的角度，关注《日本书纪》的汉文体特质。《日本书纪》用古代汉语书写，是日语书面语受汉语影响的见证者。研究《日本书纪》的汉文体特质，对研究汉字和古代汉语在周边国家的传播具有重要意义。从语言的角度看，《日本书纪》虽然整体上使用古代汉语书写，但是存在一些不符合古代汉语语法和不符合汉语习惯的表达形式（也称之为“和习”），同时用于标注同一日本固有语言表达语音的汉字（万叶假名）存在不一致的地方，基于此，学界认为《日本书纪》作者可能来自于不同国家，即日本、中国和朝鲜半岛，并根据不同的汉文表达对《日本书纪》的各部分进行了区分，即日本人所作和“渡来人”所作两大部分。

关于《日本书纪》的汉文体以及各卷的划分，仍然存在一些值得进一步探讨的问题，如第1、2、30卷的归属，以及传统方法的有效性等问题，本文将利用统计方法通过比对《三国志》《隋书》《古事记》，对《日本书纪》的汉文体特质和各卷的划分进行进一步探索。

1 前人研究综述

《日本书纪》的编纂经历了比较长的时间，参与编纂工作的人员较多，且人员构成比较复杂，不但有日本人，还有当时从中国大陆和从朝鲜半岛来到日本的非日本人，即所谓“渡来人”。因此《日本书纪》的哪些内容出自日本人之手，哪些是出自“渡来人”之手，这一问题成了学者们研究的重要课题。

冈田正之（1929）最早指出，《日本书纪》前后行文存在不同，并非出自一人之手。福田良辅（1934）着眼于《日本书纪》中“之”的用法，将语法分析的方法引入《日本书纪》各卷的划分研究。日本学者藤井信男（1952）曾经根据《日本书纪》关于天皇即位定都的书写方法，将《日本书纪》30卷划分成了10组。鸿巣隼雄（1939）发现《日本书纪》各卷在表达“祖先”意义时用词不一样，3-13卷和22-27卷使用了“始祖・皇祖”、14-21卷使用了“先”。太田善磨（1942）则根据《日本书纪》中的歌谣、助词、引用等序号形式对其进行了分组。坂本太郎（1970）对这些研究的主要结论进行了归纳，列表如表1所示。

《日本书纪》整体上是以古代汉语行文，中间夹杂少量和歌等日本诗歌内容。和歌主要是利用汉字标注日语发音，本质上是日语，被用来标注日语发音的一些固定汉字发展成了万叶假名。日本学者西宫一民（1951）发现，《日本书纪》各卷记载歌谣的万叶假名所使用的汉字种类不同，大致可分为两大类，3-13卷、22、23、28、29等15卷为一类，14-19卷、24-27卷等十卷为另一类。森博达（1991）也从《日本书纪》记载歌谣的万叶假名入手，尝试对其进行分类。但是和西宫一民的方法不同，森博达（1991）着眼于万叶假名所使用汉字的发音情况，发现《日本书纪》大致可分α,β两组，α组包括14-21卷、24-27卷，其中万叶假名所使用汉字的发音主要依据唐代北方的发音，β组包括1-13卷、22、23、28、29等卷，其中万叶假名所使用汉字的发音比较复杂。根据对万叶假名的考察结果森博达（1991）作了如表2分类。

森博达（2011）又从古汉语语法和词汇的角度，进一步对《日本书纪》中出现的、不符合古汉语语法和不符合古汉语使用习惯的地方进行了考察，发现α组各卷很少有古汉语语法错误，而β组各卷语法错误和不符合古汉语习惯的地方很多。据此森博达（2011）认为，β组是非汉语母语者所写，具体是文武朝山田御方用“和化汉文”所作。第30卷是元明朝纪朝臣清人所写，三宅臣藤麻吕参照夹杂了“倭习”的汉籍润色加工而成。而α组主要是由来自中国的“渡来人”所撰写，而且由于这些人对日本的风土习俗还不熟悉，森博达（2011）认为这些人是“渡来人一世”。

朱天愚（2008）对含有“和习”很少的α组中的“和习”进行了考察研究，对α组为中国人所作的观点提出了异议。通过统计分析《日本书纪》中表被动的助词“被、见、为、所”的分布和用法，并对照这些词在中国古籍《隋书》列传中的使用情况发现，不管α组还是β组，《日本书纪》整体非常执着于被动表达的使用。在考察虚字“所”的使用时发现，α组有4例用例中的“所”被当作表被动的虚字使用，这不符合古代汉语语法。据此朱（2008）认为，α组为中国人所作之说有进一步探讨的余地。

除了以上从语言文字的角度所做的研究之外，还有一些学者从对历史事件记载等非语言角度尝试进行分类。如谷川清隆、渡边瑞穗子（2010）等在对《日本书纪》中有关天文观测记录进行考察时发现，根据有无天文观测记录对23-29卷的分类，和α、β的分类是一致的。这些研究虽然也能够为《日本书纪》各卷的作者归属问题提供有效的手段，但是，其方法和语言研究关系不大，因此本文不再赘述。

2 前人研究得失分析

和本文研究的课题

综述前人研究可以看出，大多是从语言文字的角度考察《日本书纪》的汉文体特质，进而对各卷进行分类研究。我们所说汉文体的特质是指，日本汉文典籍中所使用汉文的规范程度。根据桥本进吉（1933），日本奈良朝以前书面语采用古代汉语，官方公文自不待言，比较正式的私人信函和记录一般也使用汉文书写。但是对日本人来讲，使用汉语书写并不容易，所以当时日本书面语即便追求使用规范的古代汉语，也无可避免存在用字用词错误、词序颠倒、添加多余字词等不符合古代汉语规范的现象，桥本进吉将其称之为“变体汉文”^[1]，也就是说，那时日本文献的行文尽管是古代汉语，但是和规范的古代汉语相比多少存在一些差别。正是这些差别的存在，使研究《日本书纪》作者归属有了语言方面的依据。

此类依据归纳起来有以下几种：1.依据万叶假名所使用汉字的种类、音韵（西宫一民，1951；森博达，1991）；2.关于历史事件的叙事方式（藤井信男，1952）；3.对同义表达方式的选择（鸿巣隼雄，1939）；4.古代汉语虚字（词）的使用（太田善磨，1942；朱天愚，2008）。

前人研究主要以此为依据进行分类。这种方法的好处是仅依据一处或少量证据，就可以对整体作出判断，而且研究结果比较一致，上述研究结果就体现出这一点。但是对于没有这方面证据的卷，如1、2、30卷等，就无法作出判断。此外“和习”在《日本书纪》中属于散发现象，存在多种可能性，如本来是中国人所作，但是日本人进行了修改，导致个别地方被改错了，出现了“和习”，而整体上是规范的汉文体。这种情况，把“和习”作为依据就很难做出正确的判断。

由于万叶假名在各卷数量较少，即便某一卷存在歌谣，也很难保证该卷的其他行文和歌谣为同一作者，因此按照万叶假名的使用等进行分类，虽然具有一定参考价值，但似乎无法完全反映各卷整体的汉文体特质。朱（2008）依据表被动虚字的使用情况，对α组为中国人所作之说提出疑义就是对以万叶假名和“和习”为依据的一种挑战。

森博达（2011）认为，α组的音韵体系为唐代北方音，α组是母语为汉语的第一代唐朝“渡来人”所作，其中一部分α组的卷是由续守言和萨弘恪所作；β组为文武朝的山田史御方所作，第30卷是纪朝臣清人所作，三宅臣藤麻吕润色。森博达的这个结论实际上也有疑点。从内容看，《日本书纪》关于朝鲜半岛古国百济的记载比较多，当时日本和朝鲜半岛的联系比较紧密，由朝鲜半岛到日本的“渡来人”也比较多。从逻辑上讲，参与《日本书纪》编纂的人员构成应该包括中国人、日本人、朝鲜人。在编纂过程中，这三类人员承担了什么角色，和《日本书纪》的语言表达特征有很大关系，如果中国人撰写初稿，日本人进行修改润色，那么各卷的汉文体特质就比较强，即便有少量的“和习”，也不会改变汉文体整体的特质。如果日本人和朝鲜人撰写初稿，中国人进行后期润色修改，则内容中一定包含着不符合古代汉语语法和语言习惯的内容，这和现代日本人学习汉语情况一样，因此可以推测编纂《日本书纪》的日本人也存在同样的问题。这种情况下，“和习”色彩比较浓厚，整体上应该会体现出日本人所写汉文的特色。从《日本书纪》的编纂背景看，这项工作是当时日本官方正史编纂的一项重要工程，日本人的主要目的是对外宣传日本，阅读对象是唐朝读者，因此，可以想象《日本书纪》人员分工应该比较慎重，不会如森博达（2011）主张的那么随便。朱（2008）也对此提出了疑问，认为α组为中国人所作之说有进一步斟酌的余地。其中关于编纂《日本书纪》的人员分工，如果没有历史记载，只能从行文的汉文体特质进行考察。

前人的考察方法，主要依据的“和习”是个别现象，无论是日本人书写中国人润色，还是中国人书写日本人润色，都会存在“和习”的问题，因此“和习”的存在不能说明各卷整体上的汉文体特质。对“万叶假名”用字和音韵的考察方法，虽然在万叶假名的用字和音韵方面具有系统性，但是，由于歌谣在《日本书纪》各卷中所占比重很小，不足以影响整体汉文体特质，即便是中国人撰写的初稿，日本人在后期编辑过程中也可以加入用“万叶假名”记录的日语歌谣，因此，歌谣所用“万叶假名”的特征只能说明歌谣本身的问题，不能够说明各卷整体的汉文体特质和歌谣之间存在必然联系。

基于以上分析，我们认为无论是基于“和习”，还是基于“万叶假名”的用字系统和音韵系统，都不能对《日本书纪》各卷进行可靠的划分，特别是关于第1、2、3、30卷的划分，前人研究都没能得出结论，这和前人的研究方法是有关系的。因此，需要寻找一种方法，能够对《日本书纪》各卷整体的汉文体特质进行描述，根据各卷整体的汉文体特质对《日本书纪》进行划分才更具说服力。

本文尝试使用计量语言学的方法，对《日本书纪》各卷的汉文体特质进行描述，在此基础上考察哪些卷和同时期中国典籍比较接近，并尝试解决第1、2、3、30卷的划分问题。

3 本研究的思路

本文的思路是将《日本书纪》各卷和差不多同一时期中国古籍《隋书》的行文进行对比，考察《日本书纪》各卷的汉文体特质和那个时代比较规范的中国典籍行文之间的差距。根据学习外语的一般经验，学习外语时，语义用法相对单一的实词一般比较容易掌握，而语义丰富、用法比较多的虚词，习得比较困难，对外国人来讲使用这些虚词时不但容易出错，而且非母语者作文中这些虚词的分布情况也和母语者不一样。假设《日本书纪》是由日本人撰写初稿，那么其中这些古代汉语虚词的使用和分布情况和中国典籍是不一样的。从这些虚词使用的角度讲，一定会出现日本式的表达方式，即所谓的“和习”，前人研究都是利用这种办法对《日本书纪》各卷进行分类，但前人研究没有能够从这些虚词分布的角度对各卷的汉文体特质和中文典籍进行对比。依据“和习”虽然某种程度上有效，但是，由于中国人所写内容也会散发“和习”现象，“和习”和日本人所作并没有必然联系。虚词的分布情况，中国人所作汉文和日本人所作汉文存在系统性差别，这不是中国人对日本人的作文进行了修改就能够全部改正过来的。也就是说，中国人可以修改日本人作文中的语法错误，但是，中国人和外国人使用虚词的数量差异以及整篇文章中虚字词的分布差异，即便中国人也很难察觉，想要系统性修改很困难，除非由中国人重新撰写，这也是日本人所作汉文和中国人所作汉文的实质差异所在。研究《日本书纪》各卷的划分时，前人并没有关注这一点，朱（2008）虽然提出虚字词的问题，但是只涉及到表被动的四个虚字情况，而古代汉语虚字词系统在日本人所作汉文体中的分布情况没有涉及。个别词汇的使用，有时能够达到非常地道的程度，但是，外国人不可能对整个虚字系统的使用都达到和中国人相同的水平。对虚词系统分布的考察可以系统把握日本人的汉文体特质和规范古代汉语之间的差别。

因此，如何考察《日本书纪》中虚词系统的分布情况成为本文的关键问题。统计学为判别来自不同系统的样本提供了很多有效的办法，本文主要采用聚类的办法考察古代汉语虚字词系统在《日本书纪》各卷中的分布及其在同一时期中国典籍中的分布差异程度，分析《日本书纪》哪些卷的汉文体特质更加接近规范的古代汉语，以期为早期汉语在日本的传播研究和《日本书纪》的汉文体研究尽一份力量。

4 文本的聚类分析方法

及其有效性

聚类分析就是根据研究对象的某些属性特征对其进行归类，使得特征相似的对象归到一类，特征差距较大的对象归到不同的类。由于聚类分析的依据是能够反映所考察对象特征的数据，因此其结果客观、准确。正因如此聚类分析在许多领域的研究中得到了广泛应用，对语言数据的聚类分析叫做文本聚类。

4.1 文本聚类的基本原理

文本聚类，根据聚类所依据属性特征的不同，可以分为基于内容的文本聚类和基于写作风格的文本聚类（施建军，2016），本文主要使用基于风格的文本聚类。基于风格文本聚类的任务是将写作风格相近的文本归到一类，写作风格不同的文本归到不同的类，我们对《日本书纪》汉文体特质的分析就属于这一类分析。要达到这个目标的关键是，聚类分析所依据的特征属性必须能够反映所考察对象的文体特性。

文本聚类分析中文本与文本之间的相似度是用距离的概念来描述的。在聚类分析中定义这种相似度的公式很多，但是基本方法都是将单个文本（如《日本书纪》的一卷）看成多维空间上的一个点，用多维空间上点和点之间的距离来定义文本之间的相似度。这种点间的距离越短说明两点之间关系越紧密，相似特征越多，就可以划分在同一个类别之中；相反点间的距离越大说明两点间的差异越大，往往可能分属两个类别。

我们假定考察对象集合有N个文本，每个文本考察M个特征，那么其中的一个文本X就可以由向量X（x1,x2,x3……xm）来表达，另一个文本Y同理就可以用向量Y（y1,y2,y3……ym）来表达。文本X和文本Y的相似程度就可以用多维空间上的两点X和Y之间的距离来衡量。

如果我们要考察《日本书纪》的汉文体特质，那么特征向量（x1,x2,x3……xm）和（y1,y2,y3……ym）的取值，必须是能够反映《日本书纪》汉文体特质的参数。根据以上分析，日本人学习古代汉语时，其对古代汉语虚字词的使用比较容易出错，而且虚字词系统在其所撰写的文章中的分布情况和中国人是不一样的，基于古代汉语的虚字词分布情况进行聚类分析，有可能把握《日本书纪》各卷的汉文体和规范古汉语文体之间的远近关系。

表征文本文体的特征向量之间的距离可以有多种衡量办法，本文主要使用欧几里得距离来衡量《日本书纪》各卷和中国古典文献之间的汉文体差别，其计算公式如下：

欧几里得距离

4.2 日本古代汉文体分析中聚类方法的有效性

我们在将文本聚类方法引入《日本书纪》汉文体特质分析之前，必须对其有效性进行试验。只有当这种技术在实践中证明能够有效区分不同汉文体的作品时，我们才能够将其运用到我们的研究当中。如果我们能够根据上面的思路，用文本聚类的方法有效地区分已知日本人所作古代汉文体作品和同一时期中国人所作古代汉文体作品，那么我们才可以认为聚类方法是有效的。

《古事记》是日本最早的史书，全部使用汉字书写，比《日本书纪》早几年面世，可算作是同一时期的古籍。由于《古事记》充斥着大量的变体汉文（“和习”），所以《古事记》被认为是日本人创作的，学界对此争议不大。因此我们以《古事记》和中国古籍《三国志》作为样本，验证聚类方法在分析中日典籍汉文体特质方面的有效性。

本文将《三国志》各卷作为一个独立的样本，共65个；我们所使用《古事记》文本中存在大量注释，为了不影响正文的统计结果，故将《古事记》中的注释排除在统计对象之外，并将《古事记》上中下卷以5000字为单位截成9个样本（下卷因字数较少，截成2个样本，其中样本“古事记_下卷1”超过5000字），这样从两个古籍文本中共获得74个样本数据。我们使用这74个样本中分布最广的120个字作为反映汉文体特质的特征属性，以其在考察对象中出现的频率作为聚类的特征向量。由于74个样本的内容各不相同，这些字在所有考察对象中都出现了，可以说明这些字与每一个样本的内容关系不大，假设这些特征字词的使用情况可以反映《三国志》和《古事记》的汉文体特质，我们使用聚类实验来验证这些字词特征能否将《三国志》和《古事记》区分开来。

本实验的主要目的是选择能够区别中日两国古籍汉文体的特征向量，以验证聚类技术能否将两国汉文体古籍区分开来。如果聚类结果能够成功地将两者区分成2类，那么就说明：

①我们所选择的特征向量可以区别中国古代汉文和日本人所撰古代汉文。

②由于我们将《三国志》和《古事记》按照卷分成了不同的样本，各个样本所记载的内容不同，如果这些样本按照这两种典籍被归并到两个类别中，那么就可以确认聚类过程中并没有受到内容因素的影响，即这些样本不是因为内容相同或者相似才聚到一起的，而是因为中日古代汉文体的特质才聚到一起的。

根据以上设想，我们从《三国志》和《古事记》的74个样本中抽取了120个分布最广的字词，并统计了每一个字词在各个样本中的使用情况（频率），这些字词具体如下：

以这些字词在各个样本中的使用频率，作为表征各个样本汉文体特质的特征向量。表3为两部作品部分卷的特征向量样例。

根据公式（1）我们计算出《三国志》和《古事记》各卷之间的距离，并据此用树形图描述各卷之间的远近关系。这部分工作的R语言实现代码如下：

按照上述步骤，我们对《三国志》和《古事记》进行聚类分析后，得到结果如图1。

从图1聚类结果我们可以看出，两部作品的74个样本按照上述距离的远近被安排在了一棵二叉树中，同一树枝下的两个分叉表示两个样本距离最近，树枝分叉越高，表明其下树枝所代表卷的距离越远，样本按照距离的远近形成了高低不同的层次，这也叫层次聚类。从这个聚类图可以看出，在一定的层次高度上《三国志》和《古事记》的74个样本被分成了两大类。《三国志》的65个样本为一类，《古事记》的9个样本为另一类。这个聚类结果是按照在74个样本中分布最广的字词的使用情况进行聚类的，由于这些字词在各个样本都有所使用，且样本内容都不同，所以这些字词和内容无关而和文章的行文特征有关，从这一个角度讲这个聚类结果所反映的是《三国志》和《古事记》各个样本汉文体的相似度。也就是说，按照我们所选择的特征向量聚类方法，可以有效地区分《三国志》和《古事记》的汉文体风格。因此，我们认为这个方法可以用于《日本书纪》各卷汉文体特质的分析。

5 基于文本聚类的《日本书纪》

汉文体特质分析

长期以来，学界一直致力于搞清楚《日本书纪》哪些卷是日本人所作、哪些卷是中国人所作。除了考察记录歌谣万叶假名的汉字和音韵外，许多研究的考察方法主要是考察各卷出现的不符合汉文规范的语法错误等误用现象。利用这些方法也许能够有效做出判断，但是，无论是日本人撰写初稿、中国人润色，抑或是中国人撰写初稿、日本人润色，“和习”都在所难免。也就是说“和习”的出现和各卷整体的汉文体特质并无必然联系，日本人撰写、中国人润色的初稿，从系统上讲还是带有日本人的特质的，除非中国人在参考日本人初稿基础上自己重新再写一遍。同理，如果中国人撰写日本人修改的初稿，从系统上讲也脱不了中国人的底色。因此，找到能够系统刻画中国人汉文体和日本人汉文体特质的方法，才能克服单从离散的“和习”现象着眼所带来的偏误。我们认为可以将两国古典文献中均使用的字词提取出来，作为分类的依据，因为这些字词具有系统性，不像“和习”那样是散发的，考察这些字词在典籍中的使用和分布情况，可以对两国古籍的汉文体特质进行系统的刻画和描写。

从前文的论述我们可以看到，基于这些语言特征，用聚类的方法可以有效地对《三国志》和《古事记》进行区分。因此，我们也将这种方法引入到《日本书纪》各卷汉文体特质的分析上。我们的目的主要是，基于语言特征的聚类方法，分析《日本书纪》哪些卷的汉文体特质更加接近同时代中国典籍的汉文体，以期对《日本书纪》各卷的传统划分进行验证和修正，同时对传统研究尚未有效归类的第1、2、3、30卷进行划分。至于各卷具体出自哪些人之手，不是我们的研究内容，因为参与《日本书纪》编纂工作的人员构成比较复杂，从现有资料看这些人中不但有日本人、中国人，还有来自朝鲜半岛的“渡来人”，要对此作出推断需要更多的历史资料，这是另一个课题。

5.1 《日本书纪》和《隋书》的聚类分析

根据坂本太郎（1970）等前人的研究，《日本书纪》编纂参照了《史记》《汉书》《后汉书》《三国志》《梁书》《隋书》等中国古代史书典籍。其中《隋书》和《日本书纪》的成书年代比较接近，《隋书》为公元七世纪（636年）编成，《日本书纪》是公元八世纪初（720年）成书，虽然两书间隔80多年，但是都在我国唐朝初期。从当时汉语的情况看，语言变化不会很大，且《日本书纪》从公元七世纪后期就开始编纂了。如果日本人学习汉文体编纂《日本书纪》，应该就是学习唐朝这一时期的语言。同时由于《日本书纪》参照了古代史书纪传体进行编纂，因此，我们以《隋书》中的列传部分（共50卷）作为《日本书纪》的比较对象，考察《日本书纪》各卷汉文体特质哪些更接近《隋书》，以期对《日本书纪》各卷的划分进行考察，并对第1、2、3、30卷进行归类。

《隋书》是唐朝贞观十年（636）修成，魏征等人参与了《隋书》的编纂工作（吴玉贵、孟彦弘，2020）。我们这里主要利用《隋书》中的列传全部50卷和《日本书纪》的全部30卷对这两部典籍的汉文体进行比较，考察《日本书纪》的哪些卷和《隋书》更加接近。根据4.2的结论，典籍中分布最广的字词可以系统反映汉文体特质，因此，我们获取了这两部典籍中分布最广的120个字词，具体情况如下：

我们统计了这些字词在两部典籍中的分布使用情况，获得了一个120*80的语言特征分布矩阵，因页面限制，这里只取两部典籍各10卷特征向量的前5维列表如表4所示。

根据《隋书》和《日本书纪》各卷的语言特征向量，用R语言对两部典籍各卷进行聚类分析，结果见图2。

5.2 基于聚类结果的《日本书纪》各卷再考察

前人对《日本书纪》的研究大体可以分成以下几种情况，第一，神代部分的第1卷、第2卷没有作出划分。无论从万叶假名用字角度还是从特定的语言表达，由于没有太多的根据可循，因此，大多数学者都没有对这两卷作出有效的判断。只有森博达（1991）认为这两卷属于日本人所著的β组。第二，藤井信男（1952）根据《日本书纪》关于定都的叙述方式认为第3卷和其他卷都不同，比较特殊，但是，藤井的根据并不是从第3卷的汉文体角度作出的判断，这一卷的汉文体是接近日本人的风格，还是接近中国人的撰写风格，有待于进一步研究。第三，关于第4卷至第13卷各家的观点比较一致，认为这10卷风格接近，森博达（1991）认为这10卷是日本人写的。第四，关于第14卷至第21卷、第24卷至第27卷等各家观点也比较一致，森博达（1991）认为这些卷为中国人所作。第五，关于第22卷、第23卷，除了鸿巢隼雄（1939）外，其他学者都认为这两卷是一类，森博达认为这两卷是日本人所写，第28卷、第29卷大多数学者认为是一类，森博达认为是日本人所写。第六，关于第30卷，前人均没有作出判断。从前人归类看，第4至第13卷、第22卷、23卷、第28卷、第29卷为一类，第14卷至第21卷、第24至27卷归为另一类，这样的归类大家争议不大。但是，第1卷、第2卷、第3卷、第30卷等4卷的遗留问题比较多，前人要么没能作出判断（如第30卷），要么划分存在争议（如第1卷至第3卷）。

我们用聚类办法，根据常用词在两部典籍各卷中各自的使用情况，对《日本书纪》各卷和《隋书》汉文体的相似程度以及《日本书纪》各卷之间汉文体的相似程度进行了分析，具体如图2所示。从聚类结果可以看出，两部典籍各卷汉文体相似度差异最大的第一层切分出两个类别，即《日本书纪》的第4卷为一个类别，《日本书纪》其他29卷和隋书50卷共同组成一个类别。这说明《日本书纪》第4卷的汉文体不但和《日本书纪》其他29卷的汉文体有很大差别，其差距程度甚至超出了《日本书纪》其他各卷和《隋书》之间的距离。

从汉文体的特质上讲，《日本书纪》第4卷是一个特别的存在，其汉文体既不同于《日本书纪》其他卷，也不同于《隋书》各卷。这个结果是前人用传统的手段没法发现的。我们有一个猜测：《日本书纪》第4卷可能出自于朝鲜半岛“渡来人”的手笔。由于当时朝鲜半岛和日本交往比较密切，日本有很多来自朝鲜半岛的“渡来人”，甚至汉字也有可能是通过朝鲜半岛传到日本的。据《日本书纪》自身记载，日本应神十五年，百济王派阿直岐献马，天皇得知阿直岐会诵读经典，于是让太子向其学习，同时得知有一个叫王仁的人更为博学，于是又派人向百济王征召王仁。据《古事记》记载，阿直岐之后百济有人带去《论语》十卷、《千字文》一卷，自此汉字传到日本。由此可见，朝鲜半岛“渡来人”在把汉字、汉文传播到日本的过程中发挥了作用。另外，朝鲜半岛语言和中原的语言有很大差别，虽然语法和日语相似，但是，发音不同，如果第4卷出自朝鲜半岛“渡来人”之手，就极有可能出现聚类结果所示情况，即其汉文体既不同于《隋书》，也不同于《日本书纪》其他卷。当然，这只是从汉文体特质这一个角度作出的推测，要对其作出明确判断还需要其他证据。

根据对汉文体相似程度的聚类分析结果，除第4卷外，《日本书纪》其他各卷和《隋书》都属于同一个类别，从总体上看是汉文体。但是，从第二类的内部精细分类结果看，各卷汉文体的相似程度也有差别，还可以细分为三小类。

第一小类为第5卷至第13卷以及第23卷，这9个卷内部相似程度很高，可以看作是一个子类，这个子类的特点是和《隋书》距离比较远。前人研究认为同属一类，为日本人所作，根据聚类分析的结果，前人这个结论和聚类分析的结果基本一致。

第二小类为第14卷至第30卷（除去第23卷共16卷），这一小类和第一小类差距比较大，总体上和《隋书》比较接近。这一小类的聚类结果大多数和前人的判断是一致的，如第14卷至第21卷、第24卷至第27卷，不同的是第22卷、第28卷、第29卷，前人认为是日本人所作，但是，聚类结果显示，这些卷也和《隋书》的汉文体接近。前人对第30卷没有进行过分类，但是，从聚类分析结果看，第30卷的汉文体和《隋书》比较接近。这些卷虽然和《隋书》接近，如果按照三小类的分类标准，这些卷并没有和《隋书》聚在同一个类别，说明这些卷的汉文体和《隋书》还是有一定差距的。这可能是中国人写好初稿，日本人做了适当修改后造成的。

第三小类即第1卷、第2卷、第3卷，从聚类结果看，这三卷和《隋书》非常接近，实际上已经被划分成为和《隋书》相同的类别，其与《隋书》的类别距离已经和《隋书》内部各卷之间的类别距离相当，也就是说从上述反映汉文体特征的字词用法角度看，这几卷中这些字词的用法和《隋书》中相同字词的用法差别不大。实际上，从这几卷记载的内容看，许多故事神话和中国的叙事方式非常像，甚至有些故事的内容都相似，只不过人名、地名换成了日本的。

6 结语

关于《日本书纪》的汉文体及其作者问题，上个世纪三十年代就有学者开始研究，这些学者从万叶假名所使用的汉字及音韵系统、天皇即位和定都的叙事风格、天文天象的记载情况、语言表达的语法问题等角度开展了卓有成效的研究。如果能够对《日本书纪》各卷是否为日本人所作作出解释，不但对把握日本人早期学习使用汉字和古汉语的情况有帮助，也有助于我们发现中古汉语使用的一些历史证据。传统手段主要通过个别现象的有无来调查和分析《日本书纪》各卷的情况，但是，针对各卷整体汉文的写作风格和当时中国历史典籍多大程度上接近这一点，前人方法并不能进行有效的描述，因此，前人研究仍有一些遗留问题，如第1卷、第2卷、第30卷的划分等。我们认为汉文体是通过一些常用字词的使用反映出来的，日本人在使用这些字词时呈现出和中国人不同的特点（包括使用错误和不符合当时汉语习惯的问题），这些特点表现在对古代汉语虚字词的使用和分布上面。人工智能机器学习中常用的聚类分析方法可以通过这些语言特征的使用分布情况对《日本书纪》各卷的汉文体特质作出描述。因此，我们以两部古书中常用字词作为语言特征向量，对同时期中国史书《隋书》和《日本书纪》进行了聚类分析。

根据聚类分析的结果，从《日本书纪》汉文体特质的内部差距以及《日本书纪》和《隋书》之间的汉文体特质差距看，我们认为，《日本书纪》各卷可以划分为四大类：

（一）第4卷：其汉文体特质既不同于《日本书纪》其他各卷，也不同于《隋书》。

（二）第5卷至第13卷、第23卷：这11卷的汉文体和《隋书》差距比较大。

（三）第14卷至第30卷（第23卷除外）：这16卷的汉文体和《隋书》相似。

（四）第1卷、第2卷、第3卷：这3卷的汉文体和《隋书》十分接近，聚类分析甚至把这3卷和《隋书》划为同一类别。

根据以上分析，同时也为了方便和前人研究结论进行对比，我们按照汉文体和《隋书》的接近程度，将《日本书纪》各卷分为一致、相似、差距大、不同四个等级。

机器学习是人工智能研究取得突破进展的关键技术，聚类是无指导机器学习的常见方法。本文利用聚类方法分析《三国志》和《古事记》的汉文体证明，只要所选取的语言特征能够反映古文献的行文特点，聚类方法就可以根据汉文体的特点对古文献作出正确的区分。对《日本书纪》和《隋书》的聚类分析结果，有相当一部分和前人用考证、语言学等方法所得到的结果一致。这些都说明现代人工智能技术在日本汉文古文献研究中可以发挥重要作用。

《日本书纪》是现存日本最古老的正史，反映了早期日本使用汉字和汉文记录日本历史的情况，也反映了当时日本人学习使用汉字和汉文的情况，是汉字和汉文影响周边国家书面语形成的历史见证。研究《日本书纪》的汉文体，有助于正确把握《日本书纪》的撰写过程，进而帮助我们了解古代日本人如何学习汉字、使用汉文写作。关于《日本书纪》汉文体所呈现出的古代日本人在使用古代汉语虚字词方面的特点是重要的语言学课题，留待今后讨论。

注释及参考文献

古文献出处

1.《日本书纪》电子版本来自于：https://www.seisaku.bz/shoki_index.html（2024-01-19引用）。该电子版的底本是1990年出版发行的岩波古典文学大系。

2.《三国志》《隋书》文本来自于殆知阁古籍语料库：https://github.com/garychowcmu/daizhigev20（2024-01-19引用）。

3.《古事记》电子文本数据来自于苏州大学王鼎教授主持的2019年度国家社科基金重点项目“日本汉字词语料库建设与研究”（编号：19AYY020）成果数据库，其底本为真福寺本，录入资料为山田孝雄解説『国寳眞福寺本古事記』京都印書館1945年発行。访问途径：https://dl.ndl.go.jp/info:ndljp/pid/1184132（2024-06-05引用）。

注

[ 1 ] 石井公成等学者将《日本书纪》中标准古代汉语称为“正格汉文”，将和标准古代汉语存在差距的汉文叫做“变格汉文”，这种叫法只限于石井公成所主持日本科学研究费项目（2012-2017，编号：24320013）中的一些论文。本研究因涉及《古事记》等其他典籍，故仍使用“变体汉文”这个概念。访问途径：https://kaken.nii.ac.jp/ja/grant/KAKENHI-PROJECT-24320013/（2024-06-08引用）。

参考文献

吴玉贵，孟彦弘.《隋书》的修撰、流传与整理[EB/OL].（2020-08-28）[2024-02-20].http://lishisuo.cssn.cn/xsyj/stwdsgs/202008/t20200828_5175937.shtml.

施建军.计量文体学导论[M].北京：北京大学出版社，2016.

木下礼仁.日本書紀と古代朝鮮[M].東京：塙書房，1993.

太田善麿.古代日本文学思潮論：Ⅲ[M].東京：桜楓社，1962.

太田善麿.記紀の歌謡の假名の交渉[J].歴史と国文学，1942，26（3）.

毛利正守.「変体漢文」の研究史と「倭文体」[J].日本語の研究，2014，10（1）.

朱天愚.『日本書紀』における漢文助字「被」、「見」、「為」、「所」の用法について[EB/OL].（2008）[2024-02-18].https://www.kanken.or.jp/project/data/investigation_incentive_award_2008_h20_2.pdf.

西宮一民.神代紀の成立に就いて[J].藝林，1951，2（2）.

谷川清隆，渡邊瑞穗子.七世紀の日本書紀の巻分類の事例Ⅰ[J].国立天文台報，2010，3.

坂本太郎.六国史[M].東京：吉川弘文館，1970.

岡田正之.近江奈良朝の漢文学[M].奈良：養徳社，1946.

森博達.日本書紀成立の真実：書き換えの主導者は誰か[M].東京：中央公論新社，2011.

森博達.古代の音韻と日本書紀の成立[M].東京：大修館書店，1991.

遠藤慶太.日本書紀の形成と諸資料[M].東京：塙書房，2015.

鈴木靖民.なぜ『日本書紀』は日本を名乗るのか[EB/OL].（2020-10-20）[2024-02-16].https://www.kokugakuin.ac.jp/article/190274.

福田良輔.書紀に見えてゐる「之」字について[C]//古代語文ノート.東京：南雲堂桜楓社，1964.

橋本進吉.岩波講座日本文学：国語学概論[M].東京：岩波書店，1933.

鴻巣隼雄.日本書紀の編纂について――特に使用語句を中心として見たる[C]//日本文化中央聯盟，編.日本諸学研究：第3.東京：日本文化中央聯盟，1939.

藤井信男.日本書紀各巻成立の一考察[J].大倉山論集，1952，1.

期刊简介

《日语学习与研究》杂志是国内研究日本学的权威学术刊物，面向从事日本研究、东亚研究的专业人士。本刊自1979年创刊以来，刊出内容和编辑水平不断提高，博得国内外专家学者的一致好评，并多次入选CSSCI来源期刊扩展版。本刊常设文学研究、语言研究、教育研究、中日学术前沿动向栏目，推介“日语语言文学”学科最新的优秀学术成果；同时，为回应教育部对“外国语言文学”一级学科下属诸研究方向的调整方针，根据来稿不定期推出“哲学与思想研究”“东亚政治研究”“翻译研究”等学术专题，推介国别与区域研究、比较文学与比较文化研究和翻译学研究的佳作。

电话：010-64493203

邮局发行代号：2-446

国内统一刊号(CN)：11-1619/H

国际标准刊号(ISSN)：1002-4395

官方唯一投稿网址：ryxy.cbpt.cnki.net

编辑：王晨萌

审核：李广悦

继续滑动看下一个

日语学习与研究

向上滑动看下一个

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

2024年最佳公众号排行，不用瞎忙，关注它们你就成功了一半

英美所谓联合声明无端指责中国，干涉中国内政，中方强烈不满、坚决反对！

《日语学习与研究》| 施建军、王大钊：基于汉文体计量特征的《日本书纪》各卷分类研究

您可能也对以下帖子感兴趣

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

2024年最佳公众号排行，不用瞎忙，关注它们你就成功了一半

英美所谓联合声明无端指责中国，干涉中国内政，中方强烈不满、坚决反对！

生成图片，分享到微信朋友圈

《日语学习与研究》| 施建军、王大钊：基于汉文体计量特征的《日本书纪》各卷分类研究

您可能也对以下帖子感兴趣