凡例
- この表は『老子』諸本の語句の使用頻度を対照表化したものである。
- 採取した NGSM のデータは 1gram ~ 6gram の間のもので、1gram は頻度 1 以上、2gram ~ 6gram は頻度 2 以上の例を抽出している。
- NGSM の手法によって得られたデータを、Microsoft Excel 2000 の[分散分析(繰り返しのない二元配置)]によって分散値(※諸本間で検出頻度の異同がないと値は "0" になる。値が大きいほど異動幅が大きい。)を算出し、その値の上位100語の結果を Webページ化した。
- 表中の略号はそれぞれ、[甲]= 馬王堆帛書甲本、[乙]= 馬王堆帛書乙本、[王]= 江戸明和王弼本(宇佐美本)、[景]= 景龍易州龍興観碑、[敦]= 敦煌唐鈔本( S6453 + P2589 )、[道]= 正統道藏河上公章句本、[武]= 武内義雄校定本(拠本邦伝存古鈔本)、[四]= 文淵閣四庫全書本、[玄]= 正統道藏開元玄宗御注本、[傅]= 正統道藏道徳經古本篇 を示している。これらの諸本に関する詳細は、拙稿「『老子』傅奕本来源考」(『漢字文献情報処理研究』4、2003)を参照されたい。
- Web 上に掲載する都合上、IBM拡張字体を避けるなど NGSM データに幾つかの改変処理を加えている。ところにより拙稿「『老子』傅奕本来源考」と字体表記を異にするものがあるが ご寛恕あれたい。
- 本表により、n-gram 解析結果から有意なデータを抽出するのに、分散分析(繰り返しのない二元配置)が有効であることにお気づきいただければ充分である。但し、この手法は同一文献の異本比較に限って利用すべきものであり、内容や分量の全く異なる複数の文献の比較を行う場合は、語句の検出頻度を千分率化して比較するなど別の手法が要求される。
- 参考資料としてクラスター分析(似たもの同士をクルーピングするための分析)の結果も掲載しておく。
- より詳細なデータをご希望の方は、秋山 ( akiyama@karitsu.org ) までご相談下さい。
補足:表中の四庫全書本で14例見える「・」(分散値14.40)は「玄」の欠筆字体である。