大漢和辞典は、諸橋轍次博士らにより編纂され、大修館書店より出版された漢和辞典です。
親文字5万余字と、更に50万以上の熟語を収録した世界最大の漢和辞典です。
Unicodeに収載される漢字の、重要なソース(根拠)の一つとなっています。Unicode 5.2までの段階で、大漢和辞典のほぼ全ての字が表現できるようになってはいますが、まだ完全ではありません。それほどまでに多くの字を集めた漢和辞典です。
大漢和辞典に掲載される漢字には、検字番号と呼ばれる番号が振られています。
具体的には、次のような番号があります。
番号そのものには著作権などが適用されないため、この番号は原則として自由に利用することができます。
そこで、この検字番号そのものを文字コードとして利用する実装も登場しました。
具体的にはBTRON、製品としては超漢字などがあります。
なお、この番号をパクり、その際のバグを仕様として残し、更に拡張をした番号について勝手な権利を主張する団体がありますので、ご注意ください。
検字番号を実用的に使うためには、他の何らかの文字コードとの変換が出来る必要があります。
現在の情勢を考えれば、Unicodeとの変換が可能になることが最も利便性が高いでしょう。
この変換表については、次の二つの実績がよく知られています。
前者は、部首、大漢和辞典の巻番号など様々な情報を含みますが、異体字セレクターに対応していません。また、ほぼ完成していると見られます。
後者は、純粋な大漢和辞典←→Unicodeの変換表で、巻番号などの情報はありませんが、異体字セレクターに対応しています。こちらは、弊社が主宰となり、鋭意開発中です。
大漢和辞典の文字と、他の文字集合は、一旦Unicodeを介します。
Unicodeでは統合(包括)されている文字でも、諸橋大漢和では別字になっていることがあり、Unicode→大漢和辞典の変換で変換先が複数発生し、支障が生じます。
異体字セレクターを用いれば字形は明確になるため、正確な字形を指定したい場合には異体字セレクターを使うことができます。「もじかん」は、JIS X 0208/0213は既に異体字セレクターに対応していますので、文字集合を厳密に指定すれば正確な変換が可能です。
異体字セレクターが無い場合の対応ですが、諸橋大漢和の検字番号も、よく使う方が番号が大きかったり小さかったりとまちまちであり、検字番号の大小で判断することもできません。
弊社の実装では、Unicode→諸橋大漢和の変換では、優先する文字を一つ選び、その検字番号に変換する方法を採用しました。
もじかんの実装では、後置で異体字セレクターがなければ確定され、後置で異体字セレクターが来れば、優先選択したものをキャンセルして異体字セレクターに対応づけられる文字を出すように処理が作られております。
弊社製品「もじかん」では、上記後者の異体字セレクター対応変換表を使用して、実装を進めています。
大漢和辞典の文字と、Unicodeにある文字については、既に変換表が完成されています。Unicode 5.2.0で追加されたCJK統合漢字拡張C(Ext-C)までの範囲に対応しています。
これに加えて、異体字があり、Unicodeで重複するものについては、既に異体字セレクターで区別が可能な水準まで変換表は作られています。
まだ全ての字について異体字セレクターが付けられていませんが、今後の開発で、異体字セレクターの情報を随時追加していく計画です。
この変換表自体はフリーソフトウェアとして頒布、開発されておりますので、興味関心のある方は、是非ご参加下さい。
弊社「もじかん」では、大漢和辞典の検字番号の直接的な符号化に「TRONコード」を採用しています。TADと呼ばれる文書形式での入出力に対応します。
具体的には、TRON コードの言語面の、第8面と第9面を用いています。
超漢字の実装では、幾つか大漢和辞典と違う字形が見受けられます。それがバグで、修正の対象であるとするならば、大漢和辞典の全ての親文字を符号化することが出来ることになります。
また、Unicodeを介することで、他の符号(シフトJISなども含む)との相互の変換も可能となっています。
弊社も協力している大漢和辞典 変換表作成計画の成果物は、変換表ですが、そのままでは利用しにくいものです。
これを加工し、プログラミング言語から利用しやすくしたものを提供することができます。具体的には「もじかん」で利用されているC/C++の構造体や周辺の処理関数などです。
上に説明した、優先度のある変換機能も提供可能です。
電子メールで、info@mirai-ii.co.jpまでよろしくお願いします。