大漢和辞典(諸橋大漢和)は、故・諸橋轍次氏らを中心に編纂され、大修館書店から刊行されている漢和辞典です。親文字5万字を超えるこの漢和辞典は、世界最大の漢和辞典となっています。
このプロジェクトは、個人利用から商用まで、全てにおいて無償で、かつソースの公開を義務づけないライセンス条件で利用可能な、諸橋大漢和の検字番号とUnicodeの変換表を作ることを目的とするものです。
異体字セレクターが追加されたことにより、Unicodeで文字が大量に重複するという問題が発生しています。
現在、この解決のために新異体字セレクター(仮称)を計画、開発中です。これが完成したところで、この新異体字セレクター(仮称)を使うように、方針を変更することにしました。
UnicodeのUnihanへの融合も想定しているため、Unicodeのライセンスと互換性のあるライセンスが検討されました。
現参加メンバー全員は現在、『「文字コード」や「文字の番号」に、著作権は認められない』という意見で一致しております。
結論として、現在はCreative Commons CC0
となっています。いわゆるパブリックドメインです。
このプロジェクトは、フリーでの提供を実現するため、ボランティアによって活動が行なわれます。
当面、弊社がプロジェクトマネージャを務めますが、弊社の事業ではなく、あくまでもボランティア活動です。
状況は、随時弊社のブログに書かれますので、コメントないし、弊社宛にメール等で参加を表明してください。
現在は、特にメーリングリストといったようなものは用意していないので、各自自主的に活動をしていただくことになります。
CVSのような利用者が技術力を要するものも、現時点では使っていません。
必要資料は、TRONやunicodeのサイトから、全てネットで無料で得ることができます。また大漢和辞典についても、近所の図書館にほぼ確実にあると思われます。
全てを人海戦術によって行なう計画であります。
テクストエディタと時間だけをご用意下さい。
現在の参加メンバーは二人です(順不同)。
基本的には、TRONコードとUnicodeの変換表作成を主体とし、この変換表に随時諸橋大漢和の検字番号を付与することにより、目的を達成させます。
公開するファイルは、タブ区切りファイル(TSV)です。
コメントは日本語で書かれます。符号はUTF-8(BOM無し、いわゆるUTF-8N)です。
TSVの各項目は、次の通りです。
使用する大漢和辞典は「修訂二版」です。より分かり易くいうと、超漢字に実装されている版です。
補巻の文字804種類は、50000を加算して使用しています(補1 なら、50001 とする)。
ダッシュ付きの文字516種類は、登場順に60001から60516と附番します。
基本的な項目は全て埋まっています。
現在作業しているのは、次です。
チェック、IVS化 完了範囲
今後のチェック範囲
2番目は、現在一名がチェック作業中です。
変換表作成において、これまでに判明している文字の重複は次の通りです。
この表は、変換しながら書き加えていくため、今後も増えていきます。
変換表作成において、これまでに判明している文字の重複は次の通りです。
この表は、変換しながら書き加えていくため、今後も増えていきます。
ダウンロードする前に、以下の件について同意して戴く必要があります。
加工、修正しても、それを再配布する義務は生じませんが、その成果物をContribute(〈援助・知識・時間・労力などを〉提供すること)して戴くことは、フリーソフトウェアの精神に基づいて歓迎致します。
提供されるものは作成されたデータファイルのみですが、未来情報産業株式会社ではプログラム制作のご相談に応じます。詳しくは、電子メールで、info@mirai-ii.co.jpまでお問合せください。
最新版で、次の点が変更されました。