未来情報産業株式会社 大漢和辞典 変換表作成計画


LOCATION:

プロジェクト概要

大漢和辞典(諸橋大漢和)は、故・諸橋轍次氏らを中心に編纂され、大修館書店から刊行されている漢和辞典です。親文字5万字を超えるこの漢和辞典は、世界最大の漢和辞典となっています。

このプロジェクトは、個人利用から商用まで、全てにおいて無償で、かつソースの公開を義務づけないライセンス条件で利用可能な、諸橋大漢和の検字番号とUnicodeの変換表を作ることを目的とするものです。

作業休止中

異体字セレクターが追加されたことにより、Unicodeで文字が大量に重複するという問題が発生しています。

現在、この解決のために新異体字セレクター(仮称)を計画、開発中です。これが完成したところで、この新異体字セレクター(仮称)を使うように、方針を変更することにしました。

ライセンス

UnicodeのUnihanへの融合も想定しているため、Unicodeのライセンスと互換性のあるライセンスが検討されました。

現参加メンバー全員は現在、『「文字コード」や「文字の番号」に、著作権は認められない』という意見で一致しております。

結論として、現在はCreative Commons CC0 となっています。いわゆるパブリックドメインです。

参加者募集中

このプロジェクトは、フリーでの提供を実現するため、ボランティアによって活動が行なわれます。

当面、弊社がプロジェクトマネージャを務めますが、弊社の事業ではなく、あくまでもボランティア活動です。

状況は、随時弊社のブログに書かれますので、コメントないし、弊社宛にメール等で参加を表明してください。

現在は、特にメーリングリストといったようなものは用意していないので、各自自主的に活動をしていただくことになります。

CVSのような利用者が技術力を要するものも、現時点では使っていません。

必要資料は、TRONやunicodeのサイトから、全てネットで無料で得ることができます。また大漢和辞典についても、近所の図書館にほぼ確実にあると思われます。

全てを人海戦術によって行なう計画であります。

テクストエディタと時間だけをご用意下さい。

参加メンバー

現在の参加メンバーは二人です(順不同)。

仕様

基本的には、TRONコードとUnicodeの変換表作成を主体とし、この変換表に随時諸橋大漢和の検字番号を付与することにより、目的を達成させます。

公開するファイルは、タブ区切りファイル(TSV)です。

コメントは日本語で書かれます。符号はUTF-8(BOM無し、いわゆるUTF-8N)です。

TSVの各項目は、次の通りです。

  1. TRONコード (面番号-面内番号、例8-2121)
  2. Unicode符号位置(第一候補) (例U+4E00)
  3. Unicode符号位置(第二候補、必要な場合のみ)
  4. 諸橋大漢和 検字番号(検字番号5桁-ダッシュ数、例00001-0)
  5. 諸橋大漢和 検字番号(重複や移動がある場合、親字の検字番号)
  6. (予約) (コメントはこの付近から書き始める)

使用する大漢和辞典は「修訂二版」です。より分かり易くいうと、超漢字に実装されている版です。

補巻の文字804種類は、50000を加算して使用しています(補1 なら、50001 とする)。

ダッシュ付きの文字516種類は、登場順に60001から60516と附番します。

現在の作業

基本的な項目は全て埋まっています。

現在作業しているのは、次です。

チェック、IVS化 完了範囲

今後のチェック範囲

  1. 8-3B50~8-3CF5 / 02481-0…24061-0
  2. 8-5980~8-FDFD / 27571-0…48055-0

2番目は、現在一名がチェック作業中です。

重複に関する資料

大漢和の重複文字

変換表作成において、これまでに判明している文字の重複は次の通りです。

この表は、変換しながら書き加えていくため、今後も増えていきます。

Unicodeの重複文字

変換表作成において、これまでに判明している文字の重複は次の通りです。

この表は、変換しながら書き加えていくため、今後も増えていきます。

利用規約や同意事項等

ダウンロードする前に、以下の件について同意して戴く必要があります。

加工、修正しても、それを再配布する義務は生じませんが、その成果物をContribute(〈援助・知識・時間・労力などを〉提供すること)して戴くことは、フリーソフトウェアの精神に基づいて歓迎致します。

提供されるものは作成されたデータファイルのみですが、未来情報産業株式会社ではプログラム制作のご相談に応じます。詳しくは、電子メールで、info@mirai-ii.co.jpまでお問合せください。

ダウンロード

最新版

最新版で、次の点が変更されました。

  1. Ext-A領域にある漢字(U+3402からU+4D77まで)に異体字セレクターを付けた。(吉田)
  2. 統合漢字のU+4E00からU+530Cまでに異体字セレクターを付けた。(吉田)
  3. ライセンスを、修正BSDライセンスからCC0に変更し、完全なフリーになりました。

過去の版と更新履歴

戻る
Copyright © Mirai Corporation 2007-2010 All rights reserved.