未来情報産業株式会社 新異体字セレクター作成計画


LOCATION:

プロジェクト概要

はじめに

Unicodeには、異体字セレクターというものがあります。

しかし、その異体字の番号の振り方はISO/IEC 10646による議論を経てなされるものではなく、提案されたものに異常が無ければ収録されることになっています。

民主的な議論などは何もないばかりか、同じ文字に複数の番号を与えるような運用がなされており、しかも第三者がそれを止める権利はありません。

ただ、今さらこれを廃止することも難しいので、新たに「これを包み込む」仕様を策定し、標準化することを目指しています。

新異体字セレクターは、この従来のセレクターを「レガシー」(過去の遺物)と位置付けます。同じ字はまとめて同じ番号を振り、新旧で相互変換を実現しながら新たな技術の方向性を示します。更に、従来のセレクターではなされていなかった新たな大規模漢字集合にも対応していく計画です。

符号位置

現在、漢字用に使われている異体字セレクターの符号位置は、次の通りです

U+E0100 … U+E01EF

新異体字セレクターは、この旧異体字セレクターを完全に包括する仕様とし、新たに、次の符号位置を求めていく計画です。

U+E0200 … U+E02FF

ライセンス

UnicodeのUnihanへの融合も想定しているため、Unicodeのライセンスと互換性のあるライセンスとします。

新異体字セレクターは、それ自体が一つの大規模な文字集合の規格になります。

とは言え、「文字コード」や「文字の番号」に、著作権を認めると様々な問題を起こします。

結論として、Creative Commons CC0 として開発を進めます。いわゆるパブリックドメインで、一切の権利を放棄します。

あらゆる場面で自由に利用できることは、国際標準ならびに工業規格として、求められる最低限のものではないでしょうか。

但し、Unicode, Inc.のIVD_Sequences.txtを加工して使用していますので、その著作権が含まれている可能性があることにはご留意ください。Unicodeに含める、という将来的な目標という意味では、この点は何らの支障も無いものと考えています。

参加者募集中

ボランティア

このプロジェクトは、フリーでの提供を実現するため、UnicodeないしISOの場に提出されるまでの間は、ボランティアによって活動が行なわれます。

字形に関する議論、成果物の作成、不具合の検証等は、全てボランティア活動によってなされ、実用水準に達した段階でUnicodeないしISOに提出される計画です。

状況は、随時弊社のブログに書かれますので、コメントないし、弊社宛にメール等で参加を表明してください。ツイッターやブログへのコメントなどで、気の向くままでの参加も歓迎します。

コストを最低限、参加の敷居も平地同様とするため、全てを人海戦術によって行なう計画であります。議論をどこでするかが当面の課題ではありますが、皆様のお時間を、激動の情報処理の世界のために提供戴ければ幸いです。

英語が出来る方を募集中

将来的に、UnicodeまたはISO/IEC 10646に提出するにあたり、英語が分かる人が求められています。

そもそも、このページの英訳も必要なことでしょう。

どうか、皆様のご協力をお願いします。

仕様

基本的には、新異体字シーケンスを主キーに、それに対応する文字を一覧化することで、目的を達成させます。

公開するファイルは、タブ区切りファイル(TSV)です。

TSVの各項目は、次の通りです。

  1. 新異体字シーケンス (例: 4E00 E0200)
  2. 対応する文字の情報(1) (例:4E00 E0100; Adobe-Japan1; CID+1200)
  3. 対応する文字の情報(2)(あれば)
  4. これ以降、あるだけ

文字の情報欄は、セミコロン+空白区切りとする(例「4E00 E0100; Adobe-Japan1; CID+1200」)。

  1. 旧異体字シーケンス (例: 4E00 E0100) なければ空欄
  2. 文字集合名 (一覧は後述)
  3. その文字集合における、文字の名前

「文字集合名」で、現在対応しているもの(必要に応じて追加または変更の可能性あり)。

「文字の名前」の特例

現時点ではU+E0200からの符号位置が得られていないため、制作中は仮の符号位置として、U+FF200 … U+FF2FF を使用します。将来的に、0x1F000 を引けば、正規の符号位置になります。

重要な議題

  1. 新しい異体字セレクターの素案

    計画発起について

  2. 新しい異体字セレクターの素案2

    暫定的な仕様案について

計画概案

  1. Adobe-Japan1と汎用電子を融合した暫定仕様を作る
  2. 各字ごとに、異体字番号を綺麗に並び替える
  3. 諸橋大漢和辞典を融合する

ここまでを当面の課題とし、将来的に以下を実現する。

  1. 康熙字典を融合する
  2. GT書体を融合する

利用規約や同意事項等

ダウンロードする前に、以下の件について同意して戴く必要があります。

加工、修正しても、それを再配布する義務は生じませんが、その成果物をContribute(〈援助・知識・時間・労力などを〉提供すること)して戴くことは、フリーソフトウェアの精神に基づいて歓迎致します。

ダウンロード

最新版

最新版で、次の点が変更されました。

  1. 現在提案中の汎用電子(U+38xx〜U+3Dxxまで)を追加

過去の版と更新履歴

戻る
Copyright © Mirai Corporation 2007-2011 All rights reserved.