「文字コード」と一言で呼ばれますが、次の二つの概念を含んでいます。
ある集合に、どのような文字をどのような番号で配置させるか、というのがCCSです。それを、実際にコンピューターで扱えるような形式にしたものをCESといいます。追って説明します。
日本語の符号化文字集合には、次のようなものがあります。
これらは、このままではコンピューターで扱いにくいので、コンピューターで扱えるように符号化します。この方法が次のCESです。
JISの符号の場合、次のようなものがよく使われます。
Unicodeの符号の場合、次のようなものがよく使われます。
弊社製品「もじかん」では、CCSとCESを分離して管理しています。
例えば「シフトJIS」とひとくくりにして変換する文字コード変換ツールは星の数ほどあります。
しかし、シフトJISはあくまでも符号化方法(CES)で、実際の文字集合(CCS)が何であるかは分かりません。
正確に変換したいというニーズを満たすためには、両者を分離して管理する必要があります。
もじかんは、両者を分離して管理しており、それを指定することができます。
「もじかん」では、様々なCCSに対応しています。
一つシフトJISでも、40種類以上のCCSに対応し、様々な環境で作られた文書を、他の環境で利用できるように変換することができます。
現在、日本語で対応する符号と集合は、もじかんの対応符号(言語別)‐日本語を参照して下さい。
弊社「もじかん」では、様々なCCSを情報損失なく扱うために、内部では独自の符号体系を用いています。
Unicodeを介する変換も多くありますが、そうでない変換もあります。
また、Unicodeに無い文字にも対応することができます。
電子メールで、info@mirai-ii.co.jpまでよろしくお願いします。