未来情報産業株式会社 もじかんの対応符号(言語別)


LOCATION:

対応符号

対応符号一覧

はじめに

はじめに(凡例等)

日本語

日本語(ja)

符号名(CES)集合(CCS)指定名
SJISShift_JIS (※8) 汎用SJIS
JIS C 6226-1978SHIFT_JIS/6226
PC-9801SHIFT_JIS/98
DOS/V (CP932)SHIFT_JIS/IBM
OS/2 (CP932)SHIFT_JIS/OS2
JIS X 0208SHIFT_JIS
JIS X 0208-1983SHIFT_JIS/1983
JIS X 0208-1990、1997SHIFT_JIS/1990
EPSON PCSHIFT_JIS/EPSON
AXSHIFT_JIS/AX
Windows-31JSHIFT_JIS/WIN
Mac OS (osaka) (※11)SHIFT_JIS/MAC
CP10001CP10001
ARIB STD-B24SHIFT_JIS/ARIB_STD-B24
OS/2CP942
CP942C
CP943
CP943C
NTTドコモ (※14)汎用SHIFT_JIS/DOCOMO
SHIFT_JIS/DOCOMOOLD
SHIFT_JIS/DOCOMOEX
au (※14)SHIFT_JIS/AU
SHIFT_JIS/AU/1
SHIFT_JIS/AU/2
SHIFT_JIS/AU/3
SHIFT_JIS/AU/4
SHIFT_JIS/AU/5
SHIFT_JIS/AU/6
ソフトバンク (※14)SHIFT_JIS/J-PHONE/3.0
SHIFT_JIS/J-PHONE/4.0
SHIFT_JIS/VODAFONE
SHIFT_JIS/SOFTBANK2G
SHIFT_JIS/SOFTBANK3G
イーモバイル (※14)SHIFT_JIS/EM
ウィルコム (※14)SHIFT_JIS/PHS
MSX (※15)汎用SHIFT_JIS/MSX
汎用1SHIFT_JIS/MSX/1
パナSHIFT_JIS/MSX/PANA
パナ1SHIFT_JIS/MSX/PANA/1
ソニーSHIFT_JIS/MSX/SONY
ソニー1SHIFT_JIS/MSX/SONY/1
三洋1SHIFT_JIS/MSX/SANYO/1
MSXPLAYerSHIFT_JIS/MSXPLAYER
Shift_JISX0213 JIS X 0213:2000SHIFT_JISX0213
Shift_JISX0213-plane1 JIS X 0213:2000SHIFT_JISX0213-PLANE1
Shift_JIS-2004 JIS X 0213:2004SHIFT_JIS-2004
Shift_JIS-2004-plane1 JIS X 0213:2004SHIFT_JIS-2004-PLANE1
SJIS-EX(WZ拡張) SJIS-EXSJIS-EX
符号名(CES)集合(CCS)指定名
EUCEUC-JP 汎用EUC
JIS C 6226-1978EUC-JP/6226
PC-9801EUC-JP/98
IBMPC (DOS/V)EUC-JP/IBM
JIS X 0208EUC-JP
JIS X 0208-1983EUC-JP/1983
JIS X 0208-1990、1997EUC-JP/1990
EPSON PCEUC-JP/EPSON
AXEUC-JP/AX
WindowsEUC-JP/WIN (※5)
ARIB STD-B24EUC-JP/ARIB_STD-B24
eucJP-open eucJP-msEUCJP-MS
eucJP-asciiEUCJP-ASCII
eucJP-0201EUCJP-0201
EUC-JISX0213 JIS X 0213:2000EUC-JISX0213
EUC-JISX0213-plane1 JIS X 0213:2000EUC-JISX0213-PLANE1
EUC-JIS-2004 JIS X 0213:2004EUC-JIS-2004
EUC-JIS-2004-plane1 JIS X 0213:2004EUC-JIS-2004-PLANE1
EUC-JP(Windows) CP51932CP51932 (※5)
EUC-HJ (戸籍情報システム) EUC-HJ (※6)EUC-HJ
DECDEC 漢字 (※9) JIS C 6226-1978DECKANJI/1978
JIS X 0208-1983DECKANJI
Super DEC 漢字 (※9) JIS X 0212SDECKANJI
DEC 漢字 2000 (※9) JIS X 0213:2000DECKANJI2000
Windows-20932 Windows-20932CP20932
符号名(CES)集合(CCS)指定名
2022ISO-2022-JP JIS C 6226-1978ISO-2022-JP/6226
PC-9801ISO-2022-JP/98
IBMPC (DOS/V)ISO-2022-JP/IBM
JIS X 0208ISO-2022-JP
JIS X 0208-1983ISO-2022-JP/1983
JIS X 0208-1990、1997ISO-2022-JP/1990
EPSON PCISO-2022-JP/EPSON
AXISO-2022-JP/AX
ISO-2022-JP(Windows) CP50220ISO-2022-JP/WIN
CP50221CP50221
CP50222CP50222
ISO-2022-JP-MSISO-2022-JP-MS
ISO-2022-JP-1 JIS X 0212ISO-2022-JP-1
JIS X 0212 + PC-9801ISO-2022-JP-1/98
JIS X 0212 + EPSON PCISO-2022-JP-1/EPSON
JIS X 0212 + WindowsISO-2022-JP-1/WIN
ISO-2022-JP-2 汎用ISO-2022-JP-2
PC-9801ISO-2022-JP-2/98
EPSON PCISO-2022-JP-2/EPSON
WindowsISO-2022-JP-2/WIN
ISO-2022-JP-3 JIS X 0213:2000ISO-2022-JP-3
ISO-2022-JP-3-strict JIS X 0213:2000ISO-2022-JP-3-STRICT
ISO-2022-JP-3-plane1 JIS X 0213:2000ISO-2022-JP-3-PLANE1
ISO-2022-JP-3-compatible JIS X 0213:2000ISO-2022-JP-3-COMPATIBLE
ISO-2022-JP-2004 JIS X 0213:2000ISO-2022-JP-2004
ISO-2022-JP-2004-strict JIS X 0213:2000ISO-2022-JP-2004-STRICT
ISO-2022-JP-2004-plane1 JIS X 0213:2000ISO-2022-JP-2004-PLANE1
ISO-2022-JP-2004-compatible JIS X 0213:2000ISO-2022-JP-2004-COMPATIBLE
ARIB STD-B24 8単位符号 (※7) 汎用ARIB_STD-B24
JIS X 0208ARIB_STD-B24/JISX0208
JIS X 0208(PUA優先)ARIB_STD-B24/PUA
JIS X 0213:2004ARIB_STD-B24/JISX0213
ISO-646 ISO-646-JP(Roman)ISO-646-JP
ISO-646-JP(Kana)(※4)JISX0201
ISO-646-JP-OCR-BISO-646-JP-OCR-B
符号名(CES)集合(CCS)指定名
UTF-8(携帯電話機) (※14) NTTドコモUTF-8/DOCOMO
UTF-8/DOCOMOOLD
UTF-8/DOCOMOEX
auUTF-8/AU
UTF-8/AU/1
UTF-8/AU/2
UTF-8/AU/3
UTF-8/AU/4
UTF-8/AU/5
UTF-8/AU/6
ソフトバンクUTF-8/J-PHONE/3.0
UTF-8/J-PHONE/4.0
UTF-8/VODAFONE
UTF-8/SOFTBANK2G
UTF-8/SOFTBANK3G
イーモバイルUTF-8/EM
ウィルコムUTF-8/PHS
符号名(CES)集合(CCS)指定名
JIS (※10) JIS C 6226-1978JISC6226
JIS X 0208-1983JISX0208-1983
JIS X 0208-1990JISX0208
PC-9801JIS/98
IBMPC (DOS/V)JIS/IBM
EPSON PCJIS/EPSON
AXJIS/AX
JIS X 0212:1990JISX0212
JEF基本集合(12pt) (※12) EBCDIC(英子文字)JEFC
EBCDIC(カナ)JEFK
EBCDIC(ASCII)JEFA
基本集合(9pt) (※12) EBCDIC(英子文字)JEFC9P
EBCDIC(カナ)JEFK9P
EBCDIC(ASCII)JEFA9P
KEIS基本集合(78JIS) EBCDIC (※13)KEIS7C
EBCDIKKEIS7K
基本集合(83JIS) EBCDIC (※13)KEIS8C
EBCDIKKEIS8K
JIS X 0201 (半角カナ)(※4)JISX0201
6229 JIS C 6229 OCR-A (ISO-IR-91)ISO-IR-91
JIS C 6229 OCR-B 追加集合 (ISO-IR-93)ISO-IR-93
JIS C 6229 基本手書き図形文字集合 (ISO-IR-94)ISO-IR-94
JIS C 6229 追加手書き図形文字集合 (ISO-IR-95)ISO-IR-95
JIS C 6229 片仮名手書き図形文字集合 (ISO-IR-96)ISO-IR-96
MSX ANKMSX
  1. ISO-646系符号は、ISO/IEC 2022からの入力に対応しています。
  2. ISO/IEC 2022系への出力は、対応可能なISO-2022-JP系符号のみ対応します。
  3. なお、ISO-646系符号を手動で指定した場合、ISO/IEC 2022ではなく純粋なISO 646モードになります。エスケープシーケンスの入力は認識しませんのでご注意下さい。
  4. JISX0201モードは、GLがISO-646-JP(英数)、GRがISO-646-JP(Kana)で固定です。GLにISO-646-JP(Kana)を手動で設定することはできません。またISO 646モードと同様、エスケープシーケンスの入力は認識しません。
  5. EUC-JPは、ISO/IEC 2022に準拠して実装されています。Windowsの文字集合を指定する「EUC-JP/WIN」の場合も同様です。一方、Windows標準のEUC-JP(コードページ51932)は、でたらめな実装がされており、おかしな動作をします。この動作と互換のある動作をさせるためには、指定名を「CP51932」としてください。詳細は、「Windowsの標準EUC-JP」を参照してください。
  6. EUC-HJは、専用の外字領域を、アルゴリズム的にUnicodeの外字領域とマッピングする機能を有効にするものです。文字の種類を認識して他の符号に割り当てる機能は、現在提供されているアプリケーションでは対応していません。「ユーザー定義外字に関する情報」も合わせて参照して下さい。
  7. ARIB STD-B24 8単位符号は、現在「入力のみ対応」となっています。出力は将来的に対応予定です。
  8. シフトJISにおいて、JIS X 0208からUnicodeへの変換は、汎用/Windows/CP943/CP943Cで大きく変化します。WindowsはU+FFxxに、それ以外は汎用的な符号になる傾向が強くなっています。
  9. DEC漢字、Super DEC漢字、DEC漢字2000は、EUC-JP相当の集合と、拡張領域のうち外字集合に対応しています。Superと2000はSS2で半角カナが利用できます。また94区に罫線がある等、DEC独自の拡張文字があるようですが、現在は未対応で将来的に対応予定です。「ユーザー定義外字に関する情報」も合わせて参照して下さい。
  10. JIS X 0208およびJIS X 0212の出力は、ISO-2022-JP(-1)相当ですがエスケープシーケンスを付けない状態で入出力されます。改行コード含め当該文字集合に無い文字は変換できません。
  11. Unicodeに無い特殊記号類については、unicode.orgの変換表にあるように、Unicode外字を用いた特殊な符号化で対応しています。このため、Unicodeへの出力は不明文字扱いにはなりませんが、他の環境では処理困難な文字列が出力されることになります。
  12. 12ptと9ptの指定は入力では無視され、入力されたデータから双方のKIを自動認識します。出力は、指定されたポイントに対応するKIを出力します。
  13. KEISのEBCDIC集合は仕様が不明のため、JEFの英子文字集合を暫定的に用いています。
  14. ケータイ絵文字(携帯電話機、PHS電話機の絵文字)に対応する動作モードです。文字集合の違いなど、詳細は「ケータイ絵文字に関する各種情報」を参照して下さい。
  15. MSXで、1を付けたものは第一水準限定のものです。

ヨーロッパ言語

英語(en)

符号名指定名
ISO-646-US (ASCII)ASCII
ISO-646-IRVISO-646-IRV
IBM-437 (CP437) (DOS US)IBM-437
ISO-646-GBISO-646-GB
ISO-IR-47IR47
ISO-IR-182 ラテンアルファベットNo.1 Welsh版IR182
ISO 646 invariant (ISO-IR-170)IR170
INIS G0 (ISO-IR-49)IR49
INIS G1非標準 (ISO-IR-50)IR50
IBM-285IBM-285
IBM-1146 (IBM-285+ユーロ)IBM-1146

ISO-646系符号は、ISO/IEC 2022からの入力に対応しています。ISO/IEC 2022系への出力は対応していません。

なお、ISO-646系符号を手動で指定した場合、ISO/IEC 2022ではなく純粋なISO 646モードになります。エスケープシーケンスの入力は認識しませんのでご注意下さい。

西欧系言語汎用

符号名(CES)集合(CCS)指定名
ISO/IEC 8859-1 (ISO_8859-1)ISO-8859-1
ISO/IEC 8859-15 (ISO_8859-15) ISO-IR-204ISO-8859-15
Windows-1252WINDOWS-1252
ISO-IR-203ISO-IR-203
MacMacRomanMACROMAN
CP10000 (Windows)CP10000
IBM-850 (DOS Latin-1)IBM-850
IBM-853 (DOS Multilingual Latin 3)IBM-853
IBM-858 (DOS Latin-1 ユーロ記号)IBM-858
OS/2 LATIN1 (CP1004)CP1004
IBM-865 (DOS Nordic)IBM-865
IBM-1051 (HP-ROMAN8)IBM-1051
NEXTSTEPNEXTSTEP
ATARI STATARI-ST
RISCOS-LATIN1RISCOS-LATIN1
NATS-SEFINATS-SEFI
NATS-SEFI-ADDNATS-SEFI-ADD
NATS-DANONATS-DANO
NATS-DANO-ADDNATS-DANO-ADD
ISO-IR-70 ビデオテックス追加集合IR70
ISO-IR-90 ISO 6937/2 部分集合 (※1)ISO 6937IR90
ISO-IR-142 追加図形文字集合 (ISO 6937/2 plus Addendum 1)IR142
ISO-IR-152 ISO 6937-2:1983 残余文字IR152
ISO-IR-156 ISO/IEC 6937:1992 補助集合IR156
CP20269CP20269
ISO-IR-102 基本集合T.61IR102
ISO-IR-103 追加集合IR103
T.61-8BITT.61-8BIT
CP20261CP20261
ISO-IR-128 CCITT T.101T.101IR128
T.101-G2T.101-G2
ISO-IR-123 カナダ標準 Z 243.4 一般用補助図形IR123
ISO-IR-154 ラテンアルファベット No.1,2,5 追加集合 (※2)IR154
IBM-37IBM-37
IBM-1140 (IBM-37+ユーロ)IBM-1140
IBM-500IBM-500
IBM-1148 (IBM-500+ユーロ)IBM-1148

ISO-646系符号とISO-IR系符号は、ISO/IEC 2022からの入力に対応しています。ISO/IEC 2022系への出力は対応していません。

なお、ISO-646系符号を手動で指定した場合、ISO/IEC 2022ではなく純粋なISO 646モードになります。エスケープシーケンスの入力は認識しませんのでご注意下さい。

  1. ISO-IR-90は、ISO 6937/2としての処理を実装していません。連結文字は、Unicodeで単独の文字(連結用ではない文字)として出力しています(前置・後置の仕様差があるため)。ISO 6937/2の処理は、需要に応じて作成します。
  2. ISO-IR-154は、基本的にG3で使われ、G0、G1、G2には他の符号を呼び出して使いますが、手動設定ではG1を使っています。

西欧系・デンマーク語(da)

符号名指定名
ISO-646-DKISO-646-DK
IBM-277 (デンマーク、ノルウェー)IBM-277

現在、デンマーク語の符号の主流は西欧系言語汎用です。合わせて参照してください。

ISO-646系符号は、ISO/IEC 2022からの入力に対応しています。ISO/IEC 2022系への出力は対応していません。

なお、ISO-646系符号を手動で指定した場合、ISO/IEC 2022ではなく純粋なISO 646モードになります。エスケープシーケンスの入力は認識しませんのでご注意下さい。

西欧系・ドイツ語(de)

符号名指定名
ISO-646-DEISO-646-DE
ISO-IR-167 アラビア語/フランス語/ドイツ語文字集合 IR167
IBM-273IBM-273
IBM-1141 (IBM-273+ユーロ)IBM-1141

現在、ドイツ語の符号の主流は西欧系言語汎用です。合わせて参照してください。

ISO-646系符号は、ISO/IEC 2022からの入力に対応しています。ISO/IEC 2022系への出力は対応していません。

なお、ISO-646系符号を手動で指定した場合、ISO/IEC 2022ではなく純粋なISO 646モードになります。エスケープシーケンスの入力は認識しませんのでご注意下さい。

西欧系・オランダ語(nl)

符号名指定名
EBCDIC 00013 (Netherlands)CP13

現在、ドイツ語の符号の主流は西欧系言語汎用です。合わせて参照してください。

西欧系・スペイン語(es)

符号名指定名
ISO-646-ESISO-646-ES
ISO-646-ES2ISO-646-ES2
ISO-646-CU (キューバ・スペイン語)ISO-646-CU
IBM-284IBM-284
IBM-1145 (IBM-284+ユーロ)IBM-1145

現在、スペイン語の符号の主流は西欧系言語汎用です。合わせて参照してください。

ISO-646系符号は、ISO/IEC 2022からの入力に対応しています。ISO/IEC 2022系への出力は対応していません。

なお、ISO-646系符号を手動で指定した場合、ISO/IEC 2022ではなく純粋なISO 646モードになります。エスケープシーケンスの入力は認識しませんのでご注意下さい。

西欧系・フィン語(フィンランド語)(fi)

符号名指定名
ISO-646-FIISO-646-FI
IBM-278 (フィンランド、スウェーデン)IBM-278

現在、フィンランド語の符号の主流は西欧系言語汎用です。合わせて参照してください。

ISO-646系符号は、ISO/IEC 2022からの入力に対応しています。ISO/IEC 2022系への出力は対応していません。

なお、ISO-646系符号を手動で指定した場合、ISO/IEC 2022ではなく純粋なISO 646モードになります。エスケープシーケンスの入力は認識しませんのでご注意下さい。

西欧系・エストニア語(et)

符号名指定名
CP922 (AIX、DOS)CP922/AIX
CP922 (IBM-922)IBM-922
CP902 (IBM-902)IBM-902
IBM-1122IBM-1122

西欧系・フランス語(fr)

符号名指定名
ISO-646-FR:1973ISO-646-FR:1973
ISO-646-FR:1982ISO-646-FR
ISO-646-CAISO-646-CA
ISO-646-CA2ISO-646-CA2
IBM-863 (カナダフランス語)IBM-863
IBM-297IBM-297
IBM-1147 (IBM-297+ユーロ)IBM-1147
EBCDIC 00009 (France, Belgium) CP9
EBCDIC 00015 (Switzerland (French)) CP15

現在、フランス語の符号の主流は西欧系言語汎用です。合わせて参照してください。

ISO-646系符号は、ISO/IEC 2022からの入力に対応しています。ISO/IEC 2022系への出力は対応していません。

なお、ISO-646系符号を手動で指定した場合、ISO/IEC 2022ではなく純粋なISO 646モードになります。エスケープシーケンスの入力は認識しませんのでご注意下さい。

西欧系・アイルランド語(ゲール語)(ga)

符号名指定名
I.S. 433:1996 (ISO-646 variant)IS433

現在、アイルランド・ゲール語の符号の主流は西欧系言語汎用です。合わせて参照してください。

ISO-646系符号は、ISO/IEC 2022からの入力に対応しています。ISO/IEC 2022系への出力は対応していません。

なお、ISO-646系符号を手動で指定した場合、ISO/IEC 2022ではなく純粋なISO 646モードになります。エスケープシーケンスの入力は認識しませんのでご注意下さい。

西欧系・古アイルランド語(sga)

符号名指定名
ISO-IR-208 情報交換用オガム文字集合IR208

オガム文字。碑文に残る古い言語で、現用言語文字ではありません。現在のアイルランド語は、アイルランド・ゲール語西欧系言語汎用を参照してください。

西欧系・イタリア語(it)

符号名指定名
ISO-646-ITISO-646-IT
IBM-280IBM-280
IBM-1144 (IBM-280+ユーロ)IBM-1144
EBCDIC 00012 (Italy)CP12
EBCDIC 00280 (Italy - CECP)CP280

現在、イタリア語の符号の主流は西欧系言語汎用です。合わせて参照してください。

ISO-646系符号は、ISO/IEC 2022からの入力に対応しています。ISO/IEC 2022系への出力は対応していません。

なお、ISO-646系符号を手動で指定した場合、ISO/IEC 2022ではなく純粋なISO 646モードになります。エスケープシーケンスの入力は認識しませんのでご注意下さい。

西欧系・ノルウェー語(no)

符号名指定名
ISO-646-NOISO-646-NO
ISO-646-NO2ISO-646-NO2
IBM-277 (デンマーク、ノルウェー)IBM-277
IBM-1142 (IBM-277+ユーロ)IBM-1142

現在、ノルウェー語の符号の主流は西欧系言語汎用です。合わせて参照してください。

ISO-646系符号は、ISO/IEC 2022からの入力に対応しています。ISO/IEC 2022系への出力は対応していません。

なお、ISO-646系符号を手動で指定した場合、ISO/IEC 2022ではなく純粋なISO 646モードになります。エスケープシーケンスの入力は認識しませんのでご注意下さい。

西欧系・ポルトガル語(pt)

符号名指定名
ISO-646-PT:1976ISO-646-PT:1976
ISO-646-PT:1984ISO-646-PT
IBM-860 (DOSポルトガル語)IBM-860

現在、ポルトガル語の符号の主流は西欧系言語汎用です。合わせて参照してください。

ISO-646系符号は、ISO/IEC 2022からの入力に対応しています。ISO/IEC 2022系への出力は対応していません。

なお、ISO-646系符号を手動で指定した場合、ISO/IEC 2022ではなく純粋なISO 646モードになります。エスケープシーケンスの入力は認識しませんのでご注意下さい。

西欧系・スウェーデン語(sv)

符号名指定名
ISO-646-SEISO-646-SE
ISO-646-SE2ISO-646-SE2
IBM-278 (フィンランド、スウェーデン)IBM-278
IBM-1143 (IBM-278+ユーロ)IBM-1143

現在、スウェーデン語の符号の主流は西欧系言語汎用です。合わせて参照してください。

ISO-646系符号は、ISO/IEC 2022からの入力に対応しています。ISO/IEC 2022系への出力は対応していません。

なお、ISO-646系符号を手動で指定した場合、ISO/IEC 2022ではなく純粋なISO 646モードになります。エスケープシーケンスの入力は認識しませんのでご注意下さい。

西欧系・ケルト語派 (スコットランド・ゲール語(gd)、ウェールズ語(cy))

符号名指定名
ISO/IEC 8859-14 (ISO_8859-14)ISO-8859-14

西欧系・北欧汎用 (イヌイット語(iu)、サミ語(se))

符号名指定名
ISO/IEC 8859-10 (ISO_8859-10、Latin-6)ISO-8859-10

北欧は、他に東欧のバルト語派があります。

西欧系・サミ語(se)

符号名指定名
Windows-Sami-2WINDOWS-SAMI-2
ISO-IR-197 サミ語 補助ラテン集合ISO-IR-197
ISO-IR-209 サミ語 補助ラテン集合2ISO-IR-209

Windows-Sami-2は、以下サイトの変換表を参考文献として実装しています。

http://www.hum.uit.no/a/trond/ws2t.html

Firefoxは対応していませんが、Operaは対応しており、検証に使用しています。

西欧系・南欧汎用

符号名指定名
ISO/IEC 8859-3 (ISO_8859-3)ISO-8859-3

西欧系・現代ギリシャ語(el)

符号名(CES)集合(CCS)指定名
ISO/IEC 8859-7ISO/IEC 8859-7:2003 (ISO_8859-7) ISO-8859-7
ISO/IEC 8859-7:1987 (ELOT 928)ISO_8859-7:1987
Windows-1253 WINDOWS-1253
MacGreekMacGreek MACGREEK
CP10006CP10006
DOS 737 (IBM-737、DOSギリシャ語)IBM-737
DOS 869 (IBM-869、DOSギリシャ語2)IBM-869
ISO-IR-18IR18
ISO-IR-19IR19
ISO-IR-27IR27
ISO 5428-1980 (ISO-IR-55)IR55
ISO-IR-88IR88
ISO-IR-150 CCITTギリシャ基本集合IR150
ISO-IR-31 書誌用ギリシャ文字集合(ISO 5428-1974) (※1)IR31
IBM-875IBM-875
IBM-423IBM-423IBM-423
Windows-20423WINDOWS-20423
  1. 暫定的な対応です。アクセント記号類の一切に、現時点で未対応です(仕様不明のため)。情報あり次第、対応する予定です。

西欧系・アイスランド語(is)

符号名(CES)集合(CCS)指定名
MacMaciceland、MacIcelandic MACICELANDIC
CP10079 CP10079
IBM-861 (DOSアイスランド語) IBM-861
IBM-871 IBM-871
IBM-1149 (IBM-871+ユーロ)IBM-1149

中東欧系・北欧・バルト語派(bat)

符号名指定名
ISO/IEC 8859-4 (ISO_8859-4) ISO-8859-4
ISO-IR-205 (ISO_8859-4、ユーロ記号) ISO-IR-205
ISO/IEC 8859-13 (ISO_8859-13) ISO-8859-13
ISO-IR-206 (ISO_8859-13、ユーロ記号) ISO-IR-206
Windows-1257 WINDOWS-1257
IBM-775 (CP775) IBM-775

北欧は、他に西欧系の北欧汎用があります。

中東欧系汎用

符号名指定名
ISO/IEC 8859-2 (ISO_8859-2) ISO-8859-2
Windows-1250 WINDOWS-1250
IBM-852 (DOS Latin-2) IBM-852
MacCE、MacCentralEurope (CP 10029) MACCE

中東欧系・ラトビア語(lv)

符号名指定名
IBM-1112 (ラトビア、リトアニア)IBM-1112

現在、ラトビア語の符号の主流は中東欧系・北欧・バルト語派汎用です。合わせて参照してください。

中東欧系・リトアニア語(lt)

符号名指定名
IBM-1112 (ラトビア、リトアニア)IBM-1112

現在、リトアニア語の符号の主流は中東欧系・北欧・バルト語派汎用です。合わせて参照してください。

中東欧系・チェコ語(cs)

符号名指定名
ČSN 36 91 03 右側 (ISO-IR-139)IR139

現在、チェコ語の符号の主流はUTF-8または中東欧系汎用です。合わせて参照してください。

中東欧系・ハンガリー語(マジャル語)(hu)

符号名指定名
ISO-646-HUISO-646-HU

現在、ハンガリー語の符号の主流は中東欧系汎用です。合わせて参照してください。

ISO-646系符号は、ISO/IEC 2022からの入力に対応しています。ISO/IEC 2022系への出力は対応していません。

なお、ISO-646系符号を手動で指定した場合、ISO/IEC 2022ではなく純粋なISO 646モードになります。エスケープシーケンスの入力は認識しませんのでご注意下さい。

中東欧系・クロアチア語(hr)、セルビア語(sr)ラテン文字

符号名(CES)集合(CCS)指定名
MacMacCroatian MACCROATIAN
CP 10082 CP10082
ISO-646-YU (JUS_I.B1.002) ISO-646-YU

現在、クロアチア語、セルビア語の符号の主流は中東欧系汎用です。合わせて参照してください。

ISO-646系符号は、ISO/IEC 2022からの入力に対応しています。ISO/IEC 2022系への出力は対応していません。

なお、ISO-646系符号を手動で指定した場合、ISO/IEC 2022ではなく純粋なISO 646モードになります。エスケープシーケンスの入力は認識しませんのでご注意下さい。

中東欧系・セルビア語(sr)キリル文字

符号名指定名
ISO-IR-146 (JUS I.B1.003) IR146

中東欧系・マケドニア語(mk)キリル文字

符号名指定名
ISO-IR-147 (JUS I.B1.004) IR147

中東欧系・ルーマニア語(ro)

符号名(CES)集合(CCS)指定名
ISO/IEC 8859-16 (ISO_8859-16) ISO-8859-16
MacMacRomanian MACROMANIAN
CP 10010 CP10010

中東欧系・ロシア語(ru)

符号名(CES)集合(CCS)指定名
ISO_8859-5:1988 (Cyrillic) ISO-8859-5
KOI8KOI8-R (RFC 1489) KOI8-R
KOI8-RU KOI8-RU
KOI8-T KOI8-T
KOI8-C (古代ロシア語) (※1) KOI8-C
Windows-1251 WINDOWS-1251
DOS 855 (CP855、IBM-855) IBM-855
DOS 866 (CP866、IBM-866) IBM-866
ISO-IR-111 (ECMA-94) IR111
ISO-IR-37 (ISO 5427:1981基本) IR37
ISO-IR-54 (ISO 5427:1981拡張) IR54
MacCyrillicMacCyrillic MACCYRILLIC
CP10007CP10007
INIS G1キリル (ISO-IR-51)IR51
8ビット基本キリル文字集合(ST SEV 358-88)IR153
ISO-IR-200 ウラル諸語 補助キリル文字集合IR200
ISO-IR-201 ヴォルガ川沿岸フィン諸語 補助キリル文字集合IR201
IBM-1025IBM-1025
  1. KOI8-C(古代ロシア語)は、XFree86の実装を基準として実装されています。同名のドラフト仕様draft-winitzki-koi8c-encoding-00.txtが確認されていますが、これとは異なります。

中東欧系・ウクライナ語(uk)

符号名(CES)集合(CCS)指定名
KOI8-U (RFC 2319) KOI8-U
MacMacUkrainian MACUKRAINIAN
CP10017 CP10017
IBM-1124 IBM AIXウクライナ語 IBM-1124
IBM-1125 DOSウクライナ語IBM-1125
IBM-1123IBM-1123

中東欧系・ベラルーシ語(白ロシア語)(be)

符号名指定名
DOS 849 (CP849、IBM-849) ユーロ記号 IBM-849
DOS 1131 (CP1131、IBM-1131) IBM-1131

中東欧系・カザフ語(kk)

符号名指定名
KZ-1048 KZ-1048

中近東

中近東・アラビア語(ar)

符号名(CES)集合(CCS)指定名
ISO-8859-6 ISO-8859-6
ASMO 708 ASMO708
DOS-720 DOS720
Windows-1256 WINDOWS-1256
IBM-864 (※3) (標準)IBM-864
Windows 2000IBM-864/Windows2000
Windows XPIBM-864/WindowsXP
IBM-1046 (※2) IBM-1046
MacArabicMacArabic MACARABIC
CP10004CP10004
ASMO 449 (※1) ASMO449
ISO-IR-167 アラビア語/フランス語/ドイツ語文字集合 IR167
IBM-420CP420

現在、アラビア語の方向性などについては特別な処理をしていません。

  1. ASMO 449は、ISO/IEC 2022からの入力に対応しています。ISO/IEC 2022系への出力は対応していません。
  2. IBM-1046は、glibc-2.2-iconvに準拠しています。libiconv-1.6相当と比較し、0xD8が変更され、未定義の0x83…0x86、0xA1…0xA3、0xA5、0xF6が定義されています。
  3. IBM-864は、基本的な文字集合のほか、Windowsの集合にも対応させています。Windows 2000とXPは、空き領域に適当な文字や外字が割り当てられています。

中近東・ペルシャ語(fa)

符号名指定名
MacFarsi (CP10049) MACFARSI
IBM-1098 ペルシャ語 (※1)CP1098
IBM-1097 ペルシャ語IBM-1097

現在、ペルシャ語の方向性などについては特別な処理をしていません。

  1. IBM-1098のUnicode未定義の3文字(0x88、0x8b、0x8f)は、暫定的に外字領域を割り当てています(JDK互換)。

中近東・ウルドゥー語(ur)

符号名指定名
CP868 CP868
CP1006 CP1006
IBM-918 IBM-918
IBM-5104 IBM-5104

現在、ウルドゥー語の方向性などについては特別な処理をしていません。

デーヴァナーガリー文字で記述する派生言語にヒンディー語があります。

中近東・ヘブライ語(he)

符号名(CES)文字集合(CCS)指定名
ISO-8859-8ISO-8859-8:1988 (RFC 1555) ISO-8859-8:1988
ISO-8859-8:1999 ISO-8859-8
WINDOWS-20598 WINDOWS-20598
IBM-916 IBM-916
ISO-8859-8-i (※2)ISO-8859-8-i:1988 (RFC 1555) ISO-8859-8-I:1988
ISO-8859-8:1999 ISO-8859-8-I
WINDOWS-30598 WINDOWS-30598
Windows-1255 WINDOWS-1255
CP856 (※1)unicode.org/iconv CP856
JDK CP856/JDK
IBM-856 IBM-856
DOS-862 (IBM-862) IBM-862
MacHebrewMacHebrew MACHEBREW
CP10005CP10005
ISO-IR-164 CCITT ヘブライ補助集合 IR164
ISO-IR-198 Latin/Hebrew alphabet IR198
IBM-424CP424

現在、ヘブライ語の方向性などについては特別な処理をしていません。

  1. CP856には3種類の非互換な文字集合があります。unicode.orgと比較し、JDK版は0xEEと0xFAの2文字に、IBM版は0x1A、0x1C、0x7F、0xEE、0xFAの5文字に差があります。
  2. ISO-8859-8-iに暫定的に対応していますが、現時点では処理内容はISO-8859-8と全く同じです。文字コードレベルで手を加える箇所があるのかどうか、現時点では定かでありません。

アフリカ

アフリカの言語

符号名指定名
ISO 6438 アフリカ言語文字集合 ISO6438

アフリカ大陸は侵略の歴史を持っており、公用語はその殆どが民族語ではなく西欧や中東の言語となっています。

使用文字は、北半分はアラビア文字圏、南半分はラテン文字圏。エチオピア周辺では、エチオピア文字(ゲーズ文字ないしアムハラ文字とも)という独自の文字を使用している。エチオピア文字の独自の符号は知られておらず、UTF-8を使うのが一般的。

西南アジア、東南アジア

西南・東南亜系・アルメニア語(hy)

符号名指定名
ARMSCII-8 (AST 34.002) ARMSCII-8
ARMSCII-8a (AST 34.002) ARMSCII-8A
ARMSCII-7 (AST 34.005) ARMSCII-7

西南・東南亜系・グルジア語(ka)

符号名指定名
GEOSTD8 GEOSTD8
GEORGIAN-ACADEMY GEORGIAN-ACADEMY
GEORGIAN-PS GEORGIAN-PS

GEOSTD8は、draft-giasher-geostd8-00.txt を参考文献として実装しています。

西南・東南亜系・タイ語(th)

符号名(CES)集合(CCS)指定名
TISMicrosoft Windows Codepage : 874 (TIS620-1) WINDOWS-874
ISO-8859-11 (ISO-IR-166) (※1) ISO-8859-11
TIS 620-2533 1990 (TIS620-0) (※1) TIS-620
TIS 620-2 TIS620-2
IBM-1161 IBM-1161
MacThaiMacThai MACTHAI
JDK MACTHAI/JDK
CP10021 (Windows 2000) CP10021/W2K
CP10021 (Windows XP) CP10021
IBM-838CP838
  1. ISO-8859-11とTIS 620-2533はほぼ同じですが、TIS 620には2/0(0xa0)のNBSPが無い点のみ異なります。

西南・東南亜系・ラーオ語(ラオス語)(lo)

符号名指定名
MULELAO-1 MULELAO-1
CP1133 (※1) CP1133
  1. CP1133は96文字集合として実装し、0xa0は未定義文字、0xffはNBSP(U+00A0)として実装しています。なお、iconv等ではこの逆の実装がなされています。

西南・東南亜系・トルコ語(tr)

符号名(CES)集合(CCS)指定名
ISO-8859-9 ISO-8859-9
Windows-1254 Windows-1254
IBM-857 IBM-857
MacMacTurkish MACTURKISH
CP10081 CP10081
TDS-565 (ISO-IR-230) TDS-565
TDS-616:2003 (ISO-IR-232) TDS-616
IBM-1026 (Latin #5 - Turkey)IBM-1026

西南・東南亜系・ベトナム語(vi)

符号名指定名
Windows-1258 (※1) WINDOWS-1258
IBM-1129 IBM-1129
IBM-1163 (ユーロ記号) IBM-1163
TCVN-5712:1993 VN-1 TCVN
VISCII 1.0 VISCII/1.0
VISCII 1.1 (RFC 1456) VISCII
VPS VPS
VIQR (※2) VIQR (RFC 1456)
VNI VNI
TVCN 5712-2:1993/ISO-IR-180 (VSCII-2) VSCII-2
TVCN 5712-1:1993 (VSCII-1) VSCII-1
  1. Windows-1258は連結文字と結合済みの文字があります。入力は両対応、出力は1バイトで表わせるものは1バイトで表わします。
  2. VIQRは、RFC 1456の記載に準拠していますが、文字は<>で囲まない仕様のみ対応しています。
  3. ベトナム語処理に関する詳細は、「ベトナム語に関する情報」を参照してください。

西南・東南亜系・インド諸語、インド語派(inc)

符号名指定名
ISCII (IS 13194:1991) (※1) ISCII
ISCII デーヴァナーガリー文字 ISCII-DEVANAGARI
ISCII ベンガル文字 (※2) ISCII-BENGALI
ISCII タミル文字 ISCII-TAMIL
ISCII テルグ文字 ISCII-TELUGU
ISCII アッサム文字 (※2) ISCII-ASSAMESE
ISCII オリヤー文字 ISCII-ORIYA
ISCII カンナダ文字 ISCII-KANNADA
ISCII マラヤーラム語 ISCII-MALAYALAM
ISCII グジャラーティー文字 ISCII-GUJARATI
ISCII グルムキー文字(パンジャブ語) ISCII-GURMUKHI

インドには多数の言語文字があるものの基本は類似するため、インドでの言語電子化では共通音素を符号化し、コード処理と表示処理は階層を分ける標準規格IS 13194が採用されています。

  1. 言語を指定しない場合(標準)の初期状態は、デーヴァナーガリー文字となります。但しこのモードでは、デーヴァナーガリー文字であっても常にATRで言語を切り替える符号を出力します。
  2. ベンガル文字とアッサム文字はUnicodeではベンガル文字として統合されています。出力の際、特にアッサム文字と明言が無い場合は標準でベンガル文字として出力します。
  3. 0xd9(Consonant INVISIBLE)は、UnicodeのU+200E(LEFT-TO-RIGHT MARK)に割り付けています。
  4. ISCIIの実装処理系とは無関係に、各言語ごとに、Unicode 5.2までに存在する文字全てを割り付けています。

西南・東南亜系・インド・ヒンディー語(hi)・ デーヴァナーガリー文字

符号名指定名
ISCII ISCII-DEVANAGARI
MacDevanagari MACDEVANAGARI

アラビア文字で記述する派生言語にウルドゥー語があります。

現在、ヒンディー語の符号の主流はUTF-8です。

西南・東南亜系・インド・ベンガル語(bn)

符号名指定名
ISCII ISCII-BENGALI

現在、インドにおけるベンガル語の符号の主流はUTF-8です。

バングラデシュにおけるデファクトスタンダード、Bijoyへの対応を鋭意検討中ですが、情報がありません。ブログへの情報提供をお願いしております。

西南・東南亜系・インド・タミル語(ta)

符号名指定名
ISCII ISCII-TAMIL

現在、タミル語の符号の主流はUTF-8です。

西南・東南亜系・インド・テルグ語(te)

符号名指定名
ISCII ISCII-TELUGU

現在、テルグ語の符号の主流はUTF-8です。

西南・東南亜系・インド・アッサム語(as)

符号名指定名
ISCII ISCII-ASSAMESE

現在、アッサム語の符号の主流はUTF-8です。

西南・東南亜系・インド・オリヤー語(or)

符号名指定名
ISCII ISCII-ORIYA

現在、オリヤー語の符号の主流はUTF-8です。

西南・東南亜系・インド・カンナダ語(kn)

符号名指定名
ISCII ISCII-KANNADA

現在、カンナダ語の符号の主流はUTF-8です。

西南・東南亜系・インド・マラヤーラム語(ml)

符号名指定名
ISCII ISCII-MALAYALAM

現在、マラヤーラム語の符号の主流はUTF-8です。

西南・東南亜系・インド・グジャラート語(gu)

符号名指定名
ISCII ISCII-GUJARATI
MacGujarati MACGUJARATI

現在、グジャラート語の符号の主流はUTF-8です。

西南・東南亜系・インド・パンジャブ語(pa)、グルムキー文字

符号名指定名
ISCII ISCII-GURMUKHI
MacGurmukhi MACGURMUKHI

現在、パンジャブ語の符号の主流はUTF-8です。

東アジア

東亜系・大陸簡体(zh-cn)

符号名(CES)集合(CCS)指定名
EUC EUC-CNGB 2312-80EUC-CN
IBM-5478 IBM-5478
CP1333 (AIX) (※7) CP1333
CP1381 (OS/2) (※7) CP1381
MacMac OS MACCHINESESIMP
CP10008 (Windows) CP10008
CP20936 (Windows) CP20936
GBK GBKGBKGBK
CP936 (Windows 2000) (※7) CP936/WIN2K
CP936 (Windows XP) (※7) CP936
CP936 (JDK) (※7) CP936/JDK
IBM-1386 (※7) IBM-1386
GB 18030-2000 (GBK2K) (※7) GB 18030-2000GBK2K
ISO-2022 (RFC 1922) ISO-2022-CNISO-2022-CN
ISO-2022-CN-EXT (※4)ISO-2022-CN-EXT
GB 2312-80 (※6)GB 2312-80 GB2312
SHIFTGB SHIFTGB
HZ (RFC 1843) (※5) HZ
ISO-IR-165 (※6) IR165
ISO-646-CN (※3) ISO-646-CN
  1. ISO-646系符号は、ISO/IEC 2022からの入力に対応しています。ISO/IEC 2022系への出力は対応していません。
  2. なお、ISO-646系符号を手動で指定した場合、ISO/IEC 2022ではなく純粋なISO 646モードになります。エスケープシーケンスの入力は認識しませんのでご注意下さい。
  3. 出力に「ISO-646-CN」または「ISO-646-CN/GB2312」を指定すると、GB2312のエスケープシーケンスを優先して出力します。「ISO-646-CN/CNS」を指定すると、CNS 11643が優先されます。
  4. ISO-2022-CN-EXTは、終端文字の無い符号には対応していません。終端文字がある符号は全て対応しています(GB 2312-80、CNS 11643-1/2/3/4/5/6/7、ISO-IR-165)。CNS 11643の実装については、「CNS 11643に関する情報」を合わせてお読み下さい。
  5. HZは、RFC 1843に準拠しています。~{と~}と~\nに対応します。RFC 1842にある~[!-z|]は現時点では対応していません。
  6. GB 2312、ISO-IR-165の出力は、ISO-2022-CN相当ですがエスケープシーケンスを付けない状態で入出力されます。改行コード含め当該文字集合に無い文字は変換できません。
  7. ユーザー定義外字に対応しています。但し、各符号でそれぞれ違う仕様となっています。「ユーザー定義外字に関する情報」も合わせて参照して下さい。

東亜系・台灣正體(zh-tw)、香港(zh-hk)

符号名(CES)集合(CCS)指定名
Big5 汎用BIG5
Big5-1984BIG5-1984
Big5-2003BIG5-2003
Big5-ETENBIG5-ETEN
CP950 (Windows) (※1)CP950
MacMacChineseTradMACCHINESETRAD
CP10002 (Windows)CP10002
HKSCSBig5-HKSCS (最新)BIG5-HKSCS
Big5-HKSCS-1999BIG5-HKSCS-1999
Big5-HKSCS-2001BIG5-HKSCS-2001
Big5-HKSCS-2004BIG5-HKSCS-2004
Big5-HKSCS-2004追加2006.11BIG5-HKSCS-2004+200611
Big5-HKSCS-2004追加2008.02BIG5-HKSCS-2004+200802
Big5-HKSCS-2004追加2008.08BIG5-HKSCS-2004+200808
Big5EBIG5E
big5-uao (Firefox) (※2)BIG5-UAO
Big5+ Big5+BIG5+
EUC/EUC拡張EUC-TW (※6) CNS 11643 (最新)EUC-TW
CNS 11643-1986EUC-TW/1986
CNS 11643-1992EUC-TW/1992
CNS 11643-2004EUC-TW/2004
DEC HANYU (※5) DEC-HANYU
CP20000 CP20000
CP20004 (TeleText 台湾) CP20004
CP20001系CP20001 (TCA 台湾) CP20001
CP20002 (Eten 台湾) CP20002
CP20003 (IBM5550 台湾) CP20003
CP20005 (Wang 台湾) CP20005
ISO-2022-CN (RFC 1922) ISO-2022-CN
ISO-2022-CN-EXT (RFC 1922) (※4) ISO-2022-CN-EXT
  1. Windowsの標準的なCCSは、CP950です。Internet ExplorerのBig5も同様です。
  2. Mozilla Firefox 3が対応するBig5のCCSは、big5-uao(BIG5 Unicode 補完計画拡張コード)です。詳細は、「Big5に関する情報」を参照してください。
  3. 出力に「ISO-646-CN/CNS」を指定すると、CNS 11643のエスケープシーケンスを優先して出力します。「ISO-646-CN」のみの場合は「GB 2312」が優先されます。
  4. ISO-2022-CN-EXTは、終端文字の無い符号には対応していません。終端文字がある符号は全て対応しています(GB 2312-80、CNS 11643-1/2/3/4/5/6/7、ISO-IR-165)。CNS 11643の実装については、「CNS 11643に関する情報」を合わせてお読み下さい。
  5. DEC HANYUは、DECの独自コードの一つです。CNS 11643-1/2と、UDC(外字)、DTSCSに対応しています。「ユーザー定義外字に関する情報」も合わせて参照して下さい。
  6. EUC-TWは、1/2/3/4/5/6/7/12/13の各字面と、CNS 11643:1986の第14字面(現在の第三字面に相当)に対応しています。CNS 11643の実装については、「CNS 11643に関する情報」を合わせてお読み下さい。

東亜系・朝鮮語(ko)

符号名(CES)集合(CCS)指定名
EUC-KR 汎用 (※1)EUC-KR
KS X 1001-1987EUC-KR/1987
KS X 1001:1998EUC-KR/1998
KS X 1001:2002EUC-KR/2002
MacMacKorean KS X 1001-1987MACKOREAN
CP10003KS X 1001-1987CP10003
UHC (Windows-949、CP949C) (※3) 汎用 (※1)UHC
KS X 1001-1987UHC/1987
KS X 1001:1998UHC/1998
KS X 1001:2002UHC/2002
JOHAB (Windows-1361、CP1361) 汎用 (※1)JOHAB
KS X 1001-1987JOHAB/1987
KS X 1001:1998JOHAB/1998
KS X 1001:2002JOHAB/2002
ISO-2022-KR (RFC 1557) (※2) 汎用 (※1)ISO-2022-KR
KS X 1001-1987ISO-2022-KR/1987
KS X 1001:1998ISO-2022-KR/1998
KS X 1001:2002ISO-2022-KR/2002
EUC-KP (※4) KPS 9566-97 (※7)EUC-KP
ISO-2022-KP (※5) ISO-2022-KP
KPS 9566-2003 (※6) KPS 9566-2003 (※7)KPS9566-2003
  1. 汎用は、搭載済みの最新の文字集合が自動的に適用されます(現時点では2002)
  2. ISO-2022-KRは、1998年版と2002年版は文字集合の拡張があるため更新シーケンス(ESC 2/6 4/x)を使用するべきと考えられますが、仕様が不明のため対応していません。
  3. CP949/CP949Cは、WindowsのUHCに準じて実装されています。Java(JDK)にあるCP949/CP949Cは、Windowsのものとかなりの仕様差が見られますが、こちらには現在対応していません。需要に応じて対応予定です。
  4. EUC-KPという符号は制定されていませんが、EUC-KR相当の符号で文字集合のみをKPS 9566-97に置き換えたものとして実装しています。
  5. ISO-2022-KPという符号は、実際には存在していないようなので、実質的に、本実装のオリジナルの符号となります。ISO-2022-KRと同様に、G1を使うように実装してあります。
  6. KPS 9566-2003は、符号(CES)と文字集合(CCS)の双方を含めた仕様のようです。南のUHC相当の拡張をして、全ハングルが利用できるように符号が拡張されています。
  7. KPS 9566-97/2003は、例の文字を含めたUnicodeに無い文字も、内部コードで処理するため問題なく利用できます。北朝鮮の符号以外に出力する場合(例えば南の符号)は、相当する文字に置換されます。従ってラウンドトリップは出来ない代わり、文字自体の読み取りは可能となります。
戻る
Copyright © Mirai Corporation 2007-2010 All rights reserved.