CJK統合漢字 (シージェーケーとうごうかんじ、英 : CJK unified ideographs )は、ISO/IEC 10646 (略称:UCS[ 1] )およびUnicode ( ユニコード ) にて採用されている符号化用漢字 集合およびその符号表である。CJK統合漢字の名称は、中国語 (英 : C hinese )、日本語 (英 : J apanese )、朝鮮語 (英 : K orean )で使われている漢字をひとまとめにしたことからきている。
CJK統合漢字の初版であるUnified Repertoire and Ordering第二版は1992年に制定されたが、1994年にベトナム で使われていた漢字も含めることにしたため、CJKV (CJKV統合漢字 )と呼ばれることもある。CJKV は、中国語 ・日本語 ・朝鮮語 ・ベトナム語 (V ietnamese)を表す英語の頭文字である。特にその四つの言語で共通して使われる、または使われていた文字体系 である漢字 (チュノム を含む)のこと。ソフトウェア の国際化 、中でも文字コード に関する分野で用いられる。
CJK統合漢字は、中国 ・台湾 ・日本 ・北朝鮮 ・韓国 ・ベトナム の各国・地域の工業規格で定められた漢字コードとの対応表も定めているが、事情によりCJK統合漢字との対応を持たない各国・各地域の漢字コードをUCSに適切に変換できるよう、互換用の領域が別途定められている。この領域の漢字はCJK互換漢字 [ 2] と呼ばれる。
歴史
1978年 、日本によって世界で最初のISO 2022 に基づく漢字コード規格JIS C 6226 が制定された。1980年代には中国・台湾・韓国で次々と各国・地域用の漢字コード規格が制定されていったが、これらは互いに関連性がなく、混在させて使用するにはISO 2022 のエスケープ・シーケンスで漢字コード表を切り替えるしかなかった。
1980年 、国立国会図書館 の高橋徳太郎 が主に書誌学 の観点から、東アジアの統一漢字コードの必要性を指摘した。同年、台湾で制定された3バイト漢字コード規格CCCII は、恐らく日本・中国・台湾の漢字を統一的に扱うことを目的とした最初の規格の一つである。この規格は東アジアの文献情報用にアメリカでもANSI Z 39.64 として採用された。
1984年 、ISOの文字コード規格委員会(ISO/TC 97 - SC2)は文字セットの切り替えを行わずに世界中の文字を単一の文字集合として扱える文字コード規格(ISO 10646)を作成することを決定し、専門のワークグループ(WG2)を設置した。当初、この文字コード規格は16ビットを想定し、その中に日本や中国など各国の漢字コード表をそのまま入れることを想定していた。しかし中国はこの方式では自国で現在策定中の漢字コードが全て入らなくなるとしてこの方針に反対し [要出典 ] 、1989年 、各国の漢字コードを統合した漢字集合HCC[ 3] のアイデアを提案した。
1990年 、完成したISO 10646の初版ドラフト(DIS 10646 )では、漢字コードは32ビットで表現され、各国の漢字コードはそのまま入れることになった。しかし中国は漢字を各国でばらばらに符号化するのではなく、あくまで統一して扱うことを求めてこのドラフトには当初から反対しており、今後の漢字コードの方針を決めるため、ワークグループはCJK-JRG と呼ばれるグループを別途設置し、そこで引き続き検討することにした。
一方、1987年 頃から、ゼロックス のジョー・ベッカー[ 4] とリー・コリンズ[ 5] は世界中の文字を統一して扱える文字コードUnicodeを開発していた。1989年 に発表されたUnicodeの概要では、その基本ポリシーとして、16ビットで全ての文字を扱えることを目指しており、そのために日本・中国・韓国の漢字を統一することとしていた。1990年 にはこの方針に基づいた最終ドラフトが完成、それに賛同する企業によって、翌1991年 1月にはUnicodeコンソーシアム が設立された。このドラフトでは、日本・中国・韓国の漢字の類似する漢字を統合することで2万弱の漢字コードを入れ、さらに将来の拡張用に、3万程度の漢字の空き領域が別に用意されていた。
1991年 、ISO/IEC 10646の初版ドラフトはUnicodeとの一本化を求める各国により否決され、また中国およびUnicodeコンソーシアムの要請により、CJK-JRGにおいて、ISO 10646とUnicodeの一本化が図られることになった。CJK-JRGは各国の漢字コードに基づき独自の統合規準を定め、ISO 10646とUnicode用の統合漢字コード表を作成した。1991年末、この文字表はUnified Repertoire and Ordering(URO)として完成した。
1992年 、UROを取り込んだISO 10646の二版ドラフトが完成し、賛成多数で国際規格化された。ただしUROには若干の間違いが発見されており、それらの修正が行われている。
1993年 5月、U+4E00〜U+9FFFのブロックに最初のCJK統合漢字、20,902字が割り当てられたISO/IEC 10646が正式に制定され、その1カ月後には内容を同じくするUnicode 1.1が制定された。
1999年 、Unicode 3.0で、ISO/IEC 10646の修正案17において、CJK統合漢字拡張A として、U+3400〜U+4DFFのブロックに6,582字が追加された[ 6] 。当初は6,584文字の予定であったが、そのうち2文字が互換漢字領域にあったため、互換領域の2文字を拡張Aとして扱うことにして、この2文字は追加集合からは削除された[ 7] 。同時期に発行された修正案13において、URO漢字のうち中国に原規格がない文字に対して、GB 16500に基づく新規に原規格の割り当てが行われ[ 8] 、ベトナムの文字欄が追加されCTJKVの5欄併記となった[ 9] 。
2001年 、Unicode 3.1で、ISO/IEC 10646-2として、CJK統合漢字拡張B に42,711字が、U+20000 - U+2A6FFのブロックに追加された。しかしながら、非常に膨大な漢字集合を極めて短期間のうちに定めたため、漢字の重複や字形の誤りが多数発生した。
2005年 、Unicode 4.1で、ISO/IEC 10646:2003修正案1として、基本多言語面 (BMP)のU+9FA6 - U+9FBBに22文字の漢字が追加されて20,924文字になった。
2008年 、Unicode 5.1で、基本多言語面のU+9FBC - U+9FC3に8文字が追加されて20,932文字になった。
2009年 、Unicode 5.2で、拡張Cの4,149文字がU+2A700 - U+2B734に、基本多言語面でもU+9FC4 - U+9FCBに8文字が追加されて20,940文字になった。
2010年 、Unicode 6.0で、拡張Dの222文字がU+2B740 - U+2B81Fに追加された。
2012年 、Unicode 6.1で、基本多言語面のU+9FCCに1文字が追加されて20,941文字になった。
2015年 、Unicode 8.0で、拡張Eの5,762文字がU+2B820 - U+2CEAFに追加された。基本多言語面でもU+9FCD - U+9FD5に9文字が追加されて20,950文字になった。
2017年 、Unicode 10.0で、拡張Fの7,473文字がU+2CEB0 - U+2EBE0に追加された。基本多言語面でもU+9FD6 - U+9FEAに21文字が追加されて20,971文字になった。
2018年 、Unicode 11.0で、基本多言語面のU+9FEB - U+9FEFに5文字が追加されて20,976文字になった。
2020年 、Unicode 13.0で、拡張Gの4,939文字がU+30000 - U+3134Aに追加された。基本多言語面のU+9FF0 - U+9FFCに13文字が追加されて20,989文字になった。拡張AのU+4DB6 - U+4DBFに10文字が追加されて6,592文字になった。拡張BのU+2A6D7 - U+2A6DDに7文字が追加されて42,718文字になった
2021年 、Unicode 14.0で、基本多言語面のU+9FFD - U+9FFFに3文字が追加されて20,992文字になった。拡張BのU+2A6DE - U+2A6DFに2文字が追加されて42,720文字になった。拡張CのU+2A735 - U+2A738に4文字が追加されて4,153文字になった。
2022年 、Unicode 15.0で、拡張Hの4,193文字がU+31350 - U+323AF, 拡張CのU+2A739に1文字が追加されて4,194文字になった。
2023年 、Unicode 15.1で、拡張Iの622文字がU+2EBF0 - U+2EE5Fが追加されて622文字になった。
2024年 9月、Unicode 16.0で、拡張Jの4,300文字がU+323B0 - U+3347Bに追加予定[ 10] 。
Unicode 15.1 段階での文字数は以下の通りである(互換漢字ブロックにあり、統合漢字に準じて同等に扱われる12字を加えると97,680文字になる)。
範囲
名称
JIS日本語通用名称
字数
U+4E00 - U+9FFF
CJK Unified Ideographs
CJK統合漢字
20,992
U+3400 - U+4DBF
CJK Unified Ideographs Extension A
CJK統合漢字拡張A
6,592
U+20000 - U+2A6DF
CJK Unified Ideographs Extension B
CJK統合漢字拡張B
42,720
U+2A700 - U+2B739
CJK Unified Ideographs Extension C
CJK統合漢字拡張C
4,154
U+2B740 - U+2B81D
CJK Unified Ideographs Extension D
CJK統合漢字拡張D
222
U+2B820 - U+2CEA1
CJK Unified Ideographs Extension E
CJK統合漢字拡張E
5,762
U+2CEB0 - U+2EBE0
CJK Unified Ideographs Extension F
CJK統合漢字拡張F
7,473
U+30000 - U+3134A
CJK Unified Ideographs Extension G
CJK統合漢字拡張G
4,939
U+31350 - U+323AF
CJK Unified Ideographs Extension H
CJK統合漢字拡張H
4,192
U+2EBF0 - U+2EE5F
CJK Unified Ideographs Extension I
CJK統合漢字拡張I
624
合計
97,670
CJK統合漢字の特徴と問題点
この節には内容がありません。 加筆 して下さる協力者を求めています。 (2025年1月 )
将来の予定
中国は『康熙字典 』や、古壮字 をはじめとする少数民族で使われている特殊漢字などの文字をすべてUCSに収録させようとしており、日本や韓国、ベトナムでも漢字(国字 、韓国国字 、チュノム など)の追加提案があるため、Unicode16.0では拡張Jの追加予定があるほか、Unicodeの今後のバージョンでは、CJK統合漢字の拡張ブロックが今後更に増加する可能性がある。
甲骨文字 ・金文 ・小篆 などの古代の文字については、第三漢字面 へ追加することが検討されている。
漢字の部品と仮名やアルファベット等を組み合わせた文字(⿸广K(慶の略字)・⿱宀R(寮の略字)・⿰木キ(機の略字)・⿱⿰⿱コン⿱クリ土(コンクリート)など)[ 11] や、仏教の釈典の呪文等で使われた奇妙な字形の文字( (イン )・⿴〇⿻𠃊冂(エン)など)[ 12] は、通常の漢字とは別のブロックとしての追加が検討されている。
CJK互換漢字
U+F900 - U+FAFFのブロックである。Unicode 3.1では補助集合として第2面(追加漢字面 )にU+2F800 - U+2FA1Fのブロックが追加された。基本的にCJK統合漢字と重複する漢字が割り当てられている。
CJK統合漢字には、基本的に一つの漢字に付き一つの符号位置しか与えられないため、KS X 1001 など各国の規格で全く同じ形の漢字が重複して収録されていた場合、Unicodeとの相互変換を行った際可逆性が失われる事となる。(KS X 1001の場合、読みにより分離しているため、読みが分からなくなって困ることがある)。この問題を解決するために、このブロックが作られた。Big5 で誤って重複してしまった2字もこのブロックにある。IBM拡張漢字のうちCJK統合漢字に入れなかったものもあり、その中にはU+FA1F(﨟)やU+FA24(﨤)などCJK統合漢字に同じ漢字が存在しないため、CJK統合漢字と同じ扱いをするものが12字ある。
Unicode 3.2では、JIS X 0213 で包摂基準が変更され分離されたもののうち、「侮󠄁󠄁」や「僧󠄁󠄁」、「社󠄁」などUnicodeでは包摂されるものがこのブロックに追加された。これは、CJK統合漢字は日本以外にも中国と韓国の漢字を含めたものであり、日本だけのために包摂基準を変更して包摂分離して追加すると、他の国が国内規格と対応するUnicodeのコード値を変更しなければならないことがあるからである。例えば、「社󠄁」など⽰偏の漢字はGB 18030 では偏が「⺭」の形を採用しているが、KS X 1001では偏が「⺭」でなく「⺬」の形を採用している。もし「社󠄁」を包摂分離してCJK統合漢字の新たな符号位置に追加したとすると、GB 18030はそのままでよいが、KS X 1001の「社󠄀」のコードとの対応は新たに追加された方に変更しなければならなくなる。
原規格
漢字のそれぞれの文字には、少なくとも一つの原典参照がある。[ 13]
注記 原典が更新されても、原典参照は更新しない。更新された原典は、古い版に含まれていない文字の識別だけに用いてもよい。
原典 G
原典 G は、次のとおりに識別する。
G0 GB 2312-80
G1 GB 12345 -90
G3 GB 7589-87 繁体字
G5 GB 7590-87 繁体字
G7 現代漢語通用字表 及び簡化字総表
GS シンガポールにおける漢字
G8 GB 8565-88
G9 GB 18030 -2000
GE GB 16500-95
GH GB 15564-1995 香港の一部の文字放送用の漢字体系
GK GB 12052-89 情報交換用ハングル文字符号化文字情報
G4K 四庫全書
GBK 中国大百科全書
GCE 国家教育研究院 (英語版 )
GCH 辞海
GCY 辞源
GCYY 中国測絵科学院用字
GDM 中国公安省 戸籍人名地名漢字
GDZ 地質出版社用字
GFC 現代漢語規範詞典 第二版
GFZ 方正排版系統
GGFZ 通用規範漢字字典
GGH 古代漢語詞典
GHC 漢語大詞典
GHF 漢文仏典疑難俗字彙釈与研究
GHZ 漢語大字典
GHZR 漢語大字典第二版
GIDC 中国公安省 ID システム
GIDC23 中国公安省 ID システム 2023
GIDCX 中国公安省 ID システム
GJZ 商務印書館 用字
GKX 康熙字典 及び康熙字典補遺
GKJ Terms in Sciences and Technologies (科技用字) approved by the China National Committee for Terms in Sciences and Technologies (CNCTST)
GLGYJ 壮族 嘹歌研究
GLK 龍龕手鑑
GOCD オックスフォード英漢漢英詞典
GPGLG 壮族民歌文化叢書・平果嘹歌
GRM 人民日報 の漢字
GT 1983年標準電碼本(修訂本)
GU 原典不明(原典があるとされたが、後に誤りとされた字など)
GWZ 漢語大詞典出版社用字
GXC 現代漢語詞典
GXH 新華字典
GXHZ 新華大字典
GZ 古壮字字典
GZA-1 生生不息的伝承・孝与壮族行孝歌之研究
GZA-2 壮族倫理道徳長詩伝揚歌訳注
GZA-3 壮族民歌古籍集成・情歌(一)嘹歌
GZA-4 壮族民歌古籍集成・情歌(二)歓𭪤
GZA-6 中国壮族諺語
GZA-7 遠古的追憶・壮族創世神話古歌研究
GZFY 漢語方言大詞典
GZH 中華字海
GZJW 殷周金文集成引得
GZYS 壮族人民的文化遺産-方块壮字, 中国民族古文字研究
注記 康煕字典(GKX)として参照されている文字に対する符号表上での例示図形は、現在中国で使用されているものであり、康煕字典に示されている例示図形とは僅かに異なる場合がある。
原典 H
原典 H は、次のとおりに識別する。
H 香港増補字符集 2008
HB0 Big5 :計算機での中国語字形と文字符号との対応表, Technical Report C-26, 電脳用中文字型与字碼対照表, 技術通報 C-26, 1984, Symbols
HB1 Big5 第一水準
HB2 Big5 第二水準
HD 香港増補字符集 2016
原典 M
原典 M は、次のとおりに識別する。
MA 香港増補字符集 2008
MB1 Big5
MB2 Big5
MC 澳門増補字符集
MD MCSCS horizontal extensions
MDH MCSCS horizontal extensions
MAC 澳門資訊系統字集
原典 T
原典 T は、次のとおりに識別する。
T1 TCA-CNS 11643 -1992 第 1 面
T2 TCA-CNS 11643-1992 第 2 面
T3 TCA-CNS 11643-1992 第 3 面及び幾つかの追加文字
T4 TCA-CNS 11643-1992 第 4 面
T5 TCA-CNS 11643-1992 第 5 面
T6 TCA-CNS 11643-1992 第 6 面
T7 TCA-CNS 11643-1992 第 7 面
TA 化学命名原則(第四版)
TB TCA-CNS 11643-2007 第 11 面
TC TCA-CNS 11643-2007 第 12 面
TD TCA-CNS 11643-2007 第 13 面
TE TCA-CNS 11643-2007 第 14 面
TF TCA-CNS 11643-2007 第 15 面
T13 TCA-CNS 11643 第 19 面 (pending new version)
TU 原典なし
原典 J
原典 J は、次のとおりに識別する。
原典 K
原典 K は、次のとおりに識別する。
K0 KS X 1001:2004 (以前は,KS C 5601-1987 であった。)
K1 KS X 1002:2001 (英語版 ) (以前は,KS C 5657-1991 であった。)
K2 PKS C 5700-1 1994
K3 PKS C 5700-2 1994
K4 PKS 5700-3:1998
K5 Korean IRG Hanja Character Set 5th Edition: 2001
K6 KS X 1027-5:2014
KC 韓国歴史情報統合システム
KU 原典なし
注記 K2、K3、K4 及び K5 に含まれる漢字は、新しい韓国規格群において改訂作業が進んでいる。
原典 KP
原典 KP は、次のとおりに識別する。
KP0 KPS 9566 -97
KP1 KPS 10721:2000及び KPS 10721:2003
原典 V
原典 V は、次のとおりに識別する。
V0 TCVN 5773:1993
V1 TCVN 6056:1995
V2 VHN 01:1998
V3 VHN 02:1998
V4 喃字詞典, 岱喃字字典, 沔南喃字榜査
VN Vietnamese horizontal extensions
その他
書記素クラスタ
書記素クラスタ(grapheme cluster)で、漢字は、UTF-16で可変(16、32、48、64ビット)である[ 15] 。
基本多言語面 (BMP)
追加面
基本多言語面(BMP) + SVS(字形選択子 (Unicodeのブロック) (英語版 ) )
基本多言語面(BMP) + IVS(字形選択子補助 (英語版 ) )
追加面+IVS
参考文献
関連項目
脚注
外部リンク
ブロック名 符号位置 割当済 範囲 面 漢字統合 ブロックに含まれる用字
CJK統合漢字
〃
〃
〃
CJK統合漢字拡張A
CJK統合漢字拡張B
〃
〃
〃
〃
〃
〃
CJK統合漢字拡張C
CJK統合漢字拡張D
CJK統合漢字拡張E
CJK統合漢字拡張F
CJK統合漢字拡張G
CJK統合漢字拡張H
CJK統合漢字拡張I
CJK部首補助
康煕部首
漢字構成記述文字
CJKの記号及び句読点
CJKの筆画
囲みCJK文字・月
CJK互換用文字
CJK互換漢字
CJK互換形
囲み漢字補助
CJK互換漢字補助
20,992
6,592
42,720
4,160
224
5,776
7,473
4,944
4,192
624
128
224
16
64
48
256
256
512
32
256
544
20,989
6,592
42,720
4,154
222
5,762
7,473
4,939
4,192
622
115
214
16
64
37
255
256
472
32
64
542
4E00–62FF
6300–77FF
7800–8CFF
8D00–9FFF
3400–4DBF
20000–215FF
21600–230FF
23100–245FF
24600–260FF
26100–275FF
27600–290FF
29100–2A6DF
2A700–2B73F
2B740–2B81F
2B820–2CEAF
2CEB0–2EBE0
30000–3134F
31350–323AF
2EBF0–2EE5F
2E80–2EFF
2F00–2FDF
2FF0–2FFF
3000–303F
31C0–31EF
3200–32FF
3300–33FF
F900–FAFF
FE30–FE4F
1F200–1F2FF
2F800–2FA1F
1/4 2/4 3/4 4/4 1/7 2/7 3/7 4/7 5/7 6/7 7/7
0 BMP
0 BMP
0 BMP
0 BMP
0 BMP
2 SIP
2 SIP
2 SIP
2 SIP
2 SIP
2 SIP
2 SIP
2 SIP
2 SIP
2 SIP
2 SIP
3 TIP
3 TIP
2 SIP
0 BMP
0 BMP
0 BMP
0 BMP
0 BMP
0 BMP
0 BMP
0 BMP
0 BMP
1 SMP
2 SIP
統合
統合
統合
統合
統合
統合
統合
統合
統合
統合
統合
統合
統合
統合
統合
統合
統合
統合
統合
非統合
非統合
非統合
非統合
非統合
非統合
非統合
12字が統合
非統合
非統合
非統合
漢字
漢字
漢字
漢字
漢字
漢字
漢字
漢字
漢字
漢字
漢字
漢字
漢字
漢字
漢字
漢字
漢字
漢字
漢字
漢字
漢字
Common
漢字, ハングル , Common, Inherited
Common
ハングル, 片仮名 , Common
片仮名, Common
漢字
Common
平仮名 , Common
漢字
合計 97,058 99,098 97,048
バージョン 15.1.0 現在