この項目では、中国語の文字コードについて説明しています。その他の用法については「ビッグ5 」をご覧ください。
Big5 (ビッグファイブ、中国語名:大五碼 あるいは五大碼 )は、繁体字 中国語 の文字コード (文字集合 )で、台湾 ・香港 ・マカオ といった繁体字圏で最も一般的に使われている。
特徴
1984年 5月1日 に台湾の資訊工業策進会(Institute for Information Industry)が制定したもので、「電腦用中文字型與字碼對照表 」として発行したものである。5大パソコン メーカーであったエイサー(宏碁) 、マイタック(神通)、佳佳、ゼロワン(零壱)、FIC(大衆)が共同で策定したことによりこの名がある。このオリジナルのBig5の文字セットは、後の拡張と対比してBig5-1984 と呼ばれることがある。
ローマ字 、アラビア数字 、蘇州号碼 、記号 類、注音符号 のほか、漢字1万3062字を収録するが、そのうち2字は重複しているため、実際の漢字の文字集合は1万3060字である[1] 。台湾 や香港 、マカオ などの繁体字地域で普及しているが、MS-DOS 時代の「中国語システム(中文系統)」、Windows やMac OS といったオペレーティングシステム で採用されたことにより定着したデファクトスタンダード である。2003年にCNS 11643 の附属書で追認され公的規格となった。
2バイト で約1万3000字を収容し、第一バイトは0xA1〜0xC6および0xC9〜0xF9、第二バイトは0x40〜0x7Eおよび0xA1〜0xFEの範囲をとる。大きく分けて、非漢字、常用漢字、次常用漢字の3つのブロックで構成され、漢字 は総画数 順、次いで部首順に配列されている。これはJIS X 0208 やGB 2312 の第2水準の「部首・画数順」とは逆になる。なお一部、重複している漢字や、配列の誤りがある。
符号空間がシフトJIS と似ており、第二バイトに0x5Cが含まれるため、シフトJISの抱える円記号問題 と同様の問題をも抱えている。ただし、シフトJISはJIS X 0208 文字集合の符号化方式 の一つであるのに対して、Big5は文字集合と符号化方式が一体化しており、通常これ以外の符号化方式で利用されない点が大きく異なる。
拡張
Big5に対しては、これまでさまざまな拡張が行われている。代表的なものについて以下に挙げる。
民間の独自拡張
民間の独自拡張としては、Windows 95 以前に最も普及していた中国語システムである倚天中文系統 のものが古くから知られている。「碁銹恒裏墻粧嫺 」の7字(倚天拡張字)のほか、罫線素片 やキリル文字 、丸数字 などが採用されている。また倚天の拡張には仮名 が含まれ、Big5ベースのシステムで日本語 を表現する方法として盛んに用いられた。この拡張は、時に「Big5-Eten」とも呼ばれ、独自拡張としては最も重要なものの一つといえる。
Microsoft Windows で使われている繁体字文字集合である「コードページ950」は、オリジナルのBig5に、倚天拡張字7字と罫線素片を取り入れたものである。Windows ME からは、「€ (ユーロ記号 )」が追加された。
台湾の公的拡張
Big5+
中文數位化技術推廣基金會(Chinese Foundation For Digitization Technology, CMEX, 中推会)が「BIG-5碼字集擴編計畫」により1997年7月に策定したもので、ISO/IEC 10646 :1993 (Unicode 1.1) の漢字をすべて取り入れたもの。追加部分は、一般の文書で常用される「標準字集」の4670字と、「推薦字集」の3250字からなる。この文字コードセットは、従来のBig5のコードの範囲を超えていることから、Windowsなどのパーソナルコンピュータ・オペレーティングシステムで使用することができず、ほとんど普及しなかった。Unicodeの漢字をすべて取り込んだことと、文字符号化の手法の2点において中国 のGBK によく似ている。
Big-5E
「BIG-5碼補充字集 (BIG-5 Extension Character Set)」の略称。Big5の外字エリアに収まるようにBig5+の「標準字集」から政府機関で常用される3954字を選び出したもの。
Big5-2003
中華民国国家標準 を所管する経済部 標準検験局 の委託を受けた中推会は、国内の業者・専門家を招集して Big5の対照表を作成し、CNS 11643に附属書として盛り込んだ。これにより Big5は正式に公的規格の一部分となった。
Big5-2003には、Big5-1984の全ての文字のほか、マイクロソフト・コードページ950のユーロ記号、倚天拡張の0xA3C0-0xA3E0、0xC6A1-0xC7F2、0xF9D6-0xF9FE の範囲の文字が追加された。Big5-2003には、CNS 11643にないという理由で、「行列輸入法」の特殊符号や0xC7F3-0xC875のキリル文字は収録されなかった。それ以外の倚天拡張の文字は全て取り込まれた。
香港の公的拡張
香港増補字符集 HKSCS
香港政府 によって当初Big5の拡張文字セット(外字 )として制定された文字集合。Big5に収録されなかった広東語 方言字 、固有名詞や科学技術に用いる漢字、仮名、漢字の部品などを補充したもの。
注
^ 漢字領域以外に度量衡記号の領域0xA259-0xA261に「兙兛兞兝兡兣嗧瓩糎 」の9文字がある。重複字は「兀」(0xC94A)と「嗀 」(0xDDFC)。
参考資料
出典は列挙するだけでなく、脚注 などを用いてどの記述の情報源であるかを明記してください。 記事の信頼性向上にご協力をお願いいたします。(2011年9月 )
関連項目
カテゴリ
日本語 用の 文字コード
日本語を含む 多言語文字集合
日本語以外用の 文字集合
初期の文字コード
ISO/IEC 8859
書誌用
ISO 5426
ISO 5426-2
ISO 5427
ISO 5428
ISO 6438
ISO 6861
ISO 6862
ISO 9036
ISO 10585
ISO 10586
ISO 10754
ISO 11822
ANSEL
MARC-8
国家標準
EUC
ISO/IEC 2022
ISO/IEC 2022 CN
ISO/IEC 2022 KR
CCCII
MacOS コードページ
Macintosh Standard Roman Character Set
アラビア語
CentralEurRoman
EUC-CN
Big5
クロアチア語
キリル
デーヴァナーガリー
Dingbats
ペルシャ語
ギリシア語
グジャラート語
グルムキー
ヘブライ語
アイスランド語
EUC-KR
ルーマニア語
MacSymbol
TIS-620
トルコ語
ウクライナ語
DOS コードページ
437
720
737
775
850
852
855
857
858
860
861
862
863
864
865
866
869
KOI8
Kamenicky
Mazovia
MIK
Iran System
Windows コードページ
EBCDIC コードページ
その他標準
記号用
プラットフォーム 固有
ATASCII
CDC display code
DEC Radix-50
Fieldata
GSM 03.38
HP roman8
PETSCII
TI calculator character sets
ZX Spectrum character set
ソフトウェア
区分け
概念
関連トピック