GBK 인코딩이란 무엇인가요?
GBK는 또 다른 한자 인코딩 표준으로, 전체 이름은 "중국 내부 코드 확장 사양"(GBK), 영어 이름은 중국 내부 코드 사양, 인민공화국 국가정보기술표준화기술위원회입니다. 1995년 12월 중국에서 제정되었으며 1995년 12월 1일에 제정되었다. 국가기술감독국 표준화부와 전자공업부 과학기술품질감독부에서 공동으로 기술규격 지침문서로 확정하였다. 1995년 12월 15일 기술 감독 입찰서 [1995] No. 229 양식, 출시 및 구현. GBK 사양의 이 버전은 버전 1.0입니다. GB는 "국가 표준"을 의미하고 K는 중국어 병음 "확장"의 첫 글자입니다.
GBK는 GB 2312 인코딩과 하향 호환되며 ISO 10646.1 국제 표준을 상향 지원합니다. 전자에서 후자로 전환하는 과정에서 연결 표준입니다.
ISO 10646은 국제표준화기구(International Organization for Standardization) ISO에서 발표한 코딩 표준으로, UCS(Universal Multi-Octet Coded Character Set)로 중국 본토에서는 "Universal Multi-Octet Coded Character Set"으로 번역됩니다. 그리고 대만의 "Universal Multi-Octet Coded Character Set". "널리 사용되는 멀티 옥텟 인코딩 문자 세트"는 유니코드 조직의 유니코드 인코딩과 완벽하게 호환됩니다. ISO 10646.1은 "아키텍처 및 기본 다국어 평면" 표준의 첫 번째 부분입니다. 우리 나라에서는 1993년에 GB 13000.1 국가 표준 형식으로 이를 인정했습니다(즉, GB 13000.1은 ISO 10646.1과 동일합니다).
ISO 10646은 세계의 다양한 언어에 대한 문자 형식과 추가 기호를 포함하는 코딩 시스템입니다. 한자 부분을 "CJK 통일한자"라고 합니다(C는 중국, J는 일본, K는 북한을 나타냄). 중국어 부분에는 GB 2312, GB 12345, 중국 본토에서 유래한 "현대 한어 보편 문자 목록" 등 법적 표준의 한자 및 기호와 CNS의 첫 번째 및 두 번째 리터럴(기본 문자)이 포함됩니다. 대만에서 유래한 11643 표준. BIG-5 인코딩과 동일), 14번째 문자 및 기호.
1. 어휘
GBK 사양에는 ISO 10646.1의 모든 CJK 중국어 문자와 기호가 포함되어 있으며 보완되었습니다. 구체적으로 다음을 포함합니다:
1. GB 2312의 모든 중국어 문자 및 중국어가 아닌 문자 기호.
2. GB 13000.1의 기타 CJK 한자. 위의 총 문자 수는 20902GB입니다.
3. "간체자 목록"의 한자는 GB 13000.1에 포함되지 않습니다.
4. GB 13000.1의 28개 부수와 중요 구성요소는 "강희사전"과 "자해"에 포함되어 있지 않습니다.
5. 한자 구조 문자 13자.
6. GB 2312에는 포함되지 않지만 GB 13000.1에는 존재하는 BIG-5의 139개 그래픽 기호.
7. GB 12345에는 6개의 병음 기호가 추가되었습니다.
8. 한자 '○'.
9. GB 12345는 19개의 세로 구두점을 추가합니다(GB 12345는 GB 2312에 비해 29개의 세로 구두점을 추가하며, 그 중 10개는 GB 13000.1에 포함되지 않으므로 GBK는 이를 포함하지 않습니다).
10. GB 13000.1의 CJK 호환 영역에서 선택된 21개의 한자.
11. IBM OS/2 특수 기호 31개에 대한 수익은 GB 13000.1입니다.
2. 코드 포인트 할당 및 순서
GBK도 전체 코딩 범위는 8140-FEFE이고 첫 번째 바이트는 81-FE이고 마지막 바이트는 81-FE입니다. 바이트가 8140과 FEFE 사이에 있으면 xx7F 줄을 제거합니다. 총 23,940개의 코드포인트가 있으며, 한자(부수 및 구성요소 포함) 21,003개와 그래픽 기호 883개를 포함해 한자 및 그래픽 기호 21,886개가 수집되어 있습니다.
모든 코딩은 세 부분으로 나누어집니다:
1. 포함:
a. GB 2312 한자 영역. 즉 GBK/2: B0A1-F7FE. 원래 순서대로 정렬된 6763GB 2312개의 한자를 포함합니다.
b. GB 13000.1 한자 영역을 확장합니다. 포함:
(1) GBK/3: 8140-A0FE. GB 13000.1에는 6080개의 CJK 중국어 문자가 포함되어 있습니다.
(2) GBK/4: AA40-FEA0. 8160개의 CJK 한자와 보충 한자가 포함되어 있습니다. CJK 한자는 앞부분에 UCS 코드 크기에 따라 배열되고, 보조 한자(부수 및 구성요소 포함)는 맨 끝에 "강희사전"의 페이지 번호/문자 위치에 따라 배열됩니다.
2. 그래픽 심볼 영역. 포함:
a. GB 2312 비한자 기호 영역. GBK/1: A1A1-A9FE입니다. GB 2312의 기호 외에 10개의 소문자 로마 숫자와 GB 12345로 보충된 기호가 있습니다. 총 717개의 기호가 있습니다.
b. GB 13000.1 한자가 아닌 문자 영역을 확장합니다. 즉 GBK/5: A840-A9A0. BIG-5 비한자 기호, 구조 기호 및 "○"가 이 영역에 배열됩니다. 총 166개의 기호가 있습니다.
3. 사용자 정의 영역: (1) (2) (3)의 세 영역으로 구분됩니다.
(1) AAA1-AFFE, 564 코드 포인트.
(2) F8A1-FEFE, 658 코드 포인트.
(3) A140-A7A0, 672 코드 포인트.
(3) 영역은 유저들에게 개방되어 있지만, 향후 이 영역에 새로운 캐릭터가 추가될 가능성도 배제할 수 없어 사용이 제한됩니다.
3. GBK에는 글꼴에 대한 다음 조항이 있습니다.
1. 원칙적으로 GB 13000.1 G 열과 일치합니다(즉, 파생 중국 본토 법적 표준에 따름 한자 아래의 상형 문자/획)은 일관되게 유지됩니다.
2. CJK 한자 인식 규칙의 일반적인 틀 내에서 모든 GBK 코딩 한자에 대해 "비중복 코딩 철자법"("GB-ization")을 구현합니다. 코딩의 중복을 일으키지 않는 "비중복 코딩" 방법. 새로운 중국어 문자.
3. CJK 한자 인식 규칙을 초과하거나 인식 규칙이 명확하게 규정되지 않은 한자의 경우 이전 글리프가 일시적으로 GBK 코드 포인트에 배치됩니다. 이러한 방식으로 GBK에는 동일한 한자의 이전 문자와 새 문자가 모두 포함되는 경우가 많습니다.
4. GB 2312에 이미 포함된 비한자 기호의 문자는 GB 2312와 일치해야 하며 GB 2312 이외의 부분은 GB 13000.1과 일치해야 합니다.
5. 성조가 있는 병음 문자는 반각 형식입니다.