UCS
위키백과 ― 우리 모두의 백과사전.
유니코드 |
---|
부호화 형식 |
UCS |
양방향 텍스트 |
BOM |
한중일 통합 한자 |
유니코드 범위 목록 |
유니코드와 HTML |
유니코드와 전자 우편 |
유니코드 글꼴 |
UCS(Universal Character Set, 범용 문자 집합)는 ISO 10646으로 정의된 문자 인코딩의 국제 표준이다.
1991년부터, 유니코드 컨소시엄에서는 유니코드 표준과 ISO/IEC 10646을 발전시키기 위해 ISO와 공동 작업을 해 왔다. 분류와, 문자명과 유니코드 표준 2.0 버전의 코드들은 ISO/IEC 10646-1:1993과 첫 수정판과 동일하다. 2000년 3월 유니코드 3.0이 발표된 이후, 새롭게 추가된 문자들이 ISO/IEC 10646-1:2000을 통해 UCS에 포함되었다.
UCS는 110만개 이상의 코드가 있지만, 일반적으로 첫 65536개(BMP, Basic Multilingual Plane, 기본 다국어 평면)만이 사용된다. 나머지는 고대 이집트 상형문자나 잘 안쓰이는 한자같은 문자를 표현하기위해 남겨져 있다. 많은 코드영역, 심지어 BMP 영역에서도 서로다른 인코딩 형태와 미래의 확장성을 고려하여, 일부러 문자를 할당하지 않았다.
목차 |
[편집] UCS의 인코딩 폼
UCS용 인코딩 방법으로 ISO 10646가 정의되어 있다. 간단히 축약하여 UCS-2 라고도 하는데, 각 글자들을 0x65525 사이의 코드 값으로 매겨놓고, 각 값들을 두바이트로 표현한다. 그것으로서 UCS-2는 BMP의 코드 영역을 표현할 수 있고, BMP 밖의 영역은 표현이 불가능하다. UCS-2를 확장하여 BMP 밖의 영역도 표시가 가능하게 한 인코딩으로 UTF-16이 있다.
UCS-4는 0xFFFFFFFF 까지의 단일 코드 즉 4바이트로 한 글자를 표현한다. 그러므로 UCS-4는 UCS-2보다 더 많은 수의 글자를 표현할 수 있으나, UCS-2에 비해 2배의 저장공간을 필요로 한다.
[편집] 대응되는 유니코드
- ISO/IEC 10646-1:1993 ≈ Unicode 1.1
- ISO/IEC 10646-1:2000 ≈ Unicode 3.0
- ISO/IEC 10646-2:2001 ≈ Unicode 3.2
- ISO/IEC 10646-3:2003 ≈ Unicode 4.0
[편집] 바깥 고리
- ISO/IEC JTC1/SC2/WG2, ISO 10646 워킹그룹
- UTF-8 와 유니코드 FAQ
[편집] 관련 ISO
ISO 2022, ISO 6429, ISO 14651