Character Set & Encoding

Etc.

bbolmin 2013. 11. 1. 13:18

문자 셋(Character Set)

- ASCII : 알파벳, 숫자, 제어문자 등 128개의 문자 셋

- KS C 5601 : 완성형 한글(2350 자), 하낮, 숫자 등

- EUC-KR : KS 와 ASCII를 표현하는 인코딩. (유닉스 계열)

1byte면 ascii, 2byte면 KS문자를 표기하는 멀티 바이트 인코딩

- CP949 : 한글 확장 완성형으로 EUC-KR에 표현되지 않는 문자도 포함되어 있음. (윈도우 계열)

- Unicode : 전 세계의 모든 문자를 표현할 수 있는 문자셋

- Unicode Encoding : UTF-32, UTF-16, UTF-8

- UTF-32 : 모든 문자를 32bit로 표현

-> 사용상 편리하나 메모리 공간 낭비

- UTF-16 : 대부분의 문자에 대해서는 16bit로 표현하나 BMP 범위를 벗어나는 문자는 32bit로 표현

-> BMP 영역을 2byte로 표현할 수 있다는 장점이있다.

- UTF-8 : 코드 포엔트의 범위에 따라 1, 2, 3, 4 biyte로 표현

-> Ascii 문자를 1byte로 표현할 수 있다는 장점이있다.

* 코드 포인트 포현 : Plane값 5bit, Cell 번호 16bit로 21bit필요

* BMP(Basic Multilingual Plane) : U+0000 ~ U+FFFF 로 현대 언어 및 잘 사용되는 모든 기호들 포함

[ref]

Unicode_1.0.pdf