본문 바로가기
Etc.

Character Set & Encoding

by bbolmin 2013. 11. 1.


문자 셋(Character Set)


- ASCII : 알파벳, 숫자, 제어문자 등 128개의 문자 셋 

- KS C 5601 : 완성형 한글(2350 자), 하낮, 숫자 등

- EUC-KR : KS 와  ASCII를 표현하는 인코딩. (유닉스 계열)

  1byte면 ascii, 2byte면 KS문자를 표기하는 멀티 바이트 인코딩

- CP949 : 한글 확장 완성형으로 EUC-KR에 표현되지 않는 문자도 포함되어 있음. (윈도우 계열)


- Unicode : 전 세계의 모든 문자를 표현할 수 있는 문자셋

- Unicode Encoding : UTF-32, UTF-16, UTF-8

- UTF-32 : 모든 문자를 32bit로 표현 

-> 사용상 편리하나 메모리 공간 낭비


- UTF-16 : 대부분의 문자에 대해서는 16bit로 표현하나 BMP 범위를 벗어나는 문자는 32bit로 표현

-> BMP 영역을 2byte로 표현할 수 있다는 장점이있다.


- UTF-8 : 코드 포엔트의 범위에 따라 1, 2, 3, 4 biyte로 표현

-> Ascii 문자를 1byte로 표현할 수 있다는 장점이있다.



* 코드 포인트 포현 : Plane값 5bit, Cell 번호 16bit로 21bit필요

* BMP(Basic Multilingual Plane) : U+0000 ~ U+FFFF 로 현대 언어 및 잘 사용되는 모든 기호들 포함




[ref]

Unicode_1.0.pdf

pcpenpal-20080117-1.pdf



'Etc.' 카테고리의 다른 글

pyV8 관련  (0) 2014.06.10
SSL 연결 과정  (1) 2014.04.16
windows 버전 순서 ㅋ  (0) 2012.08.04
base64 인코딩 & 디코딩 원리  (1) 2012.06.13
해커의 등급  (2) 2012.04.12