문자 셋(Character Set)
- ASCII : 알파벳, 숫자, 제어문자 등 128개의 문자 셋
- KS C 5601 : 완성형 한글(2350 자), 하낮, 숫자 등
- EUC-KR : KS 와 ASCII를 표현하는 인코딩. (유닉스 계열)
1byte면 ascii, 2byte면 KS문자를 표기하는 멀티 바이트 인코딩
- CP949 : 한글 확장 완성형으로 EUC-KR에 표현되지 않는 문자도 포함되어 있음. (윈도우 계열)
- Unicode : 전 세계의 모든 문자를 표현할 수 있는 문자셋
- Unicode Encoding : UTF-32, UTF-16, UTF-8
- UTF-32 : 모든 문자를 32bit로 표현
-> 사용상 편리하나 메모리 공간 낭비
- UTF-16 : 대부분의 문자에 대해서는 16bit로 표현하나 BMP 범위를 벗어나는 문자는 32bit로 표현
-> BMP 영역을 2byte로 표현할 수 있다는 장점이있다.
- UTF-8 : 코드 포엔트의 범위에 따라 1, 2, 3, 4 biyte로 표현
-> Ascii 문자를 1byte로 표현할 수 있다는 장점이있다.
* 코드 포인트 포현 : Plane값 5bit, Cell 번호 16bit로 21bit필요
* BMP(Basic Multilingual Plane) : U+0000 ~ U+FFFF 로 현대 언어 및 잘 사용되는 모든 기호들 포함
[ref]
'Etc.' 카테고리의 다른 글
pyV8 관련 (0) | 2014.06.10 |
---|---|
SSL 연결 과정 (1) | 2014.04.16 |
windows 버전 순서 ㅋ (0) | 2012.08.04 |
base64 인코딩 & 디코딩 원리 (1) | 2012.06.13 |
해커의 등급 (2) | 2012.04.12 |