Etc.
Character Set & Encoding
bbolmin
2013. 11. 1. 13:18
문자 셋(Character Set)
- ASCII : 알파벳, 숫자, 제어문자 등 128개의 문자 셋
- KS C 5601 : 완성형 한글(2350 자), 하낮, 숫자 등
- EUC-KR : KS 와 ASCII를 표현하는 인코딩. (유닉스 계열)
1byte면 ascii, 2byte면 KS문자를 표기하는 멀티 바이트 인코딩
- CP949 : 한글 확장 완성형으로 EUC-KR에 표현되지 않는 문자도 포함되어 있음. (윈도우 계열)
- Unicode : 전 세계의 모든 문자를 표현할 수 있는 문자셋
- Unicode Encoding : UTF-32, UTF-16, UTF-8
- UTF-32 : 모든 문자를 32bit로 표현
-> 사용상 편리하나 메모리 공간 낭비
- UTF-16 : 대부분의 문자에 대해서는 16bit로 표현하나 BMP 범위를 벗어나는 문자는 32bit로 표현
-> BMP 영역을 2byte로 표현할 수 있다는 장점이있다.
- UTF-8 : 코드 포엔트의 범위에 따라 1, 2, 3, 4 biyte로 표현
-> Ascii 문자를 1byte로 표현할 수 있다는 장점이있다.
* 코드 포인트 포현 : Plane값 5bit, Cell 번호 16bit로 21bit필요
* BMP(Basic Multilingual Plane) : U+0000 ~ U+FFFF 로 현대 언어 및 잘 사용되는 모든 기호들 포함
[ref]