Character set
정보를 표현하기 위한 문자들의 집합
Character Encoding
문자들의 집합을 컴퓨터가 이해할 수 있도록 바꾸는 작업
한글 인코딩 방식
- 완성형 (단어 하나)
EUC-KR, CP949 (MS949)
각가갂갃.... 이렇게 쭉 조합할 수 있는 단어가 등록되어 있고 그 중 하나를 선택하는 방식
영어는 1바이트, 한글은 2바이트 취급한다.
Window는 이 방식을 채택하고 있고 서버는 주로 UTF-8 방식이기 때문에 이 둘의 차이로 한글 깨짐이 발생할 수 있다.
- 조합형 (초, 중, 종성)
유니코드 인코딩 방식 (대표적으로 UTF-8)
ㅇ+ㅏ+ㄴ = 안
초성, 중성, 종성 각각 하나당 1바이트이기 때문에 한글은 3바이트 취급한다.
여러 언어를 표현하는데 장점이 있음
* 아래 블로그들을 참고했습니다.
https://studyforus.tistory.com/167
https://nuli.navercorp.com/community/article/1079940
'Java > 자바' 카테고리의 다른 글
StringTokenizer vs String.split() (0) | 2021.08.26 |
---|---|
String vs StringBuffer vs StringBuilder (0) | 2021.08.26 |
String 클래스 (0) | 2021.08.04 |
MVC (0) | 2021.04.11 |
String (0) | 2021.02.25 |