KTUG 한국 텍 사용자 그룹

Menu

KTUG :: 마당

유니코드의 한글 관련 부분은 모두 세 부분(크게 보아서)입니다.


  1. 한글호환자모: 주로 한글 자모 낱자를 표현하는 데 사용합니다. 우리가 한글로 사용하는 음절 문자를 나타내는 것이 아니므로 논외로 합니다.

  2. 한글음절문자: 이게 우리가 흔히 '한글'이라고 부르는 것이고 가에서 힣까지 11172자가 차례로 들어 있습니다.

  3. 한글 자모: 이것은 조합가능한 자모를 정의하고 있습니다.


그 결과, 유니코드로 한글을 표현하는 두 가지 방법이 생겨나게 됩니다. 예컨대 '가'를 \uAC00으로 표현하는 방법과, \u1100\u1161로 표현하는 방법이 그것입니다. 음절문자 코드를 사용하면 2바이트면 모든 현대한글을 다 표현할 수 있지만 자모조합으로 한글을 표현하면 초성에 2+바이트, 중성에 2+바이트, 종성에 2+바이트, 최소 4~6바이트가 필요하고요, 인코딩 방법에 따라서(예를 들어 UTF-8이면) 유니코드 2바이트가 3바이트로 인코딩되니까 크기가 꽤 늘어납니다. 한 글자를 표현하는 데도요.

어쨌든 이렇게 한글 자모 문자로 한글을 표현하는 방법을 통칭 "첫가끝"(공식 표현은 아닌 것으로 알고 있습니다)이나 LVT라고 부르는데, 옛한글과 같이 음절 문자에 정의되지 않은 한글을 표현하는 데는 이 방법밖에 없습니다. 초/중/종성 각각 하나의 코드가 필요하여 세벌이라고도 할 수 있을지 모르겠습니다.


현대 한글 음절 문자는 초성 19자, 중성 21자, 종성 28자를 가지고 만들 수 있는 모든 글자를 포함합니다.

조합용 자모에는 이보다 훨씬 많은 초/중/종성을 정의하고 있어서 지금은 사라진 옛한글도 자유롭게 표현할 수 있습니다. 조합 가능한 글자도 수백만자에 이르지요.


왜 이런 이야기가 유니코드에 나오는가 하면, 둘 다 표준이기 때문입니다.


KTUG 한국 텍 사용자 그룹