KTUG마당은 KTUG를 방문하는 모든 이용자가 대화를 나누고 소식을 전하는 곳입니다.

  • 로그인 없이 자유롭게 글을 읽고 쓸 수 있는 철학은 처음과 같이 계속됩니다.
  • Team Blog의 글을 이곳 게시판의 "정보글"로 모았습니다. Team blog는 기고자가 올린 글에 질문을 받는 부담을 줄이기 위하여 댓글을 허용하지 않았습니다. 그러나 이곳 게시판으로 모으면서 댓글을 달 수 있습니다. 게시물을 작성하실 때 댓글을 원하지 않으시면 댓글을 허용하시지 않으시기를 바랍니다. 또한 불필요한 소모성 댓글을 달지 않도록 주의하여 주시기를 바랍니다.
  • TeX과 관련된 질문이나 답변은 QnA 마당을 이용하십시오. TeX과 관련된 질문은 지웁니다
  • MathJax를 이용한 수식조판을 사용하실 수 있습니다. 여기를 참조하세요.
  • 스팸 글을 막기 위하여 짧은 시간 내에 다시 글이 등록되는 IP를 막거나, 광고 글을 막기 위하여 금지어로 .com, .net 등을 설정하고 있습니다. 다소간의 불편함이 있으시더라도 양해 바랍니다.
    • 금지어에서 stackexchange, stackoverflow, ctan, overleaf, , github, google.com, gmail.com, .org, .io, sil.org, wiki.com, tistory.com등은 해제하였습니다.
  • 사용하는 편집기는 CKeditor입니다. 편집기에서 [enter]를 누르면 <p> 태그가 들어가고, 문단으로 생각하고 한줄을 비웁니다. 글줄만 바꾸려면 shift-enter 를 누르시면 <BR>가 들어가므로 용도에 맞게 나누어 쓸 수 있습니다.

nanim

유니코드의 한글 관련 부분은 모두 세 부분(크게 보아서)입니다.


  1. 한글호환자모: 주로 한글 자모 낱자를 표현하는 데 사용합니다. 우리가 한글로 사용하는 음절 문자를 나타내는 것이 아니므로 논외로 합니다.

  2. 한글음절문자: 이게 우리가 흔히 '한글'이라고 부르는 것이고 가에서 힣까지 11172자가 차례로 들어 있습니다.

  3. 한글 자모: 이것은 조합가능한 자모를 정의하고 있습니다.


그 결과, 유니코드로 한글을 표현하는 두 가지 방법이 생겨나게 됩니다. 예컨대 '가'를 \uAC00으로 표현하는 방법과, \u1100\u1161로 표현하는 방법이 그것입니다. 음절문자 코드를 사용하면 2바이트면 모든 현대한글을 다 표현할 수 있지만 자모조합으로 한글을 표현하면 초성에 2+바이트, 중성에 2+바이트, 종성에 2+바이트, 최소 4~6바이트가 필요하고요, 인코딩 방법에 따라서(예를 들어 UTF-8이면) 유니코드 2바이트가 3바이트로 인코딩되니까 크기가 꽤 늘어납니다. 한 글자를 표현하는 데도요.

어쨌든 이렇게 한글 자모 문자로 한글을 표현하는 방법을 통칭 "첫가끝"(공식 표현은 아닌 것으로 알고 있습니다)이나 LVT라고 부르는데, 옛한글과 같이 음절 문자에 정의되지 않은 한글을 표현하는 데는 이 방법밖에 없습니다. 초/중/종성 각각 하나의 코드가 필요하여 세벌이라고도 할 수 있을지 모르겠습니다.


현대 한글 음절 문자는 초성 19자, 중성 21자, 종성 28자를 가지고 만들 수 있는 모든 글자를 포함합니다.

조합용 자모에는 이보다 훨씬 많은 초/중/종성을 정의하고 있어서 지금은 사라진 옛한글도 자유롭게 표현할 수 있습니다. 조합 가능한 글자도 수백만자에 이르지요.


왜 이런 이야기가 유니코드에 나오는가 하면, 둘 다 표준이기 때문입니다.





XE Login