KTUG마당은 KTUG를 방문하는 모든 이용자가 대화를 나누고 소식을 전하는 곳입니다.

  • 로그인 없이 자유롭게 글을 읽고 쓸 수 있는 철학은 처음과 같이 계속됩니다.
  • Team Blog의 글을 이곳 게시판의 "정보글"로 모았습니다. Team blog는 기고자가 올린 글에 질문을 받는 부담을 줄이기 위하여 댓글을 허용하지 않았습니다. 그러나 이곳 게시판으로 모으면서 댓글을 달 수 있습니다. 게시물을 작성하실 때 댓글을 원하지 않으시면 댓글을 허용하시지 않으시기를 바랍니다. 또한 불필요한 소모성 댓글을 달지 않도록 주의하여 주시기를 바랍니다.
  • TeX과 관련된 질문이나 답변은 QnA 마당을 이용하십시오. TeX과 관련된 질문은 지웁니다
  • MathJax를 이용한 수식조판을 사용하실 수 있습니다. 여기를 참조하세요.
  • 스팸 글을 막기 위하여 짧은 시간 내에 다시 글이 등록되는 IP를 막거나, 광고 글을 막기 위하여 금지어로 .com, .net 등을 설정하고 있습니다. 다소간의 불편함이 있으시더라도 양해 바랍니다.
    • 금지어에서 stackexchange, stackoverflow, ctan, overleaf, , github, google.com, gmail.com, .org, .io, sil.org, wiki.com, tistory.com등은 해제하였습니다.
  • 사용하는 편집기는 CKeditor입니다. 편집기에서 [enter]를 누르면 <p> 태그가 들어가고, 문단으로 생각하고 한줄을 비웁니다. 글줄만 바꾸려면 shift-enter 를 누르시면 <BR>가 들어가므로 용도에 맞게 나누어 쓸 수 있습니다.

자유글 원고의 분량

2022.04.25 07:06

noname 조회 수:643

원고(소스)에 포함된 단어수 또는 글자수를 세어보았습니다. 전통적인 방법인 detex+wc, 그리고 신식 방법인 texcount, 마지막으로 TeXShop의 "통계" 기능의 결과 셋을 비교해봅니다. lshort-ko 소스 중의 하나인 lsk-typeset.tex을 가지고 해본 경과를 적어둡니다.

영어로 된 글은 고민할 필요가 거의 없는데, 저 세 가지 방법이 보여주는 결과가 큰 차이가 없기 때문입니다. 문제는 한글이 포함된 것. 한글은 UTF-8입니다.

(1) 첫 시도. 단어 수 세기.

detex lsk-typeset.tex | wc -w
7621

1.png

 

texcount로 시도해봅니다. texcount는 다 좋은데, 아무 옵션도 주지 않고 실행하면 영어 단어는 단어를 기준으로 세지만 한글은 글자마다 단어 취급을 합니다. 그래서 위의 파일에 대해 14000단어가 넘는다고 나오는데요, 이건 곤란하니까, 다음처럼 실행

texcount -kr-word lsk-typeset.tex

-kr-word는 한국어 식으로 space 기준으로 단어를 세라는 옵션입니다. (영어나 중국어는 space 기준 단어세기가 안 되니까, 이 옵션이 있다는 것이 매우 안심됩니다.) 아무튼 이 결과는,

2.png

 

(2) 주석문을 제거하고 다시 세어보기

위의 texcount 결과 중에 에러...라면서 빨갛게 보여주는 게 있는데 이것은 이 문서가 대량의 verbatim예제를 포함한 것이라서 파싱에 실패했다는 뜻이고 문서에 에러가 있다는 뜻은 아닙니다. 어느 부분을 잘 이해못하는지 확인하고 싶으면 -v4 정도의 옵션을 주어서 돌려보면 나옵니다.

아무튼 이 소스는 거의 본문과 같은 양의 주석문(영어 원문)이 있습니다. 이걸 제거하고 다시 세어보면 결과가 다를까요?

주석문 제거는 간단히

latexpand --keep-includes lsk-typeset.tex > tmp_typeset.tex

여기서 --keep-includes는 \input, \include 명령을 확장하지 말라는 의미입니다. 이걸 안 주면 원본에 있는 매크로 \input 등이 확장되어서 파일 내용이 전부 들어옵니다. 그럴 목적으로 쓰는 것이 원칙이지만 여기서는 단지 주석문만 제거하고자 했기 때문에...

아무튼 이렇게 생성된 tmp_typeset.tex을 검사새보니,

detex tmp_typeset.tex | wc -w

결과는 6717.  처음 시도보다 많이 줄었지만 위의 TeXShop의 통계 결과에 더 가까워졌습니다. TeXShop에서 열어보면 5811까지 단어 수가 줄어 있습니다.

texcount로 세어보니 (texcount -kr-word tmp_typeset.tex)

3.png

주석문을 제거하기 전과 같습니다. 5678 + 90 + 225라는 거죠. 본문 5678단어, 제목 등에 90단어, 캡션 등에 225단어. 이 정도면 납득할 만하다고 봅니다.

====

[참고사항]

1. texcount로 단어수가 아닌 글자수를 세려면, -char 옵션을 붙이면 됩니다.

texcount -kr-word -char tmp_typeset.tex

결과는 18105+314+754.

2. wc 유틸리티를 쓸 때 -c 옵션을 주면 한글 한 글자를 (UTF-8) 3글자로 계산합니다. -m 옵션을 주어야 합니다.

3. 순수하게 대략 한글로만 이루어진 원고의 "원고지 매수"를 계산하려면 예컨대 글자수가 18105이고 단어수가 5678이라면

(18105+5678)/200 = 118.9

인데, 원고지 정서법의 오차는 문단 뒤의 줄끝까지 빈 칸, 문장부호 뒤의 빈 칸 등을 고려하여야 하므로, 대략 120~130매 분량이라고 추정해도 될 것 같습니다.




XE Login