KTUG 한국 텍 사용자 그룹

Menu

KTUG :: 마당자유글 › 원고의 분량

noname | 2022.04.25 07:06:27 | 메뉴 건너뛰기 쓰기

원고(소스)에 포함된 단어수 또는 글자수를 세어보았습니다. 전통적인 방법인 detex+wc, 그리고 신식 방법인 texcount, 마지막으로 TeXShop의 "통계" 기능의 결과 셋을 비교해봅니다. lshort-ko 소스 중의 하나인 lsk-typeset.tex을 가지고 해본 경과를 적어둡니다.

영어로 된 글은 고민할 필요가 거의 없는데, 저 세 가지 방법이 보여주는 결과가 큰 차이가 없기 때문입니다. 문제는 한글이 포함된 것. 한글은 UTF-8입니다.

(1) 첫 시도. 단어 수 세기.

detex lsk-typeset.tex | wc -w
7621

1.png

 

texcount로 시도해봅니다. texcount는 다 좋은데, 아무 옵션도 주지 않고 실행하면 영어 단어는 단어를 기준으로 세지만 한글은 글자마다 단어 취급을 합니다. 그래서 위의 파일에 대해 14000단어가 넘는다고 나오는데요, 이건 곤란하니까, 다음처럼 실행

texcount -kr-word lsk-typeset.tex

-kr-word는 한국어 식으로 space 기준으로 단어를 세라는 옵션입니다. (영어나 중국어는 space 기준 단어세기가 안 되니까, 이 옵션이 있다는 것이 매우 안심됩니다.) 아무튼 이 결과는,

2.png

 

(2) 주석문을 제거하고 다시 세어보기

위의 texcount 결과 중에 에러...라면서 빨갛게 보여주는 게 있는데 이것은 이 문서가 대량의 verbatim예제를 포함한 것이라서 파싱에 실패했다는 뜻이고 문서에 에러가 있다는 뜻은 아닙니다. 어느 부분을 잘 이해못하는지 확인하고 싶으면 -v4 정도의 옵션을 주어서 돌려보면 나옵니다.

아무튼 이 소스는 거의 본문과 같은 양의 주석문(영어 원문)이 있습니다. 이걸 제거하고 다시 세어보면 결과가 다를까요?

주석문 제거는 간단히

latexpand --keep-includes lsk-typeset.tex > tmp_typeset.tex

여기서 --keep-includes는 \input, \include 명령을 확장하지 말라는 의미입니다. 이걸 안 주면 원본에 있는 매크로 \input 등이 확장되어서 파일 내용이 전부 들어옵니다. 그럴 목적으로 쓰는 것이 원칙이지만 여기서는 단지 주석문만 제거하고자 했기 때문에...

아무튼 이렇게 생성된 tmp_typeset.tex을 검사새보니,

detex tmp_typeset.tex | wc -w

결과는 6717.  처음 시도보다 많이 줄었지만 위의 TeXShop의 통계 결과에 더 가까워졌습니다. TeXShop에서 열어보면 5811까지 단어 수가 줄어 있습니다.

texcount로 세어보니 (texcount -kr-word tmp_typeset.tex)

3.png

주석문을 제거하기 전과 같습니다. 5678 + 90 + 225라는 거죠. 본문 5678단어, 제목 등에 90단어, 캡션 등에 225단어. 이 정도면 납득할 만하다고 봅니다.

====

[참고사항]

1. texcount로 단어수가 아닌 글자수를 세려면, -char 옵션을 붙이면 됩니다.

texcount -kr-word -char tmp_typeset.tex

결과는 18105+314+754.

2. wc 유틸리티를 쓸 때 -c 옵션을 주면 한글 한 글자를 (UTF-8) 3글자로 계산합니다. -m 옵션을 주어야 합니다.

3. 순수하게 대략 한글로만 이루어진 원고의 "원고지 매수"를 계산하려면 예컨대 글자수가 18105이고 단어수가 5678이라면

(18105+5678)/200 = 118.9

인데, 원고지 정서법의 오차는 문단 뒤의 줄끝까지 빈 칸, 문장부호 뒤의 빈 칸 등을 고려하여야 하므로, 대략 120~130매 분량이라고 추정해도 될 것 같습니다.

첨부 [3]

댓글 [2]

댓글 쓰기

목록 삭제

KTUG 한국 텍 사용자 그룹