KTUG마당은 KTUG를 방문하는 모든 이용자가 대화를 나누고 소식을 전하는 곳입니다.

  • 로그인 없이 자유롭게 글을 읽고 쓸 수 있는 철학은 처음과 같이 계속됩니다.
  • Team Blog의 글을 이곳 게시판의 "정보글"로 모았습니다. Team blog는 기고자가 올린 글에 질문을 받는 부담을 줄이기 위하여 댓글을 허용하지 않았습니다. 그러나 이곳 게시판으로 모으면서 댓글을 달 수 있습니다. 게시물을 작성하실 때 댓글을 원하지 않으시면 댓글을 허용하시지 않으시기를 바랍니다. 또한 불필요한 소모성 댓글을 달지 않도록 주의하여 주시기를 바랍니다.
  • TeX과 관련된 질문이나 답변은 QnA 마당을 이용하십시오. TeX과 관련된 질문은 지웁니다
  • MathJax를 이용한 수식조판을 사용하실 수 있습니다. 여기를 참조하세요.
  • 스팸 글을 막기 위하여 짧은 시간 내에 다시 글이 등록되는 IP를 막거나, 광고 글을 막기 위하여 금지어로 .com, .net 등을 설정하고 있습니다. 다소간의 불편함이 있으시더라도 양해 바랍니다.
    • 금지어에서 stackexchange, stackoverflow, ctan, overleaf, , github, google.com, gmail.com, .org, .io, sil.org, wiki.com, tistory.com등은 해제하였습니다.
  • 사용하는 편집기는 CKeditor입니다. 편집기에서 [enter]를 누르면 <p> 태그가 들어가고, 문단으로 생각하고 한줄을 비웁니다. 글줄만 바꾸려면 shift-enter 를 누르시면 <BR>가 들어가므로 용도에 맞게 나누어 쓸 수 있습니다.

자유글 원고의 분량

2022.04.25 07:06

noname 조회 수:665

원고(소스)에 포함된 단어수 또는 글자수를 세어보았습니다. 전통적인 방법인 detex+wc, 그리고 신식 방법인 texcount, 마지막으로 TeXShop의 "통계" 기능의 결과 셋을 비교해봅니다. lshort-ko 소스 중의 하나인 lsk-typeset.tex을 가지고 해본 경과를 적어둡니다.

영어로 된 글은 고민할 필요가 거의 없는데, 저 세 가지 방법이 보여주는 결과가 큰 차이가 없기 때문입니다. 문제는 한글이 포함된 것. 한글은 UTF-8입니다.

(1) 첫 시도. 단어 수 세기.

detex lsk-typeset.tex | wc -w
7621

1.png

 

texcount로 시도해봅니다. texcount는 다 좋은데, 아무 옵션도 주지 않고 실행하면 영어 단어는 단어를 기준으로 세지만 한글은 글자마다 단어 취급을 합니다. 그래서 위의 파일에 대해 14000단어가 넘는다고 나오는데요, 이건 곤란하니까, 다음처럼 실행

texcount -kr-word lsk-typeset.tex

-kr-word는 한국어 식으로 space 기준으로 단어를 세라는 옵션입니다. (영어나 중국어는 space 기준 단어세기가 안 되니까, 이 옵션이 있다는 것이 매우 안심됩니다.) 아무튼 이 결과는,

2.png

 

(2) 주석문을 제거하고 다시 세어보기

위의 texcount 결과 중에 에러...라면서 빨갛게 보여주는 게 있는데 이것은 이 문서가 대량의 verbatim예제를 포함한 것이라서 파싱에 실패했다는 뜻이고 문서에 에러가 있다는 뜻은 아닙니다. 어느 부분을 잘 이해못하는지 확인하고 싶으면 -v4 정도의 옵션을 주어서 돌려보면 나옵니다.

아무튼 이 소스는 거의 본문과 같은 양의 주석문(영어 원문)이 있습니다. 이걸 제거하고 다시 세어보면 결과가 다를까요?

주석문 제거는 간단히

latexpand --keep-includes lsk-typeset.tex > tmp_typeset.tex

여기서 --keep-includes는 \input, \include 명령을 확장하지 말라는 의미입니다. 이걸 안 주면 원본에 있는 매크로 \input 등이 확장되어서 파일 내용이 전부 들어옵니다. 그럴 목적으로 쓰는 것이 원칙이지만 여기서는 단지 주석문만 제거하고자 했기 때문에...

아무튼 이렇게 생성된 tmp_typeset.tex을 검사새보니,

detex tmp_typeset.tex | wc -w

결과는 6717.  처음 시도보다 많이 줄었지만 위의 TeXShop의 통계 결과에 더 가까워졌습니다. TeXShop에서 열어보면 5811까지 단어 수가 줄어 있습니다.

texcount로 세어보니 (texcount -kr-word tmp_typeset.tex)

3.png

주석문을 제거하기 전과 같습니다. 5678 + 90 + 225라는 거죠. 본문 5678단어, 제목 등에 90단어, 캡션 등에 225단어. 이 정도면 납득할 만하다고 봅니다.

====

[참고사항]

1. texcount로 단어수가 아닌 글자수를 세려면, -char 옵션을 붙이면 됩니다.

texcount -kr-word -char tmp_typeset.tex

결과는 18105+314+754.

2. wc 유틸리티를 쓸 때 -c 옵션을 주면 한글 한 글자를 (UTF-8) 3글자로 계산합니다. -m 옵션을 주어야 합니다.

3. 순수하게 대략 한글로만 이루어진 원고의 "원고지 매수"를 계산하려면 예컨대 글자수가 18105이고 단어수가 5678이라면

(18105+5678)/200 = 118.9

인데, 원고지 정서법의 오차는 문단 뒤의 줄끝까지 빈 칸, 문장부호 뒤의 빈 칸 등을 고려하여야 하므로, 대략 120~130매 분량이라고 추정해도 될 것 같습니다.

번호 제목 글쓴이 날짜 조회 수
1084 한국 텍 사용자 수 [10] 크사인 2023.09.14 432
1083 PDF 파일을 열지 않고 페이지 수 알아내기 [15] file yihoze 2020.09.22 15845
1082 Noto 폰트 [4] file yihoze 2023.09.06 272
1081 [참가신청] 문서작성 워크숍 2023: The Last Workshop [7] ischo 2023.05.06 1651
1080 이모지 폰트를 유니코드 테이블로 보기 [1] file yihoze 2023.09.01 355
1079 tblr 환경 안에서 연산 명령을 사용할 때 [2] yihoze 2023.08.29 308
1078 테크닉 - 라텍 조판 게임 [3] 작나 2023.08.13 523
1077 재미있을 배열 문제 [4] file noname 2023.07.21 597
1076 tex 지식의 공유사례 판돌이 2023.07.18 490
1075 한글 폰트 설정하기. hangulfontset. [10] file nanim 2014.06.09 17587
1074 수식 작성 상용 에디터 무료 전환소식 [5] 텍사랑 2021.12.05 1483
1073 CSV 형식으로 표(처럼 보이게) 만들기 file yihoze 2023.06.30 569
1072 tectonic과 ksminitex [2] noname 2023.06.05 488
1071 MiKTeX 테스트: 추억의 dvi 뷰어 yap [3] file Progress 2023.06.11 401
1070 TeX 꿈나무(?) 동아리를 소개합니다. [12] file 이여현 2023.03.17 672
1069 The LaTeX Companion 제3판 출간 [5] Progress 2023.05.31 486
1068 [후기] 문서작성 워크숍 2023: The Last Workshop [2] file Progress 2023.06.04 384
1067 중고등학교 교육용 수학식 표현 [10] file noname 2022.09.22 1121
1066 1999년에 제출된 Unicode 한글 TeX 개발 연구결과보고서 [1] likesam 2023.05.29 281
1065 오버리프 사용자 천만 돌파 기념 [7] file yihoze 2022.06.29 1469



XE Login