KTUG마당은 KTUG를 방문하는 모든 이용자가 대화를 나누고 소식을 전하는 곳입니다.

  • 로그인 없이 자유롭게 글을 읽고 쓸 수 있는 철학은 처음과 같이 계속됩니다.
  • Team Blog의 글을 이곳 게시판의 "정보글"로 모았습니다. Team blog는 기고자가 올린 글에 질문을 받는 부담을 줄이기 위하여 댓글을 허용하지 않았습니다. 그러나 이곳 게시판으로 모으면서 댓글을 달 수 있습니다. 게시물을 작성하실 때 댓글을 원하지 않으시면 댓글을 허용하시지 않으시기를 바랍니다. 또한 불필요한 소모성 댓글을 달지 않도록 주의하여 주시기를 바랍니다.
  • TeX과 관련된 질문이나 답변은 QnA 마당을 이용하십시오. TeX과 관련된 질문은 지웁니다
  • MathJax를 이용한 수식조판을 사용하실 수 있습니다. 여기를 참조하세요.
  • 스팸 글을 막기 위하여 짧은 시간 내에 다시 글이 등록되는 IP를 막거나, 광고 글을 막기 위하여 금지어로 .com, .net 등을 설정하고 있습니다. 다소간의 불편함이 있으시더라도 양해 바랍니다.
    • 금지어에서 stackexchange, stackoverflow, ctan, overleaf, , github, google.com, gmail.com, .org, .io, sil.org, wiki.com, tistory.com등은 해제하였습니다.
  • 사용하는 편집기는 CKeditor입니다. 편집기에서 [enter]를 누르면 <p> 태그가 들어가고, 문단으로 생각하고 한줄을 비웁니다. 글줄만 바꾸려면 shift-enter 를 누르시면 <BR>가 들어가므로 용도에 맞게 나누어 쓸 수 있습니다.

자유글 원고의 분량

2022.04.25 07:06

noname 조회 수:665

원고(소스)에 포함된 단어수 또는 글자수를 세어보았습니다. 전통적인 방법인 detex+wc, 그리고 신식 방법인 texcount, 마지막으로 TeXShop의 "통계" 기능의 결과 셋을 비교해봅니다. lshort-ko 소스 중의 하나인 lsk-typeset.tex을 가지고 해본 경과를 적어둡니다.

영어로 된 글은 고민할 필요가 거의 없는데, 저 세 가지 방법이 보여주는 결과가 큰 차이가 없기 때문입니다. 문제는 한글이 포함된 것. 한글은 UTF-8입니다.

(1) 첫 시도. 단어 수 세기.

detex lsk-typeset.tex | wc -w
7621

1.png

 

texcount로 시도해봅니다. texcount는 다 좋은데, 아무 옵션도 주지 않고 실행하면 영어 단어는 단어를 기준으로 세지만 한글은 글자마다 단어 취급을 합니다. 그래서 위의 파일에 대해 14000단어가 넘는다고 나오는데요, 이건 곤란하니까, 다음처럼 실행

texcount -kr-word lsk-typeset.tex

-kr-word는 한국어 식으로 space 기준으로 단어를 세라는 옵션입니다. (영어나 중국어는 space 기준 단어세기가 안 되니까, 이 옵션이 있다는 것이 매우 안심됩니다.) 아무튼 이 결과는,

2.png

 

(2) 주석문을 제거하고 다시 세어보기

위의 texcount 결과 중에 에러...라면서 빨갛게 보여주는 게 있는데 이것은 이 문서가 대량의 verbatim예제를 포함한 것이라서 파싱에 실패했다는 뜻이고 문서에 에러가 있다는 뜻은 아닙니다. 어느 부분을 잘 이해못하는지 확인하고 싶으면 -v4 정도의 옵션을 주어서 돌려보면 나옵니다.

아무튼 이 소스는 거의 본문과 같은 양의 주석문(영어 원문)이 있습니다. 이걸 제거하고 다시 세어보면 결과가 다를까요?

주석문 제거는 간단히

latexpand --keep-includes lsk-typeset.tex > tmp_typeset.tex

여기서 --keep-includes는 \input, \include 명령을 확장하지 말라는 의미입니다. 이걸 안 주면 원본에 있는 매크로 \input 등이 확장되어서 파일 내용이 전부 들어옵니다. 그럴 목적으로 쓰는 것이 원칙이지만 여기서는 단지 주석문만 제거하고자 했기 때문에...

아무튼 이렇게 생성된 tmp_typeset.tex을 검사새보니,

detex tmp_typeset.tex | wc -w

결과는 6717.  처음 시도보다 많이 줄었지만 위의 TeXShop의 통계 결과에 더 가까워졌습니다. TeXShop에서 열어보면 5811까지 단어 수가 줄어 있습니다.

texcount로 세어보니 (texcount -kr-word tmp_typeset.tex)

3.png

주석문을 제거하기 전과 같습니다. 5678 + 90 + 225라는 거죠. 본문 5678단어, 제목 등에 90단어, 캡션 등에 225단어. 이 정도면 납득할 만하다고 봅니다.

====

[참고사항]

1. texcount로 단어수가 아닌 글자수를 세려면, -char 옵션을 붙이면 됩니다.

texcount -kr-word -char tmp_typeset.tex

결과는 18105+314+754.

2. wc 유틸리티를 쓸 때 -c 옵션을 주면 한글 한 글자를 (UTF-8) 3글자로 계산합니다. -m 옵션을 주어야 합니다.

3. 순수하게 대략 한글로만 이루어진 원고의 "원고지 매수"를 계산하려면 예컨대 글자수가 18105이고 단어수가 5678이라면

(18105+5678)/200 = 118.9

인데, 원고지 정서법의 오차는 문단 뒤의 줄끝까지 빈 칸, 문장부호 뒤의 빈 칸 등을 고려하여야 하므로, 대략 120~130매 분량이라고 추정해도 될 것 같습니다.

번호 제목 글쓴이 날짜 조회 수
1124 [알림] 홈페이지 리뉴얼과 게시판 변경에 관하여 [4] 관리자 2010.12.23 322179
1123 제주 전용서체 [5] file Progress 2010.06.15 218013
1122 원숫자 file yihoze 2014.01.02 216050
1121 [공지] ko.TeX Live 2010 발표 [11] 관리자 2010.11.07 189406
1120 ko.TeX Live 2013 배포 [6] file 관리자 2013.10.12 175068
1119 한글텍사용자그룹/한국텍학회 웹 사이트 및 서비스 복구에 관한 말씀 관리자 2013.05.06 160062
1118 TeX Live 2016 pretest 설치 안내 [11] 관리자 2016.06.05 150661
1117 [공지] ko.TeX Live 2009 발표 [9] MadToad 2009.12.23 150472
1116 TeX의 수명이 긴 이유 그리고 널리 쓰이지 않는 이유 [45] 메타 2010.06.02 147963
1115 [공지] ko.TeX Live 2011 발표 [9] 관리자 2011.07.29 144675
1114 MathJax를 이용하여 웹에서 수식을 써 봅시다 [27] file 샘처럼 2010.12.29 142568
1113 [공지] お知らせ: TeXユーザの集い 2010 開催予定 (10/23土@東大生研) [1] ChoF 2010.02.01 137860
1112 An Earthshaking Announcement [6] 작은나무 2010.07.12 131468
1111 기존 회원이 아닌데 회비를 납부하신 분 [1] yihoze 2019.12.13 128781
1110 prologue vs preamble vs preface vs foreword 는 무슨 차이인가요? [4] 에드 2011.02.23 128551
1109 TeX Live 2010을 대비한 ko.TeX 프리테스트 [14] DohyunKim 2010.07.14 127986
1108 TeX Live 2013과 ko.TeX 설치 관련 안내 [11] 관리자 2013.09.01 126173
1107 [공지] 한국텍학회 회비를 입금한 분들 중 회원 미등록자 분들께 [7] 관리자 2011.10.20 123303
1106 (ko.) TeX Live 2014 설치를 권장합니다. [37] nanim 2014.07.14 121996
1105 한글 url 문제 [3] file noname 2020.03.08 121921



XE Login