KTUG마당은 KTUG를 방문하는 모든 이용자가 대화를 나누고 소식을 전하는 곳입니다.
- 로그인 없이 자유롭게 글을 읽고 쓸 수 있는 철학은 처음과 같이 계속됩니다.
- Team Blog의 글을 이곳 게시판의 "정보글"로 모았습니다. Team blog는 기고자가 올린 글에 질문을 받는 부담을 줄이기 위하여 댓글을 허용하지 않았습니다. 그러나 이곳 게시판으로 모으면서 댓글을 달 수 있습니다. 게시물을 작성하실 때 댓글을 원하지 않으시면 댓글을 허용하시지 않으시기를 바랍니다. 또한 불필요한 소모성 댓글을 달지 않도록 주의하여 주시기를 바랍니다.
- TeX과 관련된 질문이나 답변은 QnA 마당을 이용하십시오. TeX과 관련된 질문은 지웁니다
- MathJax를 이용한 수식조판을 사용하실 수 있습니다. 여기를 참조하세요.
- 스팸 글을 막기 위하여 짧은 시간 내에 다시 글이 등록되는 IP를 막거나, 광고 글을 막기 위하여 금지어로 .com, .net 등을 설정하고 있습니다. 다소간의 불편함이 있으시더라도 양해 바랍니다.
- 금지어에서 stackexchange, stackoverflow, ctan, overleaf, , github, google.com, gmail.com, .org, .io, sil.org, wiki.com, tistory.com등은 해제하였습니다.
- 사용하는 편집기는 CKeditor입니다. 편집기에서 [enter]를 누르면 <p> 태그가 들어가고, 문단으로 생각하고 한줄을 비웁니다. 글줄만 바꾸려면 shift-enter 를 누르시면 <BR>가 들어가므로 용도에 맞게 나누어 쓸 수 있습니다.
원고(소스)에 포함된 단어수 또는 글자수를 세어보았습니다. 전통적인 방법인 detex+wc, 그리고 신식 방법인 texcount, 마지막으로 TeXShop의 "통계" 기능의 결과 셋을 비교해봅니다. lshort-ko 소스 중의 하나인 lsk-typeset.tex을 가지고 해본 경과를 적어둡니다.
영어로 된 글은 고민할 필요가 거의 없는데, 저 세 가지 방법이 보여주는 결과가 큰 차이가 없기 때문입니다. 문제는 한글이 포함된 것. 한글은 UTF-8입니다.
(1) 첫 시도. 단어 수 세기.
detex lsk-typeset.tex | wc -w
7621
texcount로 시도해봅니다. texcount는 다 좋은데, 아무 옵션도 주지 않고 실행하면 영어 단어는 단어를 기준으로 세지만 한글은 글자마다 단어 취급을 합니다. 그래서 위의 파일에 대해 14000단어가 넘는다고 나오는데요, 이건 곤란하니까, 다음처럼 실행
texcount -kr-word lsk-typeset.tex
-kr-word는 한국어 식으로 space 기준으로 단어를 세라는 옵션입니다. (영어나 중국어는 space 기준 단어세기가 안 되니까, 이 옵션이 있다는 것이 매우 안심됩니다.) 아무튼 이 결과는,
(2) 주석문을 제거하고 다시 세어보기
위의 texcount 결과 중에 에러...라면서 빨갛게 보여주는 게 있는데 이것은 이 문서가 대량의 verbatim예제를 포함한 것이라서 파싱에 실패했다는 뜻이고 문서에 에러가 있다는 뜻은 아닙니다. 어느 부분을 잘 이해못하는지 확인하고 싶으면 -v4 정도의 옵션을 주어서 돌려보면 나옵니다.
아무튼 이 소스는 거의 본문과 같은 양의 주석문(영어 원문)이 있습니다. 이걸 제거하고 다시 세어보면 결과가 다를까요?
주석문 제거는 간단히
latexpand --keep-includes lsk-typeset.tex > tmp_typeset.tex
여기서 --keep-includes는 \input, \include 명령을 확장하지 말라는 의미입니다. 이걸 안 주면 원본에 있는 매크로 \input 등이 확장되어서 파일 내용이 전부 들어옵니다. 그럴 목적으로 쓰는 것이 원칙이지만 여기서는 단지 주석문만 제거하고자 했기 때문에...
아무튼 이렇게 생성된 tmp_typeset.tex을 검사새보니,
detex tmp_typeset.tex | wc -w
결과는 6717. 처음 시도보다 많이 줄었지만 위의 TeXShop의 통계 결과에 더 가까워졌습니다. TeXShop에서 열어보면 5811까지 단어 수가 줄어 있습니다.
texcount로 세어보니 (texcount -kr-word tmp_typeset.tex)
주석문을 제거하기 전과 같습니다. 5678 + 90 + 225라는 거죠. 본문 5678단어, 제목 등에 90단어, 캡션 등에 225단어. 이 정도면 납득할 만하다고 봅니다.
====
[참고사항]
1. texcount로 단어수가 아닌 글자수를 세려면, -char 옵션을 붙이면 됩니다.
texcount -kr-word -char tmp_typeset.tex
결과는 18105+314+754.
2. wc 유틸리티를 쓸 때 -c 옵션을 주면 한글 한 글자를 (UTF-8) 3글자로 계산합니다. -m 옵션을 주어야 합니다.
3. 순수하게 대략 한글로만 이루어진 원고의 "원고지 매수"를 계산하려면 예컨대 글자수가 18105이고 단어수가 5678이라면
(18105+5678)/200 = 118.9
인데, 원고지 정서법의 오차는 문단 뒤의 줄끝까지 빈 칸, 문장부호 뒤의 빈 칸 등을 고려하여야 하므로, 대략 120~130매 분량이라고 추정해도 될 것 같습니다.
댓글 2
번호 | 제목 | 글쓴이 | 날짜 | 조회 수 |
---|---|---|---|---|
1069 | 공학 교재를 제작하려면 [7] | Mechanics | 2024.06.13 | 471 |
1068 | 오침안정법 | noname | 2022.11.15 | 480 |
1067 | 워드 프로세서 사용자를 위한 레이텍 1.2 [20] | noname | 2023.11.05 | 481 |
1066 | new pythagorean theorem proof [1] | 김퍼프 | 2023.04.16 | 490 |
1065 | ChoF님 축하하니다. [7] | 작나 | 2023.04.21 | 492 |
1064 | 한국 텍 사용자 수 [10] | 크사인 | 2023.09.14 | 498 |
1063 | 영어 문제집 졸작 [10] | 잉명 | 2023.04.26 | 535 |
1062 | The LaTeX Companion 제3판 출간 [5] | Progress | 2023.05.31 | 540 |
1061 | tex 지식의 공유사례 | 판돌이 | 2023.07.18 | 542 |
1060 | tectonic과 ksminitex [2] | noname | 2023.06.05 | 543 |
1059 | 테크닉 - 라텍 조판 게임 [3] | 작나 | 2023.08.13 | 543 |
1058 | CSV 형식으로 표(처럼 보이게) 만들기 | yihoze | 2023.06.30 | 597 |
1057 | 재미있을 배열 문제 [4] | noname | 2023.07.21 | 615 |
1056 | 윈도10 WSL에서 텍라이브 설치 [7] | Progress | 2022.10.13 | 622 |
1055 | bfseries와 itshape를 겹치면 [2] | yihoze | 2022.02.15 | 649 |
1054 | 싱글 페이지 엠프티 [3] | noname | 2022.03.19 | 649 |
1053 | 애니메이션 [2] | yihoze | 2021.11.24 | 651 |
1052 | 다국어 식자를 위한 ucharclasses 패키지 | yihoze | 2022.02.11 | 656 |
1051 | [잡담] 색인이 목차에 추가될 때 [2] | yihoze | 2022.06.21 | 662 |
1050 | 두 이미지들을 모두 또는 선택적으로 삽입하기 [2] | yihoze | 2021.11.23 | 675 |
단어수, 원고지수를 세는 것은 원고료 책정의 기준이 되기 때문인가요?