-
지프의 법칙책을 읽거나 글을 쓰거나 2017. 7. 20. 16:19
육개 월 안에 언어를 배우는 방법이라는 제목의 이 동영상을 보다가 지프의 법칙이 떠올랐다.
이 연사가 말하듯이, 가장 많이 사용되는 단어들의 98%가 3000 단어라고 한다. 이 연설은 어떠할지 궁금했다. 그래서 영어 자막을 내려받았다. ( 그 방법에 대해서는 https://www.quora.com/Is-there-a-way-to-extract-the-automatically-generated-subtitles-in-YouTube를 보시라.)
태그를 날린 뒤에 단어 수를 헤아려 보니 3049이다. 18분 동안 170 단어를 말한 셈이니, 보통 사람들보다 약간 빠르게 말한 편이다. 중복된 단어를 없애니 (아래에 첨부한 ChrisLonsdale_dic.txt를 보시라) 그 수가 732로 줄어든다. 숫자를 제외하고 어근이 같은 것들을 하나로 치면 650 정도로 줄어들 것 같다. 지프(Zipf)의 법칙을 적용하여 (이렇게 계산하는 것이 적절한지 모르겠지만), 이 중 95%가 가장 많이 쓰이는 단어들이라 치면 33 단어(650 * 0.05)가 드물게 쓰이는 단어들일 것이다.
그 모든 단어들 중에 내가 처음 들어보거나 들어본 적이 있지만 그 뜻을 기억하지 못하는 단어들은 다음과 같다.
Bannister, Cantonese, Crackle, dislocation, dispel, hypnopaedia, physiological
그러니까 내가 영어로 대화를 하지 못하는 까닭은 어휘가 부족해서가 아니다. 이 연사가 말하듯 그런 환경에 젖어 있지 않기 때문인데, 이미 알고 있는 것이지만 사용할 기회가 없다 보니 내가 영어 회화에 좀처럼 흥미를 갖지 못한다.
***
활용형도 별개의 단어로 취급하는 것이 일반적이라고 이기황 박사님이 알려주셨다. 다시 계산을 해 보자.
732 * 95% = 695
732 * 5% = 36
큰 차이 없다.
http://www.ef.com/english-resources/english-vocabulary/top-3000-words/
'책을 읽거나 글을 쓰거나' 카테고리의 다른 글
야공만 (0) 2018.02.03 여성의 인류사적 패배에 대한 나의 가설 (0) 2018.01.09 무늬개오지 (0) 2017.04.07 흑요석 (0) 2017.04.07 조선시대 사람들은 어떻게 살았을까? (0) 2017.02.03