Математическая лингвистика: сколько надо слов
В любом языке насчитываются десятки, а то и сотни тысяч различных слов. Всех их, конечно, не запомнить. И при изучении чужого языка мы стремимся заучить самые главные, самые важные слова. Именно их должен включать словарь-минимум, словарь, который обязательно прилагается почти к каждому учебнику языка. Но здесь, при составлении словаря-минимума неожиданно оказывается следующее…
Ученые проанализировали 16 различных учебников французского языка для американских школ. Казалось бы, словари-минимумы должны в этих учебниках совпадать если не полностью, то хотя бы на 70—80 процентов (ясное дело, что такие общие и обязательные слова, как «я», «мы», «есть», «спать», и так далее должны быть во всех учебниках французского языка).
Но, увы! Проверка показала: общими для всех словарей оказалось не восемьдесят, а примерно — два процента слов! В 16 учебниках содержалось 6000 различных слов французского языка; общими для всех учебников были лишь 134 слова.
Теперь представьте себе, что два человека, изучавшие язык по разным учебникам, попробуют говорить друг с другом по-французски. Поймут ли они друг друга? Вряд ли. 134 слова — слишком мало для того, чтобы разговаривать на чужом языке. Но, может быть, это лишь единственный случай, курьез — и только.
К сожалению, не курьез. Десять учебников испанского языка содержали четыре с половиной тысячи различных слов. А общих слов было всего-навсего 249. Хорош словарь-минимум для изучающих испанский язык!
Как же быть? Как найти список самых нужных слов, как составить словарь-минимум, свободный от произвола и личных мнений составителя? Ответить на эти вопросы помогла математика, вернее — математическая лингвистика, точные методы в изучении языка.
Частотные словари
Что такое употребительные слова? Прежде всего — такие слова, которые чаще всего встречаются в нашей устной речи, в письменных текстах. Чем большее число раз встречается слово, тем оно употребительнее, или, говоря языком математики, имеет большую частоту.
Многое будет зависеть от того, какой текст мы возьмем. Например, в «Капитанской дочке» Пушкина действие происходит, в основном, в Белогорской крепости; естественно, что слово «крепость» встречается в повести 98 раз. Если же мы возьмем любой другой текст такого же размера, как и «Капитанская дочка», то слово «крепость» встретится нам раза два, а то и ни разу.
Разумеется, целесообразнее работать не с одним текстом, а с несколькими. А затем подсчитать — сколько раз встречаются в них различные слова. Так, весьма частое для «Капитанской дочки» слово «крепость» встретилось всего лишь в 14 текстах из 133. Значит, это слово занимает скромное место в списке самых употребительных слов русского языка. Оно вошло лишь в пятую тысячу, а составляй мы список лишь по «Капитанской дочке», то слово «крепость» заняло бы место в первой десятке самых ходовых слов языка!
В настоящее время создано большое количество частотных словарей по разным языкам: английскому, немецкому, русскому, польскому, чешскому, португальскому, испанскому и т. д.
Словарь испанского языка, который составил Гарсиа Ос, был создан на основании подсчетов 400 000 слов. Словарь чешского языка на основе 1 миллиона 200 тысяч слов; польского — 7 миллионов, французского 1 миллиона 500 тысяч, немецкого — 11 миллионов, и, наконец, английского на основании обработки текстов общим объемом в 18 миллионов слов.
Обычно частотные словари представляют собой списки слов, которые начинаются со слов, встречаемых чаще всего. Самый большой из таких словарей английский, который составили. Торндайк и Лордж. В нем — 30 тысяч слов. Каждое из них встретилось от четырех раз и больше.
Текстообразная способность
Итак, статистика помогает отобрать самые нужные, самые частые слова. Сколько же слов нужно брать для словаря-минимума? Преподаватель, скажем, имеет частотный словарь английского языка, включающий тридцать тысяч самых ходовых слов. Сколько же из них включить в словарь-минимум? Тысячу? Две? Три? Пять тысяч? С помощью статистики можно избавиться от произвола и объективно выявить самые нужные слова языка. Но ведь этот произвол остается, когда мы начинаем определять общее количество этих слов! Однако и здесь на помощь приходит математика.
В «Капитанской дочке» Пушкина союз «и» встречается 1160 раз на 29 тысяч слов текста, то есть в среднем один раз на 25 слов. Предлог «в» — 724, то есть один раз на 40 слов. Вообще, служебные слова занимают, как показал лингвист В. Марков, 35,3 процента авторской речи и 45,9 процента речи действующих лиц.
Слова-монополисты имеются не только среди служебных слов, но и среди знаменательных. Десятки тысяч редких слов занимают ничтожную часть текста; в основном же любой текст (любого языка!) состоит из небольшого числа самых частых слов. «Отсюда следует, — пишет Ю. Марков,— что различные слова имеют различную способность к образованию текста или различную текстообразовательную способность». 736 самых употребительных английских слов занимают 75 процентов текста. Это значит, что три четверти текста будет нам понятно, если мы примемся за чтение, зная такое количество слов.
Тысяча слов (разумеется, самых частых) занимает 80,5 английского, 83,5 французского, 81 процент испанского текста. Две тысячи самых ходовых английских слов занимают 86 процентов текста, три тысячи — около 90, пять тысяч — 93,5 процента!
Это значит, что зная 5000 самых частых слов, из каждых 300 слов, составляющих страницу текста, нам будет известно 281 и неизвестно всего лишь 19 слов! То есть практически — можно свободно читать любой текст на английском языке. Нетрудно подсчитать, что увеличить словарь нецелесообразно. Если мы даже удвоим его и вместо 5000 возьмем 10 000 самых частых слов, то тогда вместо 93,5 будет покрыто… всего лишь 96,4 процента текста! Мы увеличили словарь вдвое — но выигрыш получили всего-навсего в 2,9 процента!
Итак, математика дает преподавателю иностранного языка не только список самых частых слов языка, но и определяет размеры словаря-минимума. Она же может помочь в чисто педагогических вопросах, — например в обучении устной речи.
Словарь-минимум для разговора
Знание языка — это, прежде всего, знание разговорной, живой речи. Чтобы правильно и свободно говорить на чужом языке, нужно преодолеть многочисленные трудности: не мерить «на свой аршин», не переделывать в духе родного языка «атомы речи» — фонемы языка чужого, владеть грамматическими конструкциями и правильно строить фразы и т. д. Но при изучении устной речи, как и при изучении письменной, прежде всего, нужно знать слова чужого языка. В устной речи это даже важнее, ведь при чтении мы имеем возможность заглянуть в словарь, а в разговоре этого сделать нельзя: слова должны быть у нас все время «под рукою».
Можно ли составить частотный словарь устной речи? Безусловно, можно. Причем заранее можно предположить, что большая часть «книжных слов» отсеется. Можно предположить, что вообще создать словарь-минимум разговорной речи целесообразно из обычных словарей, удалив из них только явные книжные слова.
Для проверки этого предположения в США был проведен следующий опыт. На магнитофонную ленту записано 607 выступлений 274 студентов колледжа, что составило около трехсот тысяч слов; запись была неожиданной для студентов, их выступления были не подготовлены и поэтому не содержали книжных ораторских и других, чуждых нашей обычной речи слов. Сколько же «книжных слов» отсеялось в устной речи?
Из первых пятисот наиболее употребительных слов литературного языка – всего лишь пять слов; из первой тысячи — тридцать пять, из двух тысяч — сто семьдесят восемь, из пяти тысяч — около тысячи пятисот. А это значит, что даже после самого строгого отсева книжных слов в словаре-минимуме все же остается две трети.
Достаточно ли этого? Может ли человек, пользуясь тремя с половиной тысячами самых частых слов, свободно говорить, скажем, по-английски? Подсчеты показывают, что для этого достаточно даже двух тысяч. Текстообразовательная способность самых ходких слов устной речи больше, чем письменной.
Американский ученый А. Уэст после долгих опытов пришел к выводу, что для английского языка возможно следующее число слов, входящих в «словарь говорения». Для примитивного пересказа основной сюжетной линии некоторых сказок и коротких рассказов нужно знать 450 слов. Для подробного пересказа почти любой сказки — 750 слов. Для очень подробного пересказа приключенческих романов — 1400 слов, для детального пересказа любых произведений художественной литературы — три тысячи слов.
Очень часто пристрастие автора к определенным словам искажает статистические результаты. Скажем, союз «и», в среднем, встречается 40 раз на тысячу слов русского текста. Но если мы возьмем произведения писателя Леонида Андреева, питавшего пристрастие к этому союзу, то мы можем встретить в тысяче слов не 40, а добрых 60 или 80 союзов «и» (Андреев употреблял его не только как соединительный союз, но очень часто начинал с него предложения).
Конечно, для составления словаря самых ходких слов любимые слова писателя — помеха. Но с другой стороны — они-то как раз и являются теми объективными показателями, которые могут дать нам характеристику стиля писателя, его отличия от других мастеров пера, индивидуальной особенности его стиля.
«Словари языка писателя» начали составляться давно. В них входили все слова, которые употребил данный писатель в своих произведениях. Чем больше их, тем богаче лексика, словарный запас писателя.
Так, в произведениях великого английского поэта Мильтона встречается примерно 8000 различных слов; в «Божественной комедии» Данте — 5860 слов; в «Неистовом Орланде» Терквато Тассо — 8174 слова; в произведениях древнеримского поэта Горация — 6084 слова, в гомеровских поэмах — около 9 тысяч слов, в творениях Шекспира — 15 тысяч слов (по другим данным — даже 24 тысячи!), в сочинениях Пушкина — 21 200 слов. Любопытно сравнить со словарями великих писателей количество различных слов, которые употребляют обыкновенные люди. По данным психологов, ребенок пользуется 3600 словами; подросток в 14 лет — 9000. Средний взрослый употребляет 11 700 слов, а человек «повышенной интеллигентности» — до 13 500 слов.
Здесь, правда, следует внести существенную поправку. Если в «Божественной комедии» Данте было употреблено 5860 слов, причем 1615 из них — это собственные имена и географические названия, то это вовсе не означает, что Данте знал такое количество слов. На самом деле великий флорентиец знал десятки тысяч слов и, вероятно, пользовался ими — но в своей поэме он употребил только часть из них; эту часть и уловил «словарь языка Данте».
Как то вышел четырехтомный «Словарь языка Пушкина», который одновременно является и частотным словарем. В нем приводятся данные о том, сколько раз встречается то или иное слово в полном собрании сочинений Пушкина, в каких именно произведениях, в каких значениях и грамматических формах. В полном собрании сочинений Пушкина содержится около 600 тысяч слов. Из них 21 200 слов — различные. Свыше ста раз встречается всего лишь 720 слов. Зато один раз на шестьсот тысяч слов пушкинских текстов встречается 6440 различных слов, два раза — 2830 слов, три раза — 1800 слов. Это — неопровержимое и точное свидетельство богатства пушкинского словаря, своеобразия его лексики.
В настоящее время на помощь ученым приходят компьютеры, которые позволяют выполнять счетную работу многих лет за часы и даже минуты. Помогают они и при составлении частотных словарей, например, частотный словарь русского языка, о котором мы упоминали выше, был составлен с помощью вычислительной техники.
Лексика каждого достаточно длинного текста, будь это роман или пьеса, научная книга или деловой отчет, имеет определительную структуру. Стиль и словарь «Капитанской дочки» существенно отличается от «Введения в математический анализ». Частотные словари, словари языка писателя позволяют выразить эти отличия в числах, сделать их доказательными.
Эти точные доказательства дают не только частотные словари. Например, подсчет среднего количества слов в предложении также позволяет характеризовать стиль того или иного писателя с помощью чисел.
Можно сказать: «А. Н. Толстой предпочитает более длинные фразы, а А. И. Куприн — более короткие». А можно сказать и так: «Среднее число слов в фразе в произведении Толстого «Сестры» равно 11,9, а среднее число в фразе в произведении Куприна «Поединок» — 9,5».
Числа на службе лингвистики
Первоначально числа помогали решать многие прикладные вопросы. Например: как удобнее расположить клавиши на пишущей машинке (а затем на клавиатуре)? Естественно, самые частые буквы должны быть самыми «удобными», а самые редкие находиться на периферии. Определить, какие из букв часты, а какие редки, могут только подсчеты.
Или еще один образец «прикладной лингвистики» — передача речи, в устной или письменной форме, в форме письма, телефонного разговора. «Быстрое усовершенствование техники связи, рост потребностей в передаче информации, «кризис эфира», в котором не умещается информация, передаваемая в форме электромагнитных волн, — все это поставило очень остро проблему создания более экономных методов передачи информации»,— говорит Р. Л. Добрушин.
Как удобнее кодировать слова и буквы языка в электрические сигналы? Как лучше сокращать текст, опуская те его части, которые не несут информации и являются точными? Ответить на эти вопросы могут только числа, только точные методы в изучении языка.
За последнее время появились новые приложения лингвистики, которые потребовали точных мер и чисел в описании языка. С возникновением кибернетики с языком приходится иметь дело не только людям, но и «умным машинам», а машины «понимают» только строго формализованный, однозначный язык чисел и логических команд. На него и требуется переводить наш обычный человеческий язык.
Машинный перевод с одного языка на другой, машинное хранение информации, машинный перевод устной речи в письменную и письменной в устную, наконец, разговор с машиной по-человечески, т. е. ввод и вывод информации в машину в форме устной речи. И решить эти проблемы может только лингвистика в тесном содружестве с математикой. Числа и точные меры помогают решать не только практические, прикладные задачи языкознания. Они нужны и самой языковедческой теории. Например, определять степень заимствования одного языка из словарного запаса другого.
Так, подсчеты показывают, что в албанском языке из 5140 слов лишь 430 являются собственными, а все остальные заимствованы из других языков. В армянском 1500 слов из 1940 заимствованы из персидского, греческого, парфянского, сирийского, арабского. В корейском языке имеется до 75 процентов заимствований из китайского; в английском от 55 до 75 процентов всех слов заимствованы из французского, латыни и других романских языков.
Конечно, большое число заимствований в языке не говорит за то, что этот язык является худшим, менее полноценным — все языки мира равны, на любом из них можно выразить то, что выражено на другом языке. Заимствуются обычно слова, обозначающие предметы быта, культуры, труда, которых не было ранее у народа — естественно, что вместе с предметом заимствуется и его название. Например, украинское слово «сало» вошло во все языки мира, равно как и французское «одеколон» или австралийское «бумеранг» и «кенгуру».
Наука о языке за долгие годы своего развития накопила огромный материал. «Продолжать игнорировать числа при рассмотрении лингвистических явлений означало бы тормозить развитие языкознания», — писал в 1949 году французский языковед Коэн.
Но кроме этой внутринаучной потребности в точности, возникла необходимость решения практических задач: как старых и традиционных (вроде преподавания иностранных языков, создание экономных кодов), так и новых, порой научно-фантастических, как, например, разговор с компьютером на человеческом языке, машинный перевод с языка на язык и т. д. Решить эти задачи без чисел — невозможно. Вот почему математические методы все больше начинают применяться в изучении языка.
Но такая элементарная математика применима к задачам лингвистики лишь на первых порах. Затем должно следовать создание нового математического аппарата специально для языковедческих задач, точно так же, как был создан новый аппарат для задач экономики (линейное, динамическое программирование, теория очередей и т. д.), как создается новый математический аппарат для биологии (например, работы одного из крупнейших математиков Гельфанда посвящены этой важной проблеме), как был создан и бурно развивается новый раздел математики, возникшей специально для решения гуманитарных задач — теории игр.
Современная математика в высшей степени способствует точности изучения языка. Так же как в физике математические элементы используются для описания физического мира, поскольку предполагается, что они соответствуют элементам физического мира, так и в математической лингвистике математические элементы предположительно должны соответствовать элементам мира речи.
Автор: А. Кондратов.