Математична лінгвістика: скільки треба слів

16 January 2020 Pavlo Chaika

Стаття написана Павлом Чайкою, головним редактором журналу «Пізнавайка». З 2013 року з моменту заснування журналу Павло Чайка присвятив себе популяризації науки в Україні та світі. Основна мета як журналу, так і цієї статті – пояснити складні наукові теми простою та доступною мовою.

У будь-якій мові налічуються десятки, а то й сотні тисяч різних слів. Всіх їх, звичайно, не запам’ятати. І при вивченні чужої мови ми прагнемо завчити найголовніші, найважливіші слова. Саме їх повинен включати словник-мінімум, словник, який обов’язково додається майже до кожного підручника мови. Але тут, при складанні словника-мінімуму несподівано виявляється наступне…

Вчені проаналізували 16 різних підручників французької мови для американських шкіл. Здавалося б, словники-мінімуми повинні в цих підручниках збігатися якщо не повністю, то хоча б на 70-80 відсотків (ясна річ, що такі загальні та обов’язкові слова, як «я», «ми», «є», «спати» , і так далі повинні бути у всіх підручниках французької мови).

Але нажаль! Перевірка показала: загальними для всіх словників виявилося не вісімдесят, а приблизно – два відсотки слів! У 16 підручниках містилося 6000 різних слів французької мови; загальними для всіх підручників були лише 134 слова.

Тепер уявіть собі, що дві людини, які вивчали мову за різними підручниками, спробують говорити один з одним по-французьки. Зрозуміють вони один одного? Навряд чи. 134 слова – занадто мало для того, щоб розмовляти чужою мовою. Але, можливо, це лише єдиний випадок, курйоз – і тільки.

На жаль, не курйоз. Десять підручників іспанської мови містили чотири з половиною тисячі різних слів. А загальних слів було всього-навсього 249. Гарний словник-мінімум для вивчаючих іспанську мову!

Як же бути? Як знайти список найбільш потрібних слів, як скласти словник-мінімум, вільний від свавілля і особистих думок укладача? Відповісти на ці питання допомогла математика, вірніше – математична лінгвістика, точні методи у вивченні мови.

Частотні словники

Що таке вживані слова? Насамперед – такі слова, які найчастіше зустрічаються в нашій усній мові, в письмових текстах. Чим більше число разів зустрічається слово, тим воно вживаніше, або, кажучи мовою математики, має велику частоту.

Багато чого буде залежати від того, який текст ми візьмемо. Наприклад, в «Капітанській дочці» Пушкіна дія відбувається, в основному, в Білогірській фортеці; природно, що слово «фортеця» зустрічається в повісті 98 разів. Якщо ж ми візьмемо будь-який інший текст такого ж розміру, як і «Капітанська дочка», то слово «фортеця» зустрінеться нам рази два, а то й жодного разу.

Зрозуміло, доцільніше працювати не з одним текстом, а з кількома. А потім підрахувати – скільки разів зустрічаються в них різні слова. Так, вельми часте для «Капітанської доньки» слово «фортеця» зустрілося всього лише в 14 текстах зі 133. Отже, це слово займає скромне місце в списку найбільш вживаних слів російської мови. Воно увійшло лише у п’яту тисячу, а складай ми список лише по «Капітанській дочці», те слово «фортеця» зайняло б місце в першій десятці самих ходових слів мови!

В даний час створено велику кількість частотних словників з різних мов: англійської, німецької, російської, польської, чеської, португальської, іспанської, тощо.

Словник іспанської мови, який склав Гарсіа Ос, був створений на підставі підрахунків 400000 слів. Словник чеської мови на основі 1 мільйона 200 000 слів; польської – 7000000, французької 1 мільйона 500 000, німецької – 11000000, і, нарешті, англійської на підставі обробки текстів загальним обсягом в 18 мільйонів слів.

Зазвичай частотні словники являють собою списки слів, які починаються зі слів, що зустрічаються найчастіше. Найбільший з таких словників англійський, який склали. Торндайк і Лордж. У ньому – 30 000 слів. Кожне з них зустрілося від чотирьох разів і більше.

Текстоутворююча здатність

Отже, статистика допомагає відібрати найпотрібніші, найчастіші слова. Скільки ж слів потрібно брати для словника-мінімуму? Викладач, скажімо, має частотний словник англійської мови, що включає тридцять тисяч самих ходових слів. Скільки ж з них включити в словник-мінімум? Тисячу? Дві? Три? П’ять тисяч? За допомогою статистики можна позбутися від свавілля і об’єктивно виявити найпотрібніші слова мови. Але ж це свавілля залишається, коли ми починаємо визначати загальну кількість цих слів! Однак і тут на допомогу приходить математика.

У «Капітанської дочці» Пушкіна союз «і» зустрічається 1160 разів на 29000 слів тексту, тобто в середньому один раз на 25 слів. Прийменник «в» – 724, тобто один раз на 40 слів. Взагалі, службові слова займають, як показав лінгвіст В. Марков, 35,3 відсотка авторської мови і 45,9 відсотка мови дійових осіб.

Слова-монополісти є не тільки серед службових слів, а й серед знаменних. Десятки тисяч рідкісних слів займають мізерну частину тексту; в основному ж будь-який текст (будь-якої мови!) складається з невеликого числа найчастіших слів. «Звідси випливає, – пише Ю. Марков, – що різні слова мають різну здатність до утворення тексту або різну текстоутворюючу здатність». 736 найуживаніших англійських слів займають 75 відсотків тексту. Це означає, що три чверті тексту буде нам зрозуміло, якщо ми візьмемося за читання, знаючи таку кількість слів.

Тисяча слів (зрозуміло, найчастіших) займає 80,5 англійської, 83,5 французької, 81 відсоток іспанського тексту. Дві тисячі самих ходових англійських слів займають 86 відсотків тексту, три тисячі – близько 90, п’ять тисяч – 93,5 відсотка!

Це означає, що знаючи +5000 найчастіших слів, з кожних 300 слів, що складають сторінку тексту, нам буде відомо 281 і невідомо всього лише 19 слів! Тобто практично – можна вільно читати будь-який текст англійською мовою. Неважко підрахувати, що збільшити словник недоцільно. Якщо ми навіть подвоїмо його і замість 5 000 візьмемо 10000 найчастіших слів, то тоді замість 93,5 буде покрито … всього лише 96,4 відсотка тексту! Ми збільшили словник вдвічі – але виграш отримали всього-навсього в 2,9 відсотка!

Отже, математика дає викладачеві іноземної мови не тільки список найчастіших слів мови, а й визначає розміри словника-мінімуму. Вона ж може допомогти в чисто педагогічних питаннях, – наприклад в навчанні усного мовлення.

Словник-мінімум для розмови

Знання мови – це, насамперед, знання розмовної, живої мови. Щоб правильно і вільно говорити чужою мовою, потрібно подолати численні труднощі: не міряти «на свій аршин», не переробляти в дусі рідної мови «атоми мови» – фонеми мови чужої, володіти граматичними конструкціями і правильно будувати фрази і т. д. Але при вивченні усного мовлення, як і при вивченні письмового, насамперед, потрібно знати слова чужої мови. В усному мовленні це навіть важливіше, адже при читанні ми маємо можливість заглянути в словник, а в розмові цього зробити не можна: слова повинні бути у нас весь час «під рукою».

Чи можна скласти частотний словник усного мовлення? Безумовно, можна. Причому заздалегідь можна припустити, що більша частина «книжних слів» відсіється. Можна припустити, що взагалі створити словник-мінімум розмовної мови доцільно зі звичайних словників, видаливши з них тільки явні книжкові слова.

Для перевірки цього припущення в США було проведено наступний дослід. На магнітофонну стрічку записано 607 виступів 274 студентів коледжу, що склало близько трьохсот тисяч слів; запис був несподіваним для студентів, їх виступи були не підготовлені і тому не містили книжкових ораторських та інших, чужих нашій звичайній мові слів. Скільки ж «книжних слів» відсіялося в усному мовленні?

З перших п’ятисот найбільш вживаних слів літературної мови – всього лише п’ять слів; з першої тисячі – тридцять п’ять, з двох тисяч – сто сімдесят вісім, з п’яти тисяч – близько тисячі п’ятисот. А це означає, що навіть після самого суворого відсіву книжкових слів у словнику-мінімумі все ж залишається дві третини.

Чи достатньо цього? Чи може людина, користуючись трьома з половиною тисячами найчастіших слів, вільно говорити, скажімо, по-англійськи? Підрахунки показують, що для цього достатньо навіть двох тисяч. Текстоутворююча здатність самих ходових слів усного мовлення більше, ніж письмового.

Американський вчений А. Уест після довгих дослідів прийшов до висновку, що для англійської мови можливо наступне число слів, що входять в «словник говоріння». Для примітивного переказу основної сюжетної лінії деяких казок і коротких оповідань потрібно знати 450 слів. Для докладного переказу майже будь-якої казки – 750 слів. Для дуже докладного переказу пригодницьких романів – 1400 слів, для детального переказу будь-яких творів художньої літератури – три тисячі слів.

Дуже часто пристрасть автора до певних слів спотворює статистичні результати. Скажімо, союз «і», в середньому, зустрічається 40 разів на тисячу слів російського тексту. Але якщо ми візьмемо твори письменника Леоніда Андрєєва, який мав пристрасть до цього союзу, то ми можемо зустріти в тисячі слів не 40, а добрих 60 або 80 «і» (Андрєєв вживав його не тільки як з’єднувальний союз, але дуже часто починав з нього речення).

Звичайно, для складання словника самих ходових слів улюблені слова письменника – перешкода. Але з іншого боку – вони-то якраз і є тими об’єктивними показниками, які можуть дати нам характеристику стилю письменника, його відмінності від інших майстрів пера, індивідуальної особливості його стилю.

«Словники мови письменника» почали складатися давно. У них входили всі слова, які вжив даний письменник у своїх творах. Чим більше їх, тим багатше лексика, словниковий запас письменника.

Так, у творах великого англійського поета Мільтона зустрічається приблизно 8000 різних слів; в «Божественній комедії» Данте – 5 860 слів; в «Шаленому Орландо» Терквато Тассо – 8 174 слів; у творах давньоримського поета Горація – 6084 слів, в гомерівських поемах – близько 9000 слів, в творіннях Шекспіра – 15000 слів (за іншими даними – навіть 24 000!), у творах Пушкіна – 21200 слів. Цікаво порівняти зі словниками великих письменників кількість різних слів, які використовують прості люди. За даними психологів, дитина користується +3600 словами; підліток у 14 років – 9000. Середній дорослий вживає 11700 слів, а людина «підвищеної інтелігентності» – до 13500 слів.

Тут, правда, слід внести істотну поправку. Якщо в «Божественній комедії» Данте було вжито +5860 слів, причому 1615 з них – це власні імена та географічні назви, то це зовсім не означає, що Данте знав таку кількість слів. Насправді великий флорентієць знав десятки тисяч слів і, ймовірно, користувався ними – але у своїй поемі він вжив тільки частину з них; цю частину і вловив «словник мови Данте».

Якось вийшов чотиритомний «Словник мови Пушкіна», який одночасно є і частотним словником. У ньому наводяться дані про те, скільки разів зустрічається те чи інше слово у повному зібранні творів Пушкіна, в яких саме творах, в яких значеннях і граматичних формах. У повному зібранні творів Пушкіна міститься близько 600 000 слів. З них 21 200 слів – різні. Понад сто раз зустрічається всього лише 720 слів. Зате один раз на шістсот тисяч слів пушкінських текстів зустрічається +6440 різних слів, два рази – 2830 слів, три рази – 1800 слів. Це – незаперечне і точне свідчення багатства пушкінського словника, своєрідності його лексики.

В даний час на допомогу вченим приходять комп’ютери, які дозволяють виконувати лічильну роботу багатьох років за години і навіть хвилини. Допомагають вони і при складанні частотних словників, наприклад, частотний словник російської мови, про яку ми згадували вище, був складений за допомогою обчислювальної техніки.

Лексика кожного досить довгого тексту, будь це роман або п’єса, наукова книга або діловий звіт, має означальні структуру. Стиль і словник «Капітанської доньки» суттєво відрізняється від «Введення в математичний аналіз». Частотні словники, словники мови письменника дозволяють виразити ці відмінності в числах, зробити їх доказовими.

Ці точні докази дають не тільки частотні словники. Наприклад, підрахунок середньої кількості слів у реченні також дозволяє характеризувати стиль того чи іншого письменника за допомогою чисел.

Можна сказати: «А. Н. Толстой віддає перевагу більш довгим фразам, а А. І. Купрін – коротшим». А можна сказати і так: «Середнє число слів у фразі у творі Толстого «Сестри» – 11,9, а середнє число в фразі у творі Купріна «Поєдинок» – 9,5».

Числа на службі лінгвістики

Спочатку числа допомагали вирішувати багато прикладних питання. Наприклад: як зручніше розташувати клавіші на друкарській машинці (а пізніше на клавіатурі)? Природно, найчастіші букви повинні бути самими «зручними», а самі рідкісні перебувати на периферії. Визначити, які з букв часті, а які рідкісні, можуть тільки підрахунки.

Або ще один зразок «прикладної лінгвістики» – передача мови, в усній чи письмовій формі, у формі листа, телефонної розмови. «Швидке вдосконалення техніки зв’язку, зростання потреб у передачі інформації, «криза ефіру», в якому не вміщується інформація, передана у формі електромагнітних хвиль, – все це поставило дуже гостро проблему створення більш економних методів передачі інформації», – каже Р. Л. Добрушин.

Як зручніше кодувати слова і букви мови в електричні сигнали? Як краще скорочувати текст, опускаючи ті його частини, які не несуть інформації і є точними? Відповісти на ці питання можуть тільки числа, тільки точні методи у вивченні мови.

За останній час з’явилися нові додатки лінгвістики, які зажадали точних заходів і чисел в описі мови. З виникненням кібернетики з мовою доводиться мати справу не тільки людям, а й «розумним машинам», а машини «розуміють» тільки строго формалізовану, однозначну мову чисел і логічних команд. На неї і потрібно перекладати нашу звичайну людську мову.

Машинний переклад з однієї мови на іншу, машинне зберігання інформації, машинний переклад усної мови в письмову і письмової в усну, нарешті, розмова з машиною по-людськи, тобто введення і виведення інформації в машину у формі усного мовлення. І вирішити ці проблеми може тільки лінгвістика в тісній співдружності з математикою. Числа і точні заходи допомагають вирішувати не тільки практичні, прикладні завдання мовознавства. Вони потрібні і самій мовознавчій теорії. Наприклад, визначати ступінь запозичення однієї мови із словникового запасу іншої.

Так, підрахунки показують, що в албанській мові з 5140 слів лише 430 є власними, а всі інші запозичені з інших мов. У вірменській 1500 слів з 1940 запозичені з перської, грецької, парфянскої, сирійської, арабської. У корейській мові є до 75 відсотків запозичень з китайської; в англійській від 55 до 75 відсотків всіх слів запозичені з французької, латині та інших романських мов.

Звичайно, велике число запозичень у мові не говорить за те, що ця мова є найгіршим, менш повноцінним – всі мови світу рівні, на будь-якій з них можна висловити те, що виражено іншою мовою. Запозичуються зазвичай слова, що позначають предмети побуту, культури, праці, яких не було раніше у народу – природно, що разом з предметом запозичується і його назва. Наприклад, українське слово «сало» увійшло в усі мови світу, так само як і французьке «одеколон» або австралійське «бумеранг» і «кенгуру».

Наука про мову за довгі роки свого розвитку накопичила величезний матеріал. «Продовжувати ігнорувати числа при розгляді лінгвістичних явищ означало б гальмувати розвиток мовознавства», – писав в 1949 році французький мовознавець Коен.

Але крім цієї наукової потреби в точності, виникла необхідність вирішення практичних завдань: як старих і традиційних (викладання іноземних мов, створення економних кодів), так і нових, часом науково-фантастичних, як, наприклад, розмова з комп’ютером на людській мові, машинний переклад з мови на мову і т. д. Вирішити ці завдання без чисел – неможливо. Ось чому математичні методи все більше починають застосовуватися у вивченні мови.

Але така елементарна математика застосовна до завдань лінгвістики лише на перших порах. Потім має слідувати створення нового математичного апарату спеціально для мовознавчих завдань, точно так само, як був створений новий апарат для задач економіки (лінійне, динамічне програмування, теорія черг і т. д.), Як створюється новий математичний апарат для біології (наприклад, роботи одного з найбільших математиків Гельфанда присвячені цій важливій проблемі), як був створений і бурхливо розвинутий новий розділ математики, що виник спеціально для вирішення гуманітарних завдань – теорії ігор.

Сучасна математика найвищою мірою сприяє точності вивчення мови. Так само як у фізиці математичні елементи використовуються для опису фізичного світу, оскільки передбачається, що вони відповідають елементам фізичного світу, так і в математичній лінгвістиці математичні елементи приблизно повинні відповідати елементам світу мови.

Автор: А. Кондратов.

Схожі записи:

Таємниця геометрії

Математичне прізвисько

Розповідь про незвичайні обчислення

Блискуча непопулярність математики

Цвіль та геометрія

Математика @uk