Количественный анализ Большого русского словаря-справочника синонимов

Количественный анализ Большого русского словаря-справочника синонимов

В статье обсуждаются вычисления «в среднем», используемые в частотных словарях русского языка на основании произвольно выбранных текстов «представительного корпуса» русского языка. Доказательства «представительности» выбранных текстов, и что именно под этим термином понимается, фактически отсутствуют в работах этих авторов. В данной работе принят другой подход, а именно, анализируются слова самого большого электронного словаря-справочника русского языка Тришина В.Н. на 565 тыс. слов и словосочетаний. В статье приводится среднее число символов 12 в русском языке на основе словаря-справочника, которое существенно отличается от данных двух известных частотных словарей 5,28 и 5,4 на основе выбранных «представительных корпусов». Приводятся и другие численные характеристики словаря-справочника. Статья тем самым расширяет наше представление о русском языке и возможности его сравнения с другими языками.

Статья может представлять интерес для специалистов по компьютерной обработке текстов и поиску информации, для любителей русского языка.

Ключевые слова: Большой словарь-справочник синонимов русского языка системы ASIS, частотность, частотный словарь, среднее число символов в слове, компьютерная обработка текстов, поиск информации, самые длинные слова русского языка.

QUANTITATIVE ANALYSIS OF THE LARGE RUSSIAN REFERENCE DICTIONARY OF SYNONYMS

Yury V. Kuyanov Senior researcher, NRC "Kurchatov Institute" Institute for High Energy Physics, Protvino Tel. +7(4967)-71-39-67 E-mail: Yu.Kuyanov@ihep.ru

Vitaly N. Trishin PhD in Physico-mathematical Science, Chairman of the board of directors of «OKP» company, Moscow http://www.trishin.ru Tel.: +7(495)- 222-22-58 E-mail: mail@trishin.ru

The article discusses the calculation of an “average” used in frequency dictionaries of Russian on the basis of randomly selected texts of the “representative body” of the Russian language. Evidence of the selected texts being “representative”, or the clarificationof what exactly this term conveys, are virtually absen in the works of these authors. In this article, a different approach is adopted, namely, analysisof the world’s largest electronic reference dictionary of Russian by V. N. Trishin, containing 565 thousand words and phrases. The article provides an average of 12 characters per word in Russian based on the reference dictionary, which differs substantially from the data of the two well-known frequency dictionaries of 5.28 and 5.4, based on the selected “representative bodies”. Other numerical characteristics of the reference dictionary are presented as well. The article thus expands our understanding of the Russian language and the possibility of comparison with other languages. The article may be of interest to computer word processing information retrieval professionals and fans of the Russian language.

Keywords: Large Russian reference dictionary of synonyms of the ASIS system, frequency, frequency dictionary, average number of characters in a word, computer word processing, information retrieval.

1. Введение

Ответ от Google на комбинацию слов “средняя”+”длина”+”слов”+”языке” насчитывает сотни тысяч ссылок.

Среди выбранных страниц фигурирует и описание мифического сражения американцев с японцами, в которых американцы победили, так как средняя длина слова в английском языке (5 букв) якобы существенно короче японского (14 букв, хотя в японском языке используются иероглифы, а не буквы!). Упоминание этого «сражения» (без ссылок на первоисточник, — якобы работу «американских историков») приведено в десятках тысяч интернетовских текстов, в том числе и в интервью писателя, филолога Витковского Е. В. [1], где указывается также средняя длина слова русского языка 7, и говорится о том, что русские неуязвимы в бою, т.к. «в боевой обстановке любой вменяемый командир немедленно переходит на мат. А русский мат короче английского» (а если командир не матерится, то он невменяемый?). При этом ещё и приравниваются средние длины слов в письменных текстах и единиц информации в актах устной речи (где вместо букв языка надо считать фонемы). А как именно считать? Ведь при устной речи, скажем в произносимых телевизионных текстах, большая часть слов из книжных словарей никогда не произносилась!

И подобным вышеупомянутому «сражению» «мусором псевдофактов» наполнено информационное пространство.

Возникает естественный вопрос, а что же такое «средняя длина слов в языке» (в частности в русском языке), как именно она определяется языковедами-филологами и возможно ли в принципе корректное определение этой «средней длины»?

Статистические сведения о лексическом составе современного письменного русского языка приводятся в частотных словарях Штейнфельд Э. А. (1963) [2],Засориной Л. Н. (1977) [3], Ляшевской О. Н. и Шарова С. А. (2009) [4]. Но, как можно понять из описания этих словарей, авторы используют в этих работах слово «статистический» не в точном математическом смысле, а в своём специфическом, гуманитарно-филологическом.

Как написано во введении к наиболее современному словарю [4], он «основан на коллекции текстов Национального корпуса русского языка, представляющей современный русский язык периода 1950–2007 годов. Объём выборки, на которой строится большинство разделов словаря, составляет 92 млн. словоупотреблений. <…> Для того чтобы корпус мог предоставить достоверные данные о частоте слов в языке, он должен быть большим по объёму и представительным по охвату материала, т.е. содержать тексты разных жанров и стилей в определённой пропорции. <…>». Анализируемый в словаре корпус русского языка включает в себя подборку современной прозы, политических мемуаров, современных газет, научно-популярной литературы и пр.

Но так как «в словаре представлен только срез всего потенциально бесконечного множества текстов, функционирующих в современном русском языке», то не понятно, как можно говорить о частоте слов русского языка, и о какой «определённой пропорции» и представительности идёт речь. Можно продолжить вопросы: как учитывались в проведённых исследованиях тиражи представленных текстов, а сколько читателей эти тексты прочитало, а сколько из них поняло (шутка).

2. О средней длине слова

Средняя длина слова на корпусе текстов частотного словаря Ляшевской О. Н. и Шарова С. А. составляет 5,28 символа, а на корпусе частотного словаря Засориной Л. Н. она составляет 5,4 символа, при этом средняя длина слова в самом словаре Засориной Л. Н. составляет 9,3 символа «за счёт первой тысячи самых частых слов, включающей те одно-, двух-, трёхбуквенные лексемы, которые влияют на среднюю длину слова в тексте».

Очевидно, что результаты исследований частоты слов существенно зависят от того корпуса текстов, который взят за основу, и если исследовать, например, тексты 10-томного Курса теоретической физики Ландау Л. Д. и Лифшица Е. М., то средняя длина слова этого учебника может значительно отличаться от вышеприведённых цифр. Да и разница в вышеприведённых цифрах двух частотных словарей (5,28 и 5,4) вызвана, по-видимому, отличием в обследованных корпусах текстов.

Справедливости ради следует сказать, что подобные расширительные трактовки математических (статистических) терминов существуют не только в лингвистике, но и в ряде «неестественных» наук: экономике, социологии, политологии, этнографии и др.

Альберт Эйнштейн говорил: «As far as the laws of mathematics refer to reality, they are not certain; and as far as they are certain, they do not refer to reality» («Это не факт, что математические теоремы отражают сущность . Но что касается их достоверности, то они не имеют отношения к действительности») [5].

Но что интересно, часто такие неоднозначные на первый взгляд трактовки, исследования имеют полезные практические приложения.

Имея словарную базу Большого словаря-справочника синонимов русского языка [6, 7], содержащего на 4 сентября 2015 года свыше 545 тыс. слов и словосочетаний (фразеологизмов, крылатых выражений, толкований и пр.)1 и 2,062 млн. синонимических связей выполним далее подсчёты, в том числе и «в среднем» по словарной базе словаря-справочника, что представляется более оправданным, чем делать выводы в целом об языке на основании выбранных для анализа текстов.

Так, группируя вместе записи (слова и словосочетания) из словаря с одинаковым числом букв (символов) и подсчитывая число записей в каждой группе, получаем таблицу № 1.

Количество букв в записях в таблицах пронумерованы, начиная с единицы и до пятидесяти, и расположены слева направо и далее сверху вниз. В таблицы помещены также результаты нормировки. Это представленные в процентах отношения всех целых чисел в клетках к их сумме. Таким образом, число клеток в таблицах удваивается, а столбцы с данными в абсолютном (числа) и относительном (проценты) виде чередуются. Заметим, что в клетке с N=50 учтены также слова большей длины.

В таблице № 1 легко увидеть вершину (максимум) распределения подсчитанного числа слов заданной длины. Это 46404 слов с длиной 11 букв, или 8,58 % всех слов, подсчитанное число которых (внизу таблицы) равно 540777, средняя длина записи (слова или словосочетания) в словаре, равна 13,25±5,90 символов на запись.

3. Измерения по всему составу словаря-справочника синонимов

Таблица № 1. Распределение по длине слова (словосочетания)

📎📎📎📎📎📎📎📎📎📎