Кто поймет «Незнайку»? Автоматическое определение сложности текстов для детей
Кто поймет «Незнайку»? Автоматическое определение сложности текстов для детей
Аннотация
Код статьи
S013161170017239-1-1
Тип публикации
Статья
Статус публикации
Опубликовано
Авторы
Иомдин Борис Леонидович 
Аффилиация: Институт русского языка им. В. В. Виноградова РАН
Адрес: Российская Федерация, Москва
Морозов Дмитрий Алексеевич
Аффилиация: Новосибирский государственный университет
Адрес: Российская Федерация, Новосибирск
Выпуск
Страницы
55-68
Аннотация

Необходимость оценить сложность текста для читателя может возникнуть в разных ситуациях: составление текстов договоров и законов, создание инструкций к приборам, написание учебников родного или иностранного языка, подбор литературы для внеклассного чтения. Особенно интересна оценка сложности учебных текстов для детей, поскольку к таким текстам предъявляется сразу несколько требований, отчасти противоречащих друг другу. Дети должны хорошо понимать эти тексты, они должны быть актуальны и интересны и одновременно учить читателей как новым концепциям, так и новым словам и конструкциям. Сейчас возрастная маркировка текстов для детей проводится экспертами вручную, что делает процесс долгим и трудоемким, а результат субъективным. В статье предлагается метод автоматической классификации текстов по сложности с использованием нейросетевой модели. Этот метод предполагается использовать для создания корпуса текстов детской литературы с разметкой по возрасту (в рамках НКРЯ). Качество предсказаний нашей модели достигло 0,92, она достаточно хорошо учитывает разнообразие лексики и набор тем. Появление автоматического механизма, с приемлемой точностью оценивающего степень сложности текста, позволит в короткие сроки создать представительный корпус текстов, написанных для детей, с возможностью подбора в нем текстов, заведомо понятных детям заданного возраста. Такой корпус будет востребован и учителями, и родителями, и переводчиками художественной литературы, и лингвистами, и всеми, кому важна возможность подбора понятных детям художественных текстов.

Ключевые слова
корпусная лингвистика, детская литература, читабельность, сложность текста, машинное обучение, нейронные сети
Источник финансирования
Работа выполнена при финансовой поддержке РФФИ, проект 19-29-14224.
Классификатор
Получено
12.12.2021
Дата публикации
12.12.2021
Всего подписок
6
Всего просмотров
87
Оценка читателей
0.0 (0 голосов)
Цитировать Скачать pdf Скачать JATS
1

0. Введение

2 Прочитаем два отрывка:
3 «Внутри земля разрыхляется, тщательно перемешивается с удобрением, подкормкой и посевным зерном. Помимо этого, там же уничтожаются семена сорняков и личинки вредных насекомых. Личинки разрушаются при помощи ультразвуков, а семена сорняков просто поджариваются, после чего они теряют всхожесть. Теперь посмотрите на машину сзади. Здесь вы видите такое же широкое отверстие. Из него высыпается разрыхлённая земля, в которую, как я уже говорил, внесены семена, подкормка и удобрение. Таким образом, там, где пройдёт комбайн, земля остаётся вспаханной и засеянной».
4 «Здесь нити, прежде чем попасть в ткацкий станок, проходили процесс окраски, то есть непрерывно протягивались через сосуды с окрашивающими растворами. Карасик объяснил, что хотя нити и делались из одного и того же сырья, но материи получались разные. Это зависело как от метода химической обработки нити, так и от устройства ткацких станков, которые могли изготовлять не только тканые материи, но и трикотажные, то есть вязаные, кручёные и плетёные, а также валяльно-войлочные, вроде фетровых и велюровых, и комбинированные, какими являются, например, вязально-тканые, войлочно-кручёные или валяльно-плетёные».
5 В каком возрасте могут быть понятны эти тексты? Подходят ли они для дошкольников? Ответ на этот вопрос может быть получен экспериментально – скажем, путем предъявления этих текстов испытуемым детям разного возраста и проведения тестов на понимание. Однако такие эксперименты – дело трудоемкое и небыстрое, а вопрос о понятности текста для детей разного возраста возникает регулярно. Так, например, приведенные фрагменты взяты из произведения Николая Носова «Незнайка в Солнечном городе», и на форумах родителей в Интернете неоднократно задается вопрос, подходит ли эта книга для детей 2–3 лет.
6 Необходимость оценить сложность текста или его фрагмента для читателя возникает во множестве различных прикладных задач, таких как составление текстов договоров и законов, написание учебников родного или иностранного языка, подбор литературы для внеклассного чтения. В широком смысле каждый из нас косвенно решает эту задачу каждый раз, когда пользуется речью: ведь говорящий заинтересован в том, чтобы сказанное было верно понято собеседником, а значит, нужно правильно выбрать слова, конструкции и степень детальности описания, исходя из возраста собеседника, его подготовленности, заинтересованности и др. Однако в подавляющем большинстве ситуаций эту задачу мы решаем интуитивно, не задумываясь над ней и опираясь на предыдущий опыт, и иногда ошибаемся.
7 Изучение того, что такое семантическая сложность (сложность для понимания, читабельность) текста, необходимо для автоматизации решения приведенных выше задач. Особенно интересной представляется автоматическая оценка сложности учебных текстов для детей, поскольку к таким текстам предъявляется сразу несколько требований, отчасти противоречащих друг другу. Дети должны хорошо понимать эти тексты, они должны быть актуальны и интересны для детей и одновременно учить читателей как новым концепциям, так и новым словам и конструкциям.
8

1. Возрастная маркировка текстов и методы ее автоматизации

9 В случае с текстами для детей читабельность текста часто ассоциируется с ожидаемым возрастом читателя. Сейчас текстам нередко присваивается возрастная категория. При этом различные маркировки мало связаны между собой и, вообще говоря, преследуют различные цели. Школы выдают ученикам на лето списки книг, необходимых для лучшего понимания курса литературы. Книжные магазины хотят порекомендовать покупателям наиболее интересные книги, обычно из новинок. Цель возрастной маркировки, которую в России с недавних пор обязаны использовать все книжные издательства (0+/6+/12+/18+), – оградить детей от опасной для них информации, а не порекомендовать книги, понятные и интересные в соответствующем возрасте. Все эти ситуации объединяет то, что маркировка проводится экспертами вручную, а значит, процесс оценки очень долог (вообще говоря, эксперту необходимо прочесть произведение целиком) и его результат в заметной степени зависит от субъективных предпочтений эксперта.
10 Попытки формализовать и каким-либо объективным образом оценивать читабельность текста предпринимаются достаточно давно. Первые подходы были довольно примитивными и опирались на небольшой набор легко вычисляемых признаков, таких как средняя длина предложения и среднее число слогов в слове. Несмотря на кажущуюся наивность таких подходов, они хорошо зарекомендовали себя и периодически применяются до сих пор. Например, в Коннектикуте для оценки текстов страховых договоров используется тест Флеша, в котором читабельность текста вычисляется по формуле , где A – средняя длина предложения (в словах), а B – среднее число слогов в слове. Результат не должен превосходить 45 пунктов, что примерно соответствует уровню учащегося колледжа.
11 Разумеется, такие методы не могут быть достаточно надежными. Например, читабельность следующего отрывка из «Слова о полку Игореве» (в переводе В. Жуковского) согласно адаптированному тесту Флеша–Кинкейда равна 5,96, что примерно соответствует 4–6 классу школы, хотя, как кажется, он заметно сложнее:
12 Тогда вступил князь Игорь в златое стремя
13 И поехал по чистому полю.
14 Солнце дорогу ему тьмой заступило;
15 Ночь, грозою шумя на него, птиц пробудила;
16 Рев в стадах звериных!
17 Див кличет на верху древа:
18 Велит прислушать земле незнаемой,
19 Волге, Поморию, и Посулию,
20 И Сурожу, и Корсуню,
21 И тебе, истукан тьмутороканский.
22 И половцы неготовыми дорогами побежали к Дону великому.
23 Кричат в полночь телеги, словно распущенны лебеди;
24 Игорь ратных к Дону ведет!
25 Уже беда его птиц скликает,
26 И волки угрозою воют по оврагам,
27 Клектом орлы на кости зверей зовут,
28 Лисицы брешут на червленые щиты...
29 О Русская земля! Уж ты за горами
30 Далеко!
31 Ночь меркнет,
32 Свет-заря запала,
33 Мгла поля покрыла,
34 Щекот соловьиный заснул,
35 Галичий говор затих.
36 Русские поле великое червлеными щитами прегородили,
37 Ища себе чести, а князю славы.
38 Следует заметить, что практически все классические индексы читабельности (формула Флеша–Кинкейда, индекс Колман–Лиау, формула Дэйла–Чейла, Automatic Readability Index, SMOG) разрабатывались для английского языка и их адаптация для русского – это отдельная задача, осложняющаяся отсутствием сколько-нибудь большого корпуса размеченных по уровню сложности текстов.
39 С появлением более продвинутых автоматических методов стало возможным использовать для оценки читабельности признаки с заметно более высоким уровнем лингвистической мотивированности, такие как частеречный состав текста и особенности используемых синтаксических конструкций. Среди исследований в этой области следует упомянуть работу [Isaeva, Sorokin 2020], в которой изучалась корреляция между сложностью текста и признаками такого типа. Исследование проводилось на корпусе текстов из школьных учебников по трем предметам: биологии, литературе и обществознанию. Для каждого из предметов и для корпуса в целом были автоматически выделены базисные наборы признаков, определяющих читабельность. Оказалось, что четыре признака вошли во все четыре набора: среднее число слогов в слове, доля глаголов в действительном залоге и доля личных местоимений относительно всех слов текста, а также средняя глубина синтаксических деревьев предложений.
40 В свою очередь, широкое распространение машинного обучения в обработке естественных языков позволяет взглянуть на задачу с другой стороны: не искать в явном виде формулу для вычисления читабельности (что, в первую очередь, потребовало бы формализации этого достаточного расплывчатого понятия), а предоставить поиск скрытых зависимостей компьютеру. В таком случае необходимо собрать достаточно большой корпус текстов с размеченной вручную и проверенной экспериментально читабельностью, вычислить для каждого из текстов характеристики, которые коррелируют с читабельностью, а затем обучить на множестве полученных признаковых описаний текстов модель машинного обучения.
41 Для русского языка такой подход рассмотрен, например, в [Glazkova et al 2021]. Авторы исследовали пять групп признаков:
  • классические признаки (средние длины слов и предложений) и классические индексы читабельности как их производные,
  • лексические признаки (доля наиболее частотных слов),
  • лексическое разнообразие текста, которое учитывалось за счет построения описания текста [Jones 2004]),
  • грамматические признаки (частеречный состав текста),
  • признаки эмоциональной окрашенности текста и пометы издательства (в том числе, аннотацию и возрастную разметку 0+/6+/12+/18+).
42 Для собранного корпуса ознакомительных фрагментов книг решалась задача разбиения на два класса: детская и взрослая литература. Авторы использовали метод опорных векторов и алгоритм «случайный лес» [Breiman 2001], обученные на разных наборах признаков. Лучший результат (0,95 по метрике F1) показал метод опорных векторов, использовавший все доступные признаки. Также оценивался результат без учета помет издательства, поскольку их использование накладывает серьезные ограничения на текст, читабельность которого мы хотели бы измерить, поскольку нельзя оценить произвольный фрагмент книги или статьи. Здесь лучшим был алгоритм «случайный лес» (0,91 по метрике F1), обученный на грамматических признаках и словарном составе текста.
43

2. Эксперимент: нейросетевая модель для классификации текстов по возрасту

44 Однако можно и вовсе отказаться от выбора признаков, использовав нейросетевую модель. В этом случае на вход алгоритму подаются не заранее рассчитанные признаки, а сам текст. На первом шаге текст разбивается на слова и каждому слову сопоставляется эмбеддинг – особый набор чисел заданной длины. Это сопоставление базируется на принципах дистрибутивной семантики: значение слова описывается совокупностью характерных для него контекстов. Для того чтобы модель оптимально сопоставляла словам эмбеддинги, ее предварительно обучают на огромных корпусах текстов. Затем следующий слой (или слои) нейронов преобразуют эмбеддинги отдельных слов в эмбеддинг всего текста. В простейшем случае эмбеддингом текста может быть обычная сумма эмбеддингов всех слов. Более сложные процедуры (например, преобразование при помощи операции свертки) позволяют получить больше информации о тексте и учесть последовательность слов в предложениях. На последнем шаге на основании полученного эмбеддинга текст относят к одному из возможных классов. Методы на основе нейронных сетей показывают на сегодняшний день лучшие результаты во многих областях обработки языка. Применимость таких подходов к задаче оценки читабельности исследована и в ранее упомянутой работе [Glazkova et al 2021], причем модель RuBERT показала результат, уступивший только модели, использовавшей издательские пометы в качестве признаков.
45 Именно этим путем мы решили пойти, работая над темой «Автоматическое определение сложности слов в текстах для детей разного возраста»1, чтобы приблизиться к задаче составления корпуса текстов детской литературы с разметкой по возрасту. Такой корпус предполагается включить в качестве одного из подкорпусов НКРЯ в рамках проекта «Компьютерно-лингвистическая платформа нового поколения для цифровой документации русского языка: инфраструктура, ресурсы, научные исследования». Появление автоматического механизма, с приемлемой точностью оценивающего степень сложности текста, позволит в короткие сроки создать представительный корпус текстов, написанных (или подходящих) для детей, с возможностью подбора в нем текстов, заведомо понятных детям заданного возраста. Кажется, что такой корпус был бы нужен и учителям, и родителям, и переводчикам художественной литературы, и лингвистам (скажем, изучающим сравнительную частотность лексики в текстах для детей и взрослых), и всем, кто сталкивается с проблемой подбора понятных детям художественных текстов.
1. Поддержана грантом РФФИ, проект 19-29-14224.
46 Для наших экспериментов мы подготовили массив текстов из списка детской литературы, рекомендованной Министерством просвещения. Литература в этом списке разделена на три категории: 1–4, 5–9 и 10–11 классы. Разумеется, столь широкие категории влекут за собой большую неоднородность попадающих в них книг. Кроме того, в списке есть как проза, так и поэзия. Особняком стоят древнерусские тексты: «Повесть временных лет» и «Слово о полку Игореве». Всего мы собрали 139 текстов общим объемом более 7 миллионов словоупотреблений. Для того чтобы расширить выборку, мы разделили каждый текст на фрагменты по 70 предложений, приблизительно приняв читабельность каждого фрагмента равной читабельности текста в целом (допустимость такого приема исследуется в работах [Isaeva, Sorokin 2020; Ivanov et al 2018]. В результате наша выборка составила более девяти тысяч фрагментов, наименее представленной категорией оказались тексты для начальной школы (около полутора тысяч фрагментов).
47 Мы выбрали четыре основные модели: модель «случайный лес» на наборе признаков (таких как длина слов и предложений, частеречный состав текста, частотность слов, разнообразие пунктуации), модель RuBERT [Kuratov, Arkhipov 2019], сверточная нейронная сеть [Zhang et al. 1990] и комбинация признаков с предсказаниями ансамбля сверточных сетей (нескольких одинаковых по архитектуре нейронных сетей, обученных на различных данных). Для сверточной сети мы использовали эмбеддинги, обученные на корпусе текстов русскоязычной Википедии и портала Lenta.ru. Код моделей доступен по адресу >>>> .
48 Для оценки качества решений мы отделили приблизительно 1/7 всех фрагментов в тестовую выборку (во избежание «узнавания» сетью конкретной книги, а не ее абстрактной читабельности, фрагменты, относящиеся к одному произведению, не могли попасть одновременно и в обучающую, и в тестовую выборку). Качество классификации мы оценивали при помощи метрики F1 [Powers 2011], усредненной по трем классам.
49 Лучшие результаты в нашем случае показал ансамбль сверточных сетей с добавлением признаков. Для обучения мы разделили обучающую выборку на шесть приблизительно равных частей, с тем же условием, что и для выделения тестовой выборки: фрагменты одного произведения попадали строго в одну часть. Далее мы обучили шесть различных сверточных сетей, каждый раз используя пять из шести частей в качестве новой обучающей выборки, а шестую – в качестве валидационной выборки для того, чтобы избежать переобучения сети. В последнем слое каждой из сетей мы добавляли к получившемуся эмбеддингу текста значения вычисленных признаков. Затем для каждого фрагмента исходной тестовой выборки мы объединили предсказания всех шести сетей при помощи механизма soft-voting: каждая из сетей предсказала, с какой вероятностью текст будет отнесен к каждому из классов. Затем эти значения были усреднены, а в качестве итогового класса выбирался тот, который имел наибольшую вероятность после усреднения. Качество предсказаний нашей модели достигло 0,92. Важно отметить, что полученная модель достаточно хорошо учитывает разнообразие лексики и набор обсуждаемых тем. Так, например, следующий отрывок из «Детства Тёмы» был верно отнесен к возрастной категории 1–4 класс, тогда как классические индексы оценивают его категорию как 5–9 класс:
50 Мелкий ноябрьский дождь однообразно барабанил в окна. На больших часах в столовой медленно-хрипло пробило семь часов утра. Зина, поступившая в том же году в гимназию, в форменном коричневом платье, в белой пелеринке, сидела за чайным столом, пила молоко и тихо бурчала себе под нос, постоянно заглядывая в открытую, лежавшую перед ней книгу. Когда пробили часы, Зина быстро встала и, подойдя к Тёминой комнате, проговорила через дверь: – Тёма, уже четверть восьмого. Из Тёминой комнаты послышалось какое-то неопределенное мычание. Зина возвратилась к книге, и снова в столовой раздался тихий, равномерный гул ее голоса. В комнате Тёмы царила мертвая тишина. Зина опять подошла к двери и энергично произнесла: – Тёма, да вставай же!
51

3. Сложность текстов и сложность слов

52 В то же время ясно, что все представленные методы достаточно слабо учитывают семантическую сложность отдельных слов. В нашей модели мы оценили сложность слов текста через их частотность в НКРЯ, однако это не всегда корректно. Например, многие имена собственные имеют очень низкую частотность, но обычно не усложняют текста в целом. Этим объясняется неправильная классификация нашей моделью (10–11 класс) следующего отрывка из «Чудесного путешествия Нильса с дикими гусями»:
53 – Да, да, о нем, – прервала Акка Кебнекайсе пышную речь аиста Эрменриха. – Так что же вы посоветуете? – Госпожа Кебнекайсе, – торжественно сказал аист и так энергично стукнул клювом по камню, что тот раскололся, будто пустой орешек. – Госпожа Кебнекайсе, я сочту за честь для себя, если наш спаситель Нильс вместе с нами отправится на Кулаберг.
54 Измерение семантической сложности слов представляет собой непростую задачу [Морозов, Иомдин 2019]. Различные авторы предлагают разнообразные подходы к определению семантической сложности (сложность слова как количество значений [Raukko 2006]; сложность слова как средняя сложность текстов, в которых оно используется [Mikk et al 2001]; сложность слова как количество возможных переводов этого слова на какой-либо другой язык [Melamed 2002]), однако никакое из этих определений нельзя назвать однозначно верным, поэтому вычисление сложности отдельного слова в тексте – задача не менее трудная, чем оценка понятности текста в целом. Важно и то, что значение незнакомых и малопонятных слов нередко может быть восстановлено из контекста [Фейгина 2021].
55 Заметим, что сложность текста может меняться (и обычно меняется) со временем: чем старше текст, тем больше в нем устаревших слов и непривычных конструкций. Таким образом в списках литературы, безусловно подходившей для детей соответствующего возраста в свое время, регулярно появляются тексты, которые уже мало понятны читателям без подробных комментариев, несмотря на то, что сюжет и возраст героев соответствует возрасту читателя. В качестве примера приведем небольшой отрывок из повести Астрид Линдгрен об Эмиле из Лённеберги в переводе Лилианны Лунгиной:
56 Были ворота и в Каттхульте, но, по правде говоря, Эмиль не очень-то разжился на них, так как хутор стоял на отшибе и туда редко кто наведывался из прихода. Лишь один хутор лежал еще дальше Каттхульта – Бакхорва, где как раз и должен был состояться аукцион.
57 «Значит, тому, кто туда поедет, не миновать наших ворот», – решил Эмиль, этакий плутишка.
58 Битый час простоял он сторожем у ворот и заработал – подумать только – целых пять крон и семьдесят четыре эре. Повозки с лошадьми тянулись одна за другой, и только он закрывал ворота, как тотчас надо было снова их отворять.
59 Все крестьяне, спешившие в Бакхорву, были в хорошем настроении, потому что ехали на аукцион, и охотно швыряли монетки в два и пять эре в кепчонку Эмиля. Некоторые богатые крестьяне даже раскошеливались на десять эре, хотя, понятно, мигом в этом раскаивались.
60 А торпарь из Кроки разозлился, когда Эмиль захлопнул ворота перед самой мордой его сивой кобылки.
61 Главному герою, Эмилю, шесть лет, и повесть обычно рекомендуется для дошкольников, которым вполне интересен ее сюжет. Однако опыт показывает, что множество слов читателям этого возраста непонятно без комментариев взрослого (в этом отрывке мы выделили такие слова) – отчасти из-за экзотичности или устаревания реалий, а отчасти из-за того, что употребительность этих слов уменьшилась со времени опубликования текста (1970, полвека назад).
62 Среди потенциальных проблем, связанных с определением сложности слов, нужно упомянуть и так называемые «коварные» слова [Иомдин, Морозов 2020], то есть такие, которые понимаются читателем не в том значении, в котором их использовал автор. Подобные ситуации возникают из-за того, что слова со временем могут поменять основное значение. Достаточно известен пример со словом нелицеприятный, исходно означавшим ‘беспристрастный, справедливый’ (БАС, МАС, БТС), а теперь чаще употребляемым в значении ‘неприятный, грубый, жесткий, обидный’ (Викисловарь, с пометой «разг. неправ.»); мы обнаружили и множество менее частотных «коварных» слов: зябь, конгениальный, поддёвка и др. «Коварность» слова коррелирует с тем, насколько его словообразовательная структура, звуковой или визуальный облик напоминают другие, более распространенные слова. Неправильное понимание «коварных» слов может приводить к ошибочной трактовке целых фрагментов текста, что особенно опасно в учебной литературе. Поиск «коварных» слов затрудняется тем, что при прохождении опроса (в отличие от неизвестных слов) респондент не сможет указать, что понимает слово неконвенционально, ведь он этого не знает.
63

4. Заключение

64 Задача автоматического определения сложности текста для читателей заданного возраста, очевидно, не может быть решена полностью. Развитие детей одного и того же возраста может существенно различаться, слишком индивидуальны и словарный запас, и способность извлекать смысл незнакомого слова из контекста, и знакомство с теми или иными предметными областями, к тому же тексты могут быть неравномерны по сложности. Тем не менее приближение к решению этой задачи – алгоритм, который позволяет автоматически классифицировать тексты хотя бы с точностью до нескольких лет, с расчетом на читателя средних способностей, не обладающего специальными знаниями – уже может сыграть важную в роль в создании больших корпусов текстов для детей разного возраста, при условии последующей ручной обработки результатов автоматической классификации. Использование нейросетей для решения этой задачи кажется сейчас оптимальным подходом. Первые результаты применения описанного алгоритма позволяют получить обширный материал для дальнейших лингвистических исследований: разработки тестов на понимание текста детьми разного возраста, изучения влияния контекста на уровень этого понимания, выявления наиболее сложных для понимания слов и пополнения списка «коварных» слов, с высокой вероятностью понимаемых неправильно.

Библиография

1. Иомдин Б. Л., Морозов Д. А. Коварные слова и где они обитают // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог». Вып. 19 (26) (доп. том), 2020. С. 1011–1024.

2. Морозов Д. А., Иомдин Б. Л. Критерии семантической сложности слова // Компьютерная лингвистика и интеллектуальные технологии: по материалам международной конференции «Диалог 2019». Вып. 18 (доп. том), 2019. С. 119–131.

3. Фейгина Т. Б. Критерии выводимости значения неизвестного слова из контекста. Курсовая работа (рукопись), 2021.

4. Breiman L. Random forests // Machine Learning, 45, 2001, pp.5–32.

5. Glazkova A., Egorov Yu., Glazkov M. A. Comparative study of feature types for age-based text classification // Analysis of images, social networks and texts. Springer International Publishing, 2021, pp.120–134.

6. Isaeva U., Sorokin A. Investigating the robustness of reading difficulty models for Russian educational texts // Recent trends in analysis of images, social networks and texts, vol. 1357, 2020, pp. 65–77.

7. Ivanov V., Solnyshkina M., Solovyev V. Efficiency of text readability features in Russian academic texts // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной международной конференции «Диалог», Вып. 17 (24), 2018. С. 267–283.

8. Jones K. S. A statistical interpretation of term specificity and its application in retrieval // Journal of documentation. MCB University: MCB University Press, 2004. Vol. 60, no. 5, pp. 493–502.

9. Kuratov Y., Arkhipov M. Adaptation of deep bidirectional multilingual transformers for Russian language, arXiv preprint arXiv:1905.07213. 2019.

10. Melamed, I. Dan. Measuring semantic entropy // Proceedings of the SIGLEX Workshop on tagging text with lexical semantics, 2002, pp. 41–46.

11. Mikk Jaan, Uibo Heli, Elts Jaanus. Word length as an indicator of semantic complexity // Text as a linguistic paradigm: levels, constituents, constructs. Quantitative linguistics, 2001, pp. 187–195.

12. Powers D. M. W. Evaluation: from precision, recall and F-measure to ROC, informedness, markedness & correlation // Journal of machine learning technologies, 2011, pp. 37–63.

13. Raukko J. Polysemy as complexity? // A man of measure.SKY journal of linguistics. Finland: The Linguistic Association of Finland, 2006, pp. 357–361.

14. Zhang W., Itoh K., Tanida, J., & Ichioka, Y. Parallel distributed processing model with local space-invariant interconnections and its optical architecture // Applied optics, 29(32), 1990, pp.4790–4797.

Комментарии

Сообщения не найдены

Написать отзыв
Перевести