Рубрика:
Наука и технологии /
Раздел для научных публикаций
|
Facebook
Мой мир
Вконтакте
Одноклассники
Google+
|
Ильичев В.Ю., к.т.н., Калужский филиал ФГОУ ВО «Московский государственный технический университет имени Н.Э. Баумана (национальный исследовательский университет)», patrol8@yandex.ru
Автоматизированный анализ лексического состава художественных текстов с использованием стилометрии
Описаны методы автоматизированного анализа стиля текстов разных авторов, подробно рассмотрен алгоритм статистического анализа с использованием модуля NLTK для Python.
Введение
Стилометрией (от слов «стиль» и «измерять») называется описание стиля текста с помощью числовых величин (например, путём измерения частоты употребления тех или иных слов) [1]. Этот метод используется в филологии (в таком её разделе как текстология), криминалистике и в других областях фундаментальных и прикладных исследований для решения следующих задач:
- определение истинного автора того или иного текста, – в частности, с помощью стилометрии удаётся обнаружить заимствования или приписывание произведений, написанных разными авторами, какому-либо одному автору;
- осуществление возможности чёткого логико-математического доказательства авторства текста;
- вычисление лексического разнообразия текстов [2], оценка широты словарного запаса [3] авторов произведений;
- получение наглядной картины частоты употребления разных слов и речевых оборотов, что позволяет авторам улучшать тексты путём замены слишком часто встречающихся словесных конструкций синонимами.
<...>
Ключевые слова: стилометрия, статистический анализ, стиль текста, модуль NLTK, визуа-лизация результатов, язык Python
Полную версию статьи читайте в журнале Подпишитесь на журнал Купите в Интернет-магазине
Facebook
Мой мир
Вконтакте
Одноклассники
Google+
|