Рубрика:
Наука и технологии
|
Facebook
Мой мир
Вконтакте
Одноклассники
Google+
|
КОЧЕТКОВА Н.А., аспирант НИУ ВШЭ, департамент компьютерной инженерии МИЭМ, natalia_k_11@mail.ru
КЛЫШИНСКИЙ Э.С., к.т.н., доц., доцент НИУ ВШЭ, департамент компьютерной инженерии МИЭМ, eklyshinsky@hse.ru
ЕРМАКОВ П.Д., аспирант НИУ ВШЭ, департамент компьютерной инженерии МИЭМ, permakov@hse.ru
Подчиняются ли составные конструкции закону Ципфа?1
Словари составных конструкций играют существенную роль при анализе текстов на естественном языке. Автоматизированное составление таких словарей позволяет сократить время на их разработку и повысить охват обрабатываемых конструкций. Наше исследование показало, что n-граммы в тексте подчиняются распределению Ципфа, однако степенной показатель распределения варьируется в широких пределах. Именно это свойство и было использовано для извлечения составных конструкций, которые позволяют, с одной стороны, получить стилистические маркеры текста, а с другой – сочетания, отражающие особенности предметной области
Введение
Текст на естественном языке состоит не только из отдельных слов и словосочетаний, но и составных конструкций, смысл которых не равен сумме смыслов входящих в них слов. Ксоставным конструкциям относятся идиомы, устойчивые выражения, имена собственные, а также составные предлоги, наречия и некоторые другие конструкции. Часть из составных конструкций может быть выделена из текста за счет их специфичности; конструкции, образующие составные предлоги или наречия, могут быть взяты из словарей. Однако составные конструкции, специфичные для отдельных предметных областей или стилей, слишком многочисленны и достаточно часто изменяются, для того чтобы их можно было взять из специальных словарей. Имена собственные появляются в текстах и исчезают через какое-то время, если не входят в постоянную лексику. Однако в ходе анализа текста составные конструкции должны анализироваться как единое целое, тогда как при синтезе они должны корректно заменять собой соответствующие единичные понятия. Само по себе составление словарей требует автоматизации этого процесса, так как поиск конструкций вручную наталкивается на огромный объем текстов, которые для этого необходимо проанализировать. В связи с этим выделение составных конструкций является важной задачей.
На данный момент используется целый спектр мер определения связности слов. Так, в работе [Pecina, 2005] представлено сравнение 87 статистических мер и методов определения связности для биграмм, но это далеко не полный список. Самыми популярными мерами являются меры, основанные на противопоставлении частоты совместной встречаемости сочетания частотам входящих в него слов, к ним относятся: Mutual Information (MI) [Church, 1990], t-score [Church, 1990] и log-likelihood [Dunning, 1993]. Обзор и сравнение данных методов можно также найти, например, в работах [Захаров, 2010], [Ягунова, 2011]. Как было показано в работе [Ягунова, 2010] различные меры извлекают сочетания различной природы. Так, например, мера MI выделяет скорее имена собственные, тогда как t-score – служебные конструкции и стилистические маркеры.
Основной недостаток данных методов – это ограничение на длину сочетания, так как аналитические формулы рассматривают только сочетания из двух и трех слов. Фактически единственной мерой, которая вычислима для любой длины, является c-value [Frantzi, 2000], которая относится к мерам определения терминологичности. Эта мера также основывается на частотах совместной встречаемости слов в тексте. Она отдает предпочтение более длинным сочетаниям за счет штрафа сочетаний, входящих в состав более длинных.
Для повышения точности работы методов обычно используются синтаксические шаблоны. Например, если известно, что большинство терминов данной предметной области является именными группами, то выделяются только группы прилагательных с существительным на конце. Это сокращает объем выделяемых сочетаний, однако точность выделения сочетаний резко возрастает.
Еще одна группа методов основана на использовании вероятностных распределений. К ним относятся меры, вычисляющие информационную энтропию (см., например, [Shimohata,1997] [Resnik, 1997], [Sag, 2002], [Ramisch, 2008]) или дивергенцию Кулльбака-Лейблера (например, использовалась в [Fazly, 2007] для классификации сочетаний вида глагол+существительное). В работе [Van de Cruys, 2007] использовалась нормализованная дивергенция Кулльбака-Лейблера для нахождения датских идиом, содержащих в себе глаголы.
Для того чтобы устранить этот недостаток, в своем исследовании мы проверили гипотезу о том, что лексическая устойчивость n граммы (последовательности из n идущих подряд слов) может быть определена путем анализа показателя степени закона Ципфа для всех n+1-грамм, содержащих в себе данную n-грамму. Если показатель степени закона Ципфа дляполученной выборки как минимум в два раза больше, чем среднее значение этого показателя для всех других выборок данной длины в этой коллекции, то n+1-грамма скорее является устойчивым сочетанием, чем n-грамма. Эксперименты показали, что наша гипотеза подтвердилась, хотя для повышения точности работы метода следует фильтровать результаты с помощью синтаксических шаблонов.
Распределение слов по закону Ципфа
Закон Ципфа обычно формулируется следующим образом. Если слова в достаточно длинном тексте отсортировать по убыванию частоты их использования, то частота слова с рангом n окажется примерно обратно пропорциональной n. Под рангом здесь понимается номер группы слов с одной и той же частотой встречаемости (то есть фактически сортируются неслова, а группы слов с одной частотой). Оказывается, что полученное распределение описывается лучше, если ранг возводить в некоторую степень. Таким образом, в более общей форме формулу Ципфа можно записать следующим образом: . Здесь α – показатель распределения.
Показатель степени в законе Ципфа зависит от языка текста, но при этом варьируется в зависимости от самого текста или их коллекции [Gelbukh, 2001]. На сравнительно небольших текстах наблюдается хорошее согласие с законом Ципфа, в то время как на слишком длинных текстах, состоящих из большого числа относительно самостоятельных замкнутых частей, закон нарушается (хотя скорее речь идет об отклонении показателя) [Арапов, 1975]. В статье [Ferrer i Cancho, 2005a] было показано, что этот закон выполняется длябольшинства корпусов языка (например, детской речи, в коммуникации военных) или его подмножеств (например, только для существительных). При этом если для всех словоформ текста одного автора на английском языке показатель Ципфа примерно равен единице, то в зависимости от подвыборки его значение изменяется.
Известно, что формула, уточняющая закон Ципфа для частот встречаемости в частотных словарях, может быть распространена на произвольные знаковые объекты [Маслов, 2006]. Вэтой же статье авторы говорят, что закон Ципфа сильно огрубляет картину и не описывает часть словаря с редко встречающимися словами. На практике часть распределения, отвечающая за наименее частотные слова, изменяется не так плавно, как это описывается законом.
Закон Ципфа для комбинаций слов исследовался значительно меньше, чем для отдельных словоформ и их начальных форм. В одной из немногих статей по данной теме [Ryland Williams, 2015] было показано, что для комбинаций из n слов закон Ципфа делает точные предсказания на большем интервале частот слов, хотя показатель закона меняется припереходе от более частотных слов к менее частотным, как это было показано и в работе [Маслов, 2006].
На данный момент сформулировано несколько предположений о причинах, приводящих к появлению распределения Ципфа в распределении слов по частотам. В статьях [Ferrer iCancho, 2005 b,c] высказывается мнение, что обоснованием закона может служить принцип оптимизации коммуникации. Однако в статье [Manin, 2008] не только рассмотрены разные модели, объясняющие, почему слова в тексте распределены по Ципфу, но и дается их критика. В качестве альтернативы в работе предложена модель, объясняющая получаемое распределение, основанная на семантических отношениях. Принцип оптимальности коммуникации заменяется на принцип достаточности гласящий, что дляэффективной коммуникации достаточно относительно редко уточнять полисемичные слова с помощью семантически однозначных, и именно эта комбинация определяет закон. Всвязи с этим наибольшую встречаемость имеют наиболее многозначные слова или служебные части речи (что верно для текстов общей направленности). Этим же объясняется, почему показатель меняется для разных выборок. Также большой обзор моделей и их применений представлен в работе [Piantadosi, 2014].
Метод извлечения устойчивых словосочетаний
Для работы метода используются коллекции текстов с лемматизацией, частеречной разметкой и снятой омонимией. Для извлечения устойчивых сочетаний из текста извлекаются всеn-граммы длины от 1 до 5 и подсчитывается их частота в тексте. Для каждого слова мы брали только его начальную форму и часть речи. Идущие подряд знаки препинания объединяются в один токен и не лемматизируются. Выделение n-грамм ведется в рамках одного предложения, то есть n-граммы, состоящие из слов соседних предложений, невыделяются. Точка, завершающая предложение, на анализ не подается.
Из всех n-грамм отбираются лишь те, чья частота встречаемости превысила заданный порог (для наших экспериментов – встретились в тексте не менее 10 раз). Для каждой n-граммы (n=1...4) выделяется список всех сочетаний длины n+1, в которые она входит. Заметим, что n+1-граммы дополняются словами, расположенными как справа, так и слева от n-граммы. Полученный список n+1-грамм сортируется по убыванию частоты встречаемости. Никаких ограничений на длину списка и частоты составляющих его n+1-грамм ненакладывалось. На основании частот n+1 грамм рассчитывается показатель Ципфа для каждой n-граммы.
Далее для всего текста рассчитывается среднее значение показателя степени распределения Ципфа для каждого n. После этого отбираются все n-граммы, чей показатель Ципфа больше среднего как минимум в два раза. Самая частотная n+1-грамма данной n-граммы является кандидатом на устойчивое словосочетание. В заключение список кандидатов просматривается экспертом, и из него удаляются те сочетания, на которых произошло ложное срабатывание.
При разработке данного метода мы исходили из следующей логики. Если показатель степени отличается хотя бы в два раза от среднего, это означает, что самая частотная n+1 грамма встречается хотя бы в четыре раза чаще, чем следующая. Подобный перепад может служить показателем устойчивости данного сочетания в выбранных текстах.
Мы провели предварительное исследование различий в результатах, полученных для правых и левых контекстов n-грамм. Показатель Ципфа рассчитывался отдельно для n+1-грамм, добавляющих правый или левый контекст к n-грамме. В ряде случаев разделение распределений для левого и правого контекстов улучшало показатель устойчивости. Однако уже для 3-4 и 4-5 грамм показатель полноты извлекаемых n-грамм резко падал. Кроме того, улучшение наблюдается лишь для некоторых синтаксических конструкций, тогда как вбольшинстве случаев выделяемые сочетания не изменялись. В связи с этим в данной работе мы не будем рассматривать составные конструкции длины больше 5.
Заметим, что показатель Ципфа может быть рассчитан как для частот всех полученных n-грамм, так и для рангового распределения (то есть распределения, в котором содержится только одна из всех n-грамм с одинаковыми частотами). Проведенные эксперименты показали, что в зависимости от вида ранжирования рассчитанное значение показателя распределения Ципфа отличается незначительно. Дело в том, что первые несколько элементов в распределении в подавляющем большинстве случаев отличаются, а повторы идут лишь в «длинном хвосте». При этом значение показателя Ципфа определяется именно этими первыми значениями в распределении. Как следствие, удлинение «хвоста» несущественно влияет на значение показателя. Если же распределение частот больше напоминает равномерное, то само значение показателя распределения Ципфа будет близко кнулю, то есть не будет принято в рассмотрение при выделении составных конструкций.
Использование монотематических коллекций позволяет выделять составные конструкции, специфические для данной предметной области. Размеченные коллекции текстов дают возможность не привязываться к конкретным формам слов и собрать более широкую статистику.
Результаты экспериментов
Для экспериментов мы использовали пять монотематических коллекций разных жанров и стилей: «любовные романы» и «детективы» (тематические переводные подборки художественной литературы, 4,8 и 15,8 млн словоупотреблений соответственно), «САПР» (статьи журнала «САПР и графика», 7,2 млн словоупотреблений), «биология» (статьи сборника «Вестник Томского государственного университета. Биология», 1,8 млн словоупотреблений) и «популярная механика» (выборка статей журнала «Популярная механика»,2,6 млн словоупотреблений).
Первые две коллекции были подобраны добровольцами и выложены на соответствующих профильных сайтах. Журнальные статьи были загружены с сайтов соответствующих журналов, куда они выкладываются редакциями. Коллекции были размечены со снятием омонимии с помощью программы, описанной в [Рысаков, 2015]. Для подсчета показателя Ципфа использовалась библиотека scipy языка Python.
На первом этапе необходимо было показать, что распределение n+1-грамм для фиксированных n-грамм в русском языке отвечает закону Ципфа. Гипотеза о степенном распределении подтвердилась: показатель степени в подобных наборах варьируется в широких пределах, однако практически для всех n-грамм отличается от нуля (см. рис. 1, 2).
Рисунок 1. Гистограмма распределения показателя распределения Ципфа (коллекция «любовные романы», 1-граммы и 4-граммы)
Рисунок 2. Гистограмма распределения показателя распределения Ципфа (коллекция «САПР», униграммы и 4-граммы)
Эксперименты показали, что среднее значение показателя Ципфа варьируется в зависимости от коллекции, ее размера и количества извлекаемых n-грамм (см. таблицу 1).
Таблица 1. Среднее арифметическое значение показателя степени в законе Ципфа / количество n-грамм (по коллекциям в целом)
Коллекция |
1-2 |
2-3 |
3-4 |
4-5 |
Любовные романы |
0,75/19 820 |
0,76/45 782 |
0,76/20 207 |
0,80/3802 |
Детективы |
0,88/50 477 |
0,84/ 245 073 |
0,84/201 719 |
0,91/64 627 |
САПР |
0,83/16 439 |
0,79/80 444 |
0,8/36 736 |
0,82/7519 |
Биология |
0,92/11 915 |
0,86/17 585 |
0,89/4759 |
1,01/1108 |
Популярная механика |
0,73/15 348 |
0,72/25 841 |
0,74/5477 |
0,73/734 |
Из таблицы 1 видно, что среднее значение степенного показателя Ципфа колеблется от 0,73 до 1,1. Колебания могут быть объяснены тем, что количество анализируемых уникальных триграмм, полученных по биграммам, значительно больше, чем у биграмм, полученных по униграммам. Количество анализируемых четырех- и пятиграмм резко сокращается, таккак их частотность падает и не достигает необходимого порога (10 раз на коллекцию). Из рис. 1 и 2 видно, что распределение частоты встречаемости показателя Ципфа имеет вид, похожий на распределение Пуассона (или усеченное слева нормальное распределение).
Итак, нами были извлечены все n-граммы длиной от 1 до 4, и для каждой из них были рассчитаны значения степенного показателя Ципфа по спискам сочетаний длины n+1. Полученные результаты показали, что наша гипотеза подтвердилась: в большинстве случаев показателям степени, значительно большим, чем среднее значение, соответствовали случаи, в которых самая частотная n+1-грамма являлась устойчивым сочетанием.
Ниже приведены списки вида <n-грамма; частота> из коллекции «биология» для выборки триграмм по фиксированным биграммам для распределений со значительно большим, примерно равным и значительно меньшим показателем, чем среднее значение равное 0,86. В списке триграмм знак * обозначает исходную биграмму.
ПОСТУПАТЬ В;282; показатель Ципфа = 8,0
* РЕДАКЦИЯ;274; МОЧЬ *;1; * БОЛОТНЫЙ;1; * ПИТАТЕЛЬНЫЙ;1; * АСПИРАНТУРА;1;
НЕ *;1; ОНА *;1; * ПОЧВА;1; КОТОРЫЙ *;1
СОСТОЯНИЕ ДЕРЕВО; 23; показатель Ципфа = 0,92
ЖИЗНЕННЫЙ *;11; * И;6; * , ;4; * КЕДР;3; ОНТОГЕНЕТИЧЕСКИЙ *;3; НА *;2; * ПРИ;2; ОЦЕНКА *;1; * ОТСУТСТВОВАТЬ;1; КАТЕГОРИЯ *;1; ХАРАКТЕРИЗОВАТЬ *;1; ХАРАКТЕРИСТИКА *;1; * [ ;1; * ( ;1; * ИЛИ;1; * ОПРЕДЕЛЯТЬ;1; *РАССМАТРИВАТЬ;1;
ПОПУЛЯЦИОННЫЙ ПЛОТНОСТЬ;13; показатель Ципфа = 0,22
ОЦЕНКА *;2; ОНА *;2; * И;2; * В;2; ВЛИЯНИЕ *;2; * ( ;2; * РЫЖИЙ;1; ВЫСОКИЙ *;1; ТОЛЬКО *;1; ОТ *;1; * 8-19 ;1; * ПОЗВОЛЯТЬ;1; * ОТРИЦАТЕЛЬНО;1; * , ;1; * ДОСТОВЕРНО;1; ИНТЕРВАЛ *;1; ВЕЛИЧИНА *;1; ЗНАЧЕНИЕ *;1;
Очевидно, что для журнала фраза «поступила в редакцию» будет являться устойчивым сочетанием, тогда как фраза «популяционная плотность» не образует устойчивых сочетаний сдругими словами.
Фильтрация результатов с использованием синтаксических шаблонов
Так как большинство методов разрабатывалось для определения устойчивости заранее известных морфологических групп, а также для упрощения анализа было решено разделить все извлеченные данные на три группы в зависимости от части речи входящих в них слов: содержащие глагол, содержащие причастие или деепричастие и содержащие существительное без глаголов и его форм. Такое разделение поможет отсечь сочетания из одних только служебных частей речи, слов, не распознанных морфологическим анализатором, и знаков препинания. В данном разделе мы приводим анализ полученных групп.
Сочетания, содержащие существительные
Чаще всего составные конструкции описывают какие-то объекты и понятия предметной области. В связи с этим в них чаще всего входят существительные. Количество подобных конструкций, выделенных с помощью нашего метода, а также среднее значение показателя Ципфа приведены в таблице 2.
Таблица 2. Среднее арифметическое значение показателя степени в законе Ципфа / количество n-грамм (сочетания с существительным)
Коллекция |
1-2 |
2-3 |
3-4 |
4-5 |
Любовные романы |
0,76/4105 |
0,77/8798 |
0,88/2546 |
0,9/202 |
Детективы |
0,87/12 114 |
0,82/55 660 |
0,95/24 817 |
1,01/3631 |
САПР |
0,76/5288 |
0,76/25 394 |
0,78/7789 |
0,92/1219 |
Биология |
0,86/3214 |
0,85/5062 |
1,03/986 |
1,11/237 |
Популярная механика |
0,69/6679 |
0,7 /7794 |
0,64/590 |
0,92/55 |
Среднее значение показателя осталось примерно тем же, что и в коллекции в целом.
Самой распространенной связкой биграмм стала связка существительных с предлогом, расположенным перед и после существительного. Помимо этого, было выделено большое количество сочетаний со знаками препинания. Метод оказался неустойчив к таким часто встречающимся сочетаниям, как Фамилия + запятая, входящие в список литературы, илизнак переноса + часть слова (окончание). Последняя ошибка встретилась во всех рассматриваемых синтаксических шаблонах.
Среди сочетаний 2-3 доля лексически устойчивых сочетаний по отношению к сочетаниям характерным для модели управления возрастает. Приведем примеры извлеченных сочетаний.
ТАКОЙ ОБРАЗ, (степенной показатель=3,49); ПО ОТНОШЕНИЕ К (3,49); В СООТВЕТСТВИЕ С (3,44); ПО ЭТОТ ПРИЧИНА (3,42); ЛУЧ ЛЕЗУРЫ РАВНОМЕРНО (3,4); ВЗАВИСИМОСТЬ ОТ (3,38); ВЫСШИЙ НЕРВНЫЙ ДЕЯТЕЛЬНОСТЬ (3,35).
Однако на сочетаниях длиной в 3-4 и 4-5 количество ошибок, связанных с неверным делением на слова, резко возрастает. Таким образом, мы, как и другие исследователи, приходим к необходимости фильтрации по более строгим шаблонам. Приведем некоторые примеры.
МАТЕРИАЛ И МЕТОДИКА ИССЛЕДОВАНИЕ (6,43); ЗАКЛЮЧЕНИЕ ТАКОЙ ОБРАЗ , (5,12); РЕЗУЛЬТАТ ИССЛЕДОВАНИЕ И ОБСУЖДЕНИЕ (5,03); ОЧЕРТАНИЕ СПОР В(4,17); О К О Н (3,996).
КЛИМАТИЧЕСКИЙ И ЭКОЛОГИЧЕСКИЙ СИСТЕМА С (5,75); А Н Н Ы Й (4,17); В ТОТ ЖЕ ВРЕМЯ В (3,43); ЛИШАЙНИКОВЫЙ СОСНЯК СРЕДЕНЕЙ И СЕВЕРНЫЙ (3,33); СОСНЯК СРЕДНЕЙ И СЕВЕРНЫЙ ТАЙГА (3,3).
Сочетания, содержащие глагол
Из общего массива информации мы также извлекли сочетания, содержащие в своем составе глаголы. Объем полученных результатов и среднее значение показателя Ципфа поколлекциям показан на таблице 3.
Таблица 3. Среднее арифметическое значение показателя степени в законе Ципфа / количество n-грамм (сочетания с глаголом)
Коллекция |
1-2 |
2-3 |
3-4 |
4-5 |
Любовные романы |
0,73/4618 |
0,78/10 253 |
0,81/3775 |
0,90/308 |
Детективы |
0,81/9285 |
0,87/69 479 |
0,87/54 392 |
1,02/9485 |
САПР |
0,76/1575 |
0,75/8582 |
0,82/2555 |
0,80/532 |
Биология |
0,84/443 |
0,75/542 |
0,94/103 |
0,89/15 |
Популярная механика |
0,71/1900 |
0,68/3350 |
0,71/576 |
0,66/35 |
Из таблицы 3 видно, что максимальное количество анализируемых подвыборок получено при анализе биграмм, при этом среднее значение показателя растет с увеличением длины сочетаний. Однако размер выборок существенно сокращается с увеличением длины в связи с достаточно высоким пороговым значением частоты.
Показательно, что для 1,8 млн коллекции «биология» было выделено всего 443 глагола, и для 7,2-миллионного коллекции «САПР» было выделено глаголов меньше, чем для 2,6 млн коллекции «популярная механика». Это может свидетельствовать о сравнительно небольшом глагольном разнообразии среди наиболее частотных сочетаний научных текстов. Средний показатель Ципфа для подвыборки глаголов ниже, чем в целом по коллекции, что может быть объяснено высокой вариативностью слов, сочетающихся с глаголами, и ихменьшей связностью, соответственно.
Более 50% сочетаний длины 2, показатель Ципфа которых превышает среднее значение в два раза, составляют сочетания с предлогами. Фактически метод извлекает наиболее употребимые в данном тексте роли слов при глаголах, что может служить маркером стиля текста. На втором месте ошибочные сочетания, где «знак переноса»+окончание слова распознано как глагол. На третьем месте находятся сочетания с частицей «не», затем сочетания со знаками пунктуации, и встречается лишь несколько сочетаний с неслужебными частями речи. Подобная картина может быть объяснена обилием вводных конструкций или глаголами, с которых начинаются подчиненные предложения, то есть глаголы вновь несут роль характерных для стиля связок. Стоит отметить, что их список разнится от стиля к стилю.
Коллекция «биология»: НЕ ПРЕВЫШАТЬ (степенной показатель 1,8), ВНИМАНИЕ УДЕЛЯТЬ (1,75).
Коллекция «САПР»: ПРЕДСТАВЛЯТЬ СЕБЯ (2,55), ОТПАСТЬ НЕОБХОДИМОСТЬ (1,99), ЗАРЕКОМЕНДОВАТЬ СЕБЯ (1,70), БЫТОВАТЬ МНЕНИЕ (1,67), ОБЪЯТЬ НЕОБЪЯТНЫЙ (1,65).
Коллекция «детективы»: СОЗДАВАТЬСЯ ВПЕЧАТЛЕНИЕ (3,08), ПОКАЧАТЬ ГОЛОВА (2,76), ПОРАСКИНУТЬ МОЗГ (2,6), СОРИТЬ ДЕНЬГИ (2,44), ПРУД ПРУДИТЬ (2,25).
Коллекция «любовь»: ПОМОТАТЬ ГОЛОВА (2,64), ЗАКАТИТЬ ГЛАЗ (2,11), ПОНИЗИТЬ ГОЛОС (2,03), ПОКАЧАТЬ ГОЛОВА (1,95), ВСПЛЕСНУТЬ РУКА (1,89).
Коллекция «популярная механика»: ПРЕДСТАВЛЯТЬ СЕБЯ (2,71), ЗАРЕКОМЕНДОВЫВАТЬ СЕБЯ (1,48).
Сочетания 2-3 сложнее оценивать по составу. В них много связок «наречие глагол запятая» и «запятая союз глагол», остальные представляют собой части группы глагола (связки снаречиями, предлогами, прилагательными, существительными и местоимениями). Около половины сочетаний содержат запятые, из них около трети содержат союзы. Заметим, чтозапятые в примерах ниже являются частью конструкций.
Коллекция «биология»: ВАЖНО ОТМЕЧАТЬ , ; СЛЕДОВАТЬ ОТМЕЧАТЬ , ; НЕОБХОДИМО ОТМЕЧАТЬ , ; ПОСТУПАТЬ В РЕДАКЦИЯ ; МОЧЬ ПРИВОДИТЬ К ; ВКЛЮЧАТЬ ВСЕБЯ ; ТРОГАТЬСЯ В РОСТ.
Коллекция «САПР»: РЕЧЬ ИДТИ О ; БЫТЬ НАДЕЯТЬСЯ , ; , ЧТО ПОЗВОЛЯТЬ ; НЕОБХОДИМО ОТМЕЧАТЬ , .
Коллекция «популярная механика»: РЕЧЬ ИДТИ О, ; ЧТО ПОЗВОЛЯТЬ, ; , КОТОРЫЙ ОБЕСПЕЧИВАТЬ; ЛЕГЕНДА ГЛАСИТЬ , .
Коллекция «любовь»: В КОМНАТА ВХОДИТЬ ; , ЧТО МОЧЬ ; ” ПОЛАГАТЬ , ; СОЗДАВАТЬСЯ ВПЕЧАТЛЕНИЕ , ; Я ПОКОСИТЬСЯ НА ; НЕ УСПЕВАТЬ ДАЖЕ ; СКЛАДЫВАТЬСЯ ВПЕЧАТЛЕНИЕ , .
Заметим, что для коллекции «любовь» чаще выделяются сочетания, содержащие в себе имена собственные, личные местоимения, значительно больше содержится прилагательных всвязках, чаще выделяются идиомы.
3-4
Коллекция «биология»: , ЧТО ПРИВОДИТЬ К ; , ЧТО СВИДЕТЕЛЬСТВОВАТЬ О ; МОЧЬ БЫТЬ СВЯЗЫВАТЬ С .
Коллекция «САПР»: УЖЕ БЫТЬ СКАЗАТЬ , ; В ЗАКЛЮЧЕНИЕ ОТМЕЧАТЬ , ; , НА КОТОРЫЙ БЫТЬ ; КОМПАНИЯ ОБЛАДАТЬ ВЫСШИЙ ПАРТНЕРСКИЙ.
Коллекция «популярная механика»: , КОТОРЫЙ МОЧЬ БЫ ; ТАК И НЕ МОЧЬ ; , КОТОРЫЙ ПРЕДСТАВЛЯТЬ СЕБЯ ; , ЧТО ПРИВОДИТЬ К ; УЖЕ БЫТЬ СКАЗАТЬ , ; ДО СЕЙ ПОРА ОСТАВАТЬСЯ.
Коллекция «любовь»: , ЧТО ОНА МОЧЬ ; НЕ МОЧЬ ПОВЕРИТЬ В ; ” Я ПОНИМАТЬ , ; , КОТОРЫЙ МОЧЬ БЫ ; И ДЕЛАТЬ ВИД , ; , ЧТО НЕ БЫТЬ.
Коллекция «детективы»: , КОТОРЫЙ МОЧЬ БЫ ; НЕ СВОДИТЬ ГЛАЗ С ; БЫТЬ ТАКОЙ ОЩУЩЕНИЕ , ; , В КОТОРЫЙ БЫТЬ ; , ЧТО НАХОДИТЬСЯ В.
4-5
Коллекция «биология»: МЕТОДИКА ИССЛЕДОВАНИЕ ОБЪЕКТ ИССЛЕДОВАНИЕ СЛУЖИТЬ ; КОМПОНЕНТ ДОСТИГАТЬ МАКСИМУМ В ИНТЕРВАЛ ; КОМПОНЕНТ ДОСТИГАТЬ МАКСИМУМ В ИНТЕРВАЛ ; ЦЕЛЬ ДАННЫЙ РАБОТА ЯВЛЯТЬСЯ ИЗУЧЕНИЕ.
Коллекция «САПР»: КОМПАНИЯ ОБЛАДАТЬ ВЫСШИЙ ПАРТНЕРСКИЙ СТАТУС ; В КАЧЕСТВО ПРИМЕР МОЖНО ПРИВОДИТЬ ; В ЗАКЛЮЧЕНИЕ СЛЕДОВАТЬ ОТМЕЧАТЬ , ; ВЫБОР БЫТЬ ДЕЛАТЬ В ПОЛЬЗА ; РАБОТАТЬ ТАКЖЕ ПРЕДСТАВИТЕЛЬ В КАЗАНЬ.
Коллекция «любовь»: ” ЧТО ТЫ ИМЕТЬ В ; ” А Я ДУМАТЬ , ; , ” КИВНУТЬ Я И ; , ЧТО РЕЧЬ ИДТИ О ; , ЧТО Я НЕ МОЧЬ.
Коллекция «детективы»: Я И ИМЕТЬ В ВИД ; , ЧТО Я НЕ УДАВАТЬСЯ ; ВСЕ РАВНО НЕ МОЧЬ БЫ ; , ЧТО ИМЕТЬ ДЕЛО С ; , КОТОРЫЙ Я ВИДЕТЬ В.
Анализ полученных результатов показывает, что из коллекции журнала «Популярная механика» были извлечены публицистические маркеры текста; коллекция «любовь» показывает большое количество диалогов; в коллекциях «САПР» и «биология» превалируют вводные конструкции, типичные для научных статей, и специфичные термины. Таким образом, выделение составных конструкций позволило здесь извлечь стилистические маркеры текста, свойственные его предметной области.
Сочетания, содержащие причастия и деепричастия
На следующем шаге мы выбрали все сочетания, содержащие в себе причастия и деепричастия, то есть также содержащие действие, хотя и в виде свойства. Объем подвыборки показан в таблице 4.
Таблица 4. Среднее арифметическое значение показателя степени в законе Ципфа / количество n-грамм (сочетания с причастиями и деепричастиями)
Коллекция |
1-2 |
2-3 |
3-4 |
4-5 |
Любовные романы |
0,93/1527 |
1,06/601 |
1,20/126 |
1,34/15 |
Детективы |
1,06/5990 |
1,07/7515 |
1,07/2274 |
1,34/223 |
САПР |
0,96/831 |
0,9/3235 |
0,96/1038 |
0,89/160 |
Биология |
0,97/424 |
1/319 |
1,03/75 |
1,18/21 |
Популярная механика |
0,95/1063 |
1,02/454 |
1,16/52 |
0,98/6 |
Как видно из таблицы 4, причастия и деепричастия практически не образуют сочетания длины больше 3, их количество сокращается почти на порядок при переходе от сочетаний длины 3 к длине 4. Максимум сочетаний наблюдается на длине сочетаний 3. Заметим, что резкое падение наблюдалось после длины 3 и для глаголов, но максимум приходился насочетания длины 2.
Средний показатель больше (в среднем в 1,25 раза), чем средний по коллекции, что говорит об устойчивости оборотов. Очень мало оборотов в коллекциях «любовь» и «популярная механика», при в два раза меньше сочетаний длины 2, чем одиночных, более чем в 10 раз для длины 3 (более чем в пять при переходе 2-3), то есть сочетания с причастиями довольно разнообразны, и из-за этого многие не переходят порог частоты.
У причастий и деепричастий общая картина сочетаемости, схожая с полученной для глаголов, самые сильные связки с запятыми (что объясняется правилами пунктуации), потом «не» и предлоги.
Коллекция «САПР» 4-5
, НЕ ГОВОРИТЬ УЖЕ О; ТАК ИЛИ ИНАЧЕ СВЯЗЫВАТЬ С; , ОТЛИЧАТЬСЯ ДРУГ ОТ ДРУГ; , НЕ ТРАТИТЬ ВРЕМЯ НА; , ХРАНИТЬСЯ В БАЗА ДАННЫЕ
Коллекция «детективы» 4-5
, НЕ ГОВОРИТЬ УЖЕ О; НЕ ИМЕТЬ НИКАКОЙ ОТНОШЕНИЕ К; , ДЕРЖАТЬ В ОДИН РУКА; , НЕ ОБРАЩАТЬ ВНИМАНИЕ НА
Анализ результатов
По полученным результатам экспериментов мы провели оценку качества работы предложенного метода. Для этого выбиралось 50 сочетаний с наибольшим показателем Ципфа длякаждого из трех синтаксических шаблонов для четырех размеров n грамм. Будем рассматривать в качестве правильного выбора (true positive) количество сочетаний, в которых n+1-грамма устойчивее, чем n-грамма (правильно определенные методом, посчитаем долю таких правильных срабатываний). Все сочетания с союзами и знаками препинания рассматривались как неустойчивые, что и объясняет столь низкие цифры для сочетаний длины больше 2-3. Полученные оценки приведены в таблицах 5-7.
Таблица 5. Точность работы метода для сочетаний, содержащих существительные
Коллекция |
1-2 |
2-3 |
3-4 |
4-5 |
Любовные романы |
39 |
11 |
8 |
12 |
Детективы |
25 |
25 |
22 |
9 |
САПР |
34 |
38 |
33 |
25 |
Биология |
8 |
25 |
30 |
38 |
Популярная механика |
39 |
30 |
16 |
3 |
Среднее по коллекциям |
58% |
52% |
44% |
35% |
Таблица 6. Точность работы метода для сочетаний, содержащих глаголы
Коллекция |
1-2 |
2-3 |
3-4 |
4-5 |
Любовные романы |
42 |
19 |
6 |
12 |
Детективы |
38 |
11 |
8 |
13 |
САПР |
35 |
15 |
14 |
23 |
Биология |
24 |
25 |
29 |
10 |
Популярная механика |
38 |
22 |
9 |
11 |
Среднее по коллекциям |
71% |
37% |
26% |
28% |
Таблица 7. Точность работы метода для сочетаний, содержащих причастия и деепричастия
Коллекция |
1-2 |
2-3 |
3-4 |
4-5 |
Любовные романы |
11 |
7 |
12 |
3 |
Детективы |
1 |
8 |
12 |
16 |
САПР |
10 |
17 |
25 |
27 |
Биология |
10 |
12 |
32 |
19 |
Популярная механика |
5 |
7 |
14 |
4 |
Среднее по коллекциям |
14% |
20% |
38% |
28% |
Для сочетаний, содержащих существительные и глаголы, метод показал хорошие результаты, выдавая в основном устойчивые сочетаний. Для глаголов метод хорошо работает лишь на 1-2 граммах, так как сочетания глагол+предлог считались верными срабатываниями. Для причастий метод показывает худший результат, так как самую сильную связность имеют сочетания со знаками препинания, которые рассматривались как ошибочные.
По результатам анализа полученных сочетаний можно утверждать, что гипотеза о степенном распределении подтвердилась. Однако часть сочетаний, имеющих высокий показатель степени Ципфа, представляет собой устойчивые стилистические конструкции, в состав которых входят знаки препинания и служебные части речи. В связи с этим их нельзя в полной мере назвать составными конструкциями. Заметим, что в некоторых задачах знаки препинания могут рассматриваться как значимые части сочетаний. Однако в большинстве случаев ими следует пренебрегать.
Качество полученных результатов не позволяет перейти к практическому применению нашего метода в его текущем виде. Самой спорной особенностью метода является работа сознаками препинания. С одной стороны, они вносят большое количество ошибок. Сочетания со служебными частями речи и знаками пунктуации имеют довольно сильную связность и заглушают более тонкие конструкции. С другой стороны, с учетом знаков препинания метод выделяет стилистические маркеры диалогов, вводные конструкции и обороты, шаблонные связки в сложных предложениях. Таким образом, очевидным вариантом улучшения результатов (в случае если анализ стилистических особенностей не входит в наши задачи) являются подавление знаков препинания и вслед за другими исследователями использование более строгих синтаксических шаблонов. При это следует иметь в виду, что взависимости от применяемого шаблона результат работы метода может сильно изменяться.
Помимо стилистических маркеров, метод находит и устойчивые сочетания, характерные для данного корпуса. Зависимость от размера текстовой коллекции для метода ненаблюдается.
Сочетания с местоимениями имеют очень высокую связность в текстах художественного стиля. Устранить это явление без разрешения анафоры не представляется возможным.
Метод оказался чувствительным к ошибкам и неточностям морфологического и графематического анализа (так как ошибочные разборы носят повторяющийся характер), ошибкам деления на слова (переносы), именам собственным в списках литературы научных журналов и в художественной литературе.
Метод показывает лучший результат при работе с определенными морфологическими группами (для групп существительного или глагола) на сочетаниях длины 2 и 3.
- [Арапов, 1975] Арапов М.В., Ефимова Е.Н., Шрейдер Ю.А. О смысле ранговых распределений // НТИ, сер. 2, 1975, №1, с. 9-20.
- [Захаров, 2010] Захаров В.П., Хохлова М.В. Анализ эффективности статистических методов выявления коллокаций в текстах на русском языке // Труды международной конференции «Диалог-2010». – 2010. – C. 137-143.
- [Маслов, 2006] Маслов В.П., Маслова Т.В. О законе Ципфа и ранговых распределениях в лингвистике и семиотике // Математические заметки, 2006, том 80, выпуск 5, 718-732.
- [Рысаков, 2015] Рысаков С.В. Методы борьбы с омонимией. // «Системный администратор», №10, 2015 г. – С. 92-95.
- [Ягунова, 2010] Ягунова Е.В., Пивоварова Л.М. Природа коллокаций в русском языке. Опыт
- автоматического извлечения и классификации на материале новостных текстов // НТИ, сер.2, №6. – М., 2010.
- [Ягунова, 2011] Ягунова Е.В., Пивоварова Л.М. От коллокаций к конструкциям // Acta Linguistica Petropolitana. Труды института лингвистических исследований РАН. – СПб,2011.
- [Church, 1990] Church K.W., Hanks P. Word association norms, mutual information, and lexicography // Computational linguistics, 1990, 16(1), pp. 22-29.
- [Church, 1991] Church K.W. Gale W., Hanks P., Kindle D. Using statistics in lexical analysis // In Lexical Acquisition: Exploiting On-Line Resources to Build a Lexicon, Hillsdale, NJ: Lawrence Erlbaum, pp. 115-164.
- [Dunning, 1993] Dunning T. Accurate methods for the statistics of surprise and coincidence // Computational linguistics, 1993, 19(1), pp. 61-74.
- [Fazly, 2007] Fazly A., Stevenson S. Distinguishing subtypes of multiword expressions using linguistically-motivated statistical measures // In Proc. of the Workshop on A Broader Perspective on Multiword Expressions, 2007, pp. 9-16.
- [Ferrer i Cancho, 2005a] Ferrer i Cancho R. The variation of Zipf’s law in human language // The European Physical Journal B–Condensed Matter and Complex Systems, 44, pp. 249-257.
- [Ferrer i Cancho, 2005b] Ferrer i Cancho R. Decoding least effort and scaling in signal frequency distributions // Physica A, 345, pp. 275-284.
- [Ferrer i Cancho, 2005c] Ferrer i Cancho, R. (2005b). Hidden communication aspects in the exponent of Zipf’s law // Glottometrics, 11, pp. 98-119.
- [Frantzi, 2000] Frantzi K., Ananiadou S., Mima H. Automatic Recognition of Multi-Word Terms: the C-value/NC-value Method // International Journal of Digital Libraries, 3(2), pp.117-132.
- [Gelbukh, 2001] Gelbukh A., Sidorov G. Zipf and Heaps Laws’ Coefficients Depend on Language// Proc. CICLing-2001, Conference on Intelligent Text Processing and Computational Linguistics, Lecture Notes in Computer Science №2004.
- [Manin, 2008] Manin D.Y. Zipf's Law and Avoidance of Excessive Synonymy // Cognitive Science. Volume 32, Issue 7, 2008, pp. 1075-1098.
- [Pecina, 2005] Pecina P. 2005. An extensive empirical study of collocation extraction methods // In Proceedings of the ACL Student Research Workshop, pp. 13-18.
- [Piantadosi, 2014] Piantadosi S.T. Zipf's word frequency law in natural language: A critical review and future directions // Psychonomic Bulletin & Review, Volume 21, Issue 5, 2014, pp.1112-1130.
- [Ramisch, 2008] Ramisch C., Schreiner P. et al. An evaluation of methods for the extraction of multiword expressions // In Proc. of the LREC Workshop-Towards a Shared Task for Multiword Expressions (MWE 2008), 2008, pp. 50-53.
- [Resnik, 1997] Resnik P. 1997. Selectional preference and sense disambiguation // In Proc. of the ACL SIGLEX Workshop on Tagging Text with Lexical Semantics, pp. 52-57.
- [Ryland Williams, 2015] Ryland Williams J., Lessard P.R., Desu S. et al. Zipf’s law holds for phrases, not words // Scientific Reports 5, http://www.nature.com/articles/srep12209.
- [Sag, 2002] Sag I., Baldwin T., et al. Multiword expressions: A pain in the neck for NLP // Computational Linguistics and Intelligent Text Processing, 2002, pp. 189-206.
- [Shimohata, 1997] Shimohata S., Sugio T., Nagata J. Retrieving collocations by co-occurrences and word order constraints // In Proc. of the eighth conference on European chapter of the Association for Computational Linguistics, 1997, pp. 476-481.
- [Van de Cruys, 2007] Van de Cruys T., Moiron B.V.Lexico-semantic multiword expression extraction // In Proc. of the 17th Meeting of Computational Linguistics in the Netherlands (CLIN), 2007, pp. 175-190.
Ключевые слова: составные конструкции, анализ текста, словарь, закон Ципфа, синтаксические шаблоны, вероятностные распределения.
Do Multiword Expressions Follow the Zipf’s Law?
Kochetkova N.A., graduate student of the HSE, Department of Computer Engineering MIEM, natalia_k_11@mail.ru
Klyshinsky E.S., PhD., Associate Professor of HSE, Department of Computer Engineering MIEM, eklyshinsky@hse.ru
Ermakov P.D., a graduate student of HSE, Department of Computer Engineering MIEM, permakov@hse.ru
Summary: A dictionary of multiword expressions provides a suitable way for natural language processing. Automatically processing of natural language texts allows shortening the time that we need to construct such dictionaries and enlarge the number of expressions included into a dictionary. In this paper we show that n-gramms of natural language text are following the Zipf’s law; however, the index of power for distribution is varies over wide range. We use this property for such multiword expressions extraction as stylistic markers of a text and special expressions shaping the vocabulary of the selected domain.
Keywords: component design, text analysis, dictionary, Zipf's Law, syntactic patterns, probability distributions.
1 Работа выполнена при поддержке гранта РГНФ №15-04-12019.
Facebook
Мой мир
Вконтакте
Одноклассники
Google+
|