В.Ю. Калачихин,

Алгоритм и программа индексации текста по естественному рубрикатору

Задачей работы является создание алгоритма и основанного на нём программного комплекса, предназначенного для (полу) автоматической индексации текста в соответствии с естественным рубрикатором. Более точно — для смыслового соотнесения индексируемого текста с текстом рубрик естественного тезауруса. В библиотечном деле такой процесс называется предметизацией. Результатом процесса должен являться перечень рубрик, с достаточной точностью соответствующих по смыслу индексируемому тексту, или указание на невозможность выполнения этой задачи.

Экспериментальное программное обеспечение, реализующее алгоритм, доступно на http://lbc.rsl.ru/aind/

Основные идеи

В основу идеи алгоритма положены следующие два соображения:


Рис.1

Ранговое распределение релевантностей.

Ось абсцисс — количество ответов, ординат — релевантность


Предполагается, что если взять каждое предложение исследуемого текста в качестве поискового запроса к естественному рубрикатору как набору независимых словарных статей, то ранговое распределение релевантностей ответов будет примерно гиперболическим. Но если некоторые предложения были одинаково релевантны одним и тем же статьям, то будут наблюдаться отклонения от гиперболы (Рис.1), которые можно выявить и тем самым обнаружить деления рубрикатора, описываемые этими статьями. Следует ожидать, что выявленные деления в наибольшей степени будут соответствовать смыслу анализируемого текста.

Поскольку в анализе не участвует абсолютное значение релевантности, такой подход будет выявлять даже и примерные соответствия смысла. К сожалению, по этой же причине в рамках этого подхода невозможно сделать заключение о невозможности индексации из-за отсутствия темы текста в рубрикаторе — какое-то, пусть далёкое от основной темы текста соответствие всегда найдётся. Поэтому есть потребность в дополнительных критериях правдоподобности результата. Такие критерии могут быть найдены эмпирическим путём.

Реализация

Выделение понятий

Из практических соображений в качестве естественного классификатора выбрана Библиотечно-Библиографическая Классификация (ББК), разные варианты которой имеются в нашем распоряжении в виде информационной системы ПИКВИКС (http://lbc.rsl.ru/). Использование ПИКВИКС предопределило и поисковую систему: это встроенная система полнотекстового поиска СУБД MySQL. Анализируемый текст разбивается на предложения, каждое предложение сравнивается с подходящими по смыслу полями ПИКВИКС (это словесная формулировка деления ББК, методические указания, указания к применению, предметный вход, etc,, перечень может быть изменён), некоторое (регулируемое) количество наиболее релевантных ответов запоминается. Потом релевантности ранжируются по убыванию и перенумеровыватся. Получается ранговое распределение.

Чтобы ограничить количество ответов, выдаваемых поисковой системой, можно указать либо минимальную релевантность, либо просто количество ответов. Чтобы не потерять значимые результаты, лучше ограничивать минимальную релевантность. Экспериментально было определено значение релевантности, ниже которого ответы имеют совсем мало отношения запросу.

Следует считать, что полученное распределение будет иметь форму закономерности Ципфа с поправкой Мандельброта:

fr γ = c

При этом коэффициент γ – величина переменная.

Постоянство коэффициента γ сохраняется только на среднем участке графика распределения. Этот участок принимает форму прямой, если график вышеприведенной закономерности построить в логарифмических координатах. Участок распределения с γ = const принято называть центральной зоной рангового распределения. Участок с рангом от 0 до начала центральной зоны называется зоной ядра, а участок после центральной зоны — зоной усечения ( [4], [3]).



Рис.2

Распределение с отрезанной зоной усечения


В зоне ядра находится относительно небольшое количество ответов поисковой системы с наибольшей релевантностью, обусловленной, главным образом, устоявшимися фразами общей лексики. В зоне усечения — низкорелевантные ответы, обусловленные случайным совпадением отдельных слов. Нас интересует именно центральная зона, где сосредоточены ответы поисковой системы, обусловленные совпадением, в основном, тематической лексики.

Выделение центральной зоны по признаку γ = const затруднительно, поскольку требует какого-то обоснования точности, с которой γ можно считать константой, поэтому граница зоны усечения выбрана на основе экспериментов, как определённый процент относительной разницы релевантностей. Все значения релевантностей, находящиеся в определённой таким образом зоне усечения — отбрасываются (Рис.2).

Аппроксимация оставшейся части распределения гиперболой осуществляется путём линеаризации логарифмированием и вычислением линейной регрессии методом наименьших квадратов.



Рис.3

Линеаризация и аппроксимация


После этого становится возможным определить зону ядра распределения, которая определяется как значения с рангом от 0 до нижней границы доверительного интервала линейной регрессии. Значения ядра распределения также отбрасываются и линейная регрессия вычисляется снова (Рис.3) — теперь уже на участке, на котором мы считаем, что γ = const с достаточной для наших целей точностью.

«Выделенными» в результате этой процедуры считаются те понятия, значения релевантности для которых лежат выше линии регрессии, за пределами доверительного интервала.

Вторичная обработка

Согласно обычным методикам предметизации, в соответствие с индексируемым текстом ставятся одно-два понятия, отражающих основной смысл, и до двух-трёх — отражающих специальные аспекты, например, временное и географическое положение. Результатом же действия алгоритма часто оказывается список из десятка понятий. Поэтому нужно из выделенного оставить до пяти наиболее правдоподобных понятий, руководствуясь какими-то сторонними соображениями.

Эти соображения могут быть следующими:

Преимущество имеют понятия,

Для использования этих обстоятельств достаточно информации, полученной в процессе работы алгоритма — несложно определить, какие ответы поисковой системы были самыми релевантными, и сколько раз встретилось в ответах то или иное понятие.

Также преимущественными могут быть понятия,

Эти обстоятельства задаются используемым классификатором. Естественно, если имеется только плоский тезаурус, то не существует предков и потомков. Однако, используемая нами ББК имеет иерархическую структуру, что позволяет обобщать множественные выделенные понятия их общим предком.

В зависимости от практических соображений может быть выстроена иерархия признаков, по которым происходит отделение предпочтительных понятий.

Неудача

Как было сказано ранее, даже если в используемом классификаторе нет темы, соответствующей индексируемому тексту, какой-то результат всё равно будет получен. Однако он может быть очень далёк по смыслу от текста и обусловливаться чисто случайными причинами.

Подход, когда выделенными считаются понятия, находящиеся за пределами доверительного интервала линии регрессии обеспечивает в значительной мере индикацию ситуации отсутствия темы — случайные отклики будут внутри доверительного интервала. Поэтому ситуация, когда алгоритм ничего не выделяет принята как отражение ситуации «темы нет в словаре».

Результаты

Проверка алгоритма и программы на примерно 120 текстах диссертаций и авторефератов показала обнадёживающие результаты. Так, для текстов, темы которых есть в доступных нам вариантах ББК, три четверти были индексированы правильно. Однако не менее 10% были индексированы явно ошибочно.

Из текстов, темы которых отсутствовали в ББК, три четверти были обозначены как неуспешно индексированные. Четверть, тем не менее, была сопоставлена с какими-то понятиями, как правило, хотя и не всегда — неверно.

Более достоверная оценка точности работы и общей практической применимости не может быть дана без выработки более-менее формализованных критериев качества индексации (предметизации и систематизации) вообще и автоматической — в частности. Это задача библиотечного сообщества. В настоящее же время в практике, например, РГБ отсутствуют нормативные документы, регламентирующие качество систематизации.


Литература:

1 van Rijsbergen C. J. Information retrieval [Electronic resource]. – Electronic text

and graphic data. – 1979. – Аccess mode:

http://www.dcs.gla.ac.uk/Keith/Preface.html


2 Эмпирический "закон Парето–Ципфа–Кудрина" и общая теория конкуренции / А.В. Бялко, Б.А. Трубников, О.Б. Трубникова - Общая и прикладная ценология. – 2007. – № 4.– С. 20-24., http://www.kudrinbi.ru/public/20151/index.htm


3 Автоматическая обработка текстов на естественном языке и компьютерная

лингвистика : учеб. пособие / Большакова Е.И., Клышинский Э.С., Ландэ Д.В.,

Носков А.А., Пескова О.В., Ягунова Е.В. — М.: МИЭМ, 2011


4 Популярная информатика. / Николай Николаевич Чурсин. — К.: «Техника», 1982.

http://n-t.ru/ri/ch/pi.htm