Система автоматической индексации текста


© Система разработана Владимиром Калачихиным, stager@au.ru, и он обладает всеми правами на систему. С вопросами и предложениями, пожалуйста, обращайтесь к автору.

История версий

Версия 0.2.5 от 04.07.2012 - исправление ошибок, изменён порядок интерпретации результатов

Версия 0.2.4 от 21.06.2012 - изменён порядок подготовки данных - "тяжёлый хвост" не отрезается, если анализируемый текст слишком короткий.

Версия 0.2.3.1 от 13.06.2012 - исправление ошибок в восприятии url.

Версия 0.2.3 от 03.06.2012 - изменены некоторые коэффициенты вычисления результатов, изменён порядок интерпретации.

Версия 0.2.2 от 26.05.2012 - изменён порядок интерпретации результатов.

Версия 0.2.1 от 22.05.2012 - для текстового .pdf извлекается и анализируется весь текст, для .pdf в картинках - первые 10 страниц.

Версия 0.2 от 19.05.2012 - добавлена возможность анализа .pdf, как текстовых, так и в картинках. Для распознавания использована cuneiform. Заодно стало можно проанализировать один графический файл в любом распространённом формате.
Для вторичной обработки результата стал использоваться анализ рандомизированного текста. Это снизило быстродействие вдвое, зато повысило надежность отсечения недостоверных результатов. Заодно появилась мера смысла текста ;-)

Версия 0.1 от 1 апреля 2012 - разработка системы возобновлена в связи с добавлением в словарь понятий из систематического каталога и увеличением объёма доступной части ББК.
Для выявления отклонений от кривой закономерности Паретто применены методы аппроксимации, что повысило точность и устойчивость результата, для вторичной обработки использованы результаты подсчёта встречаемости понятий.

Версии до 0.1 - имеют историческое значение.