VI Международная научно-практическая конференция "Спецпроект: анализ научных исследований" (30-31 мая 2011г.)

К.т.н. Кроль Т.Я., Харин М.А.

Ивановский центр информационных технологий – филиал

ОАО «Электроцентромонтаж»

ИСПОЛЬЗОВАНИЕ ПОСЛЕДОВАТЕЛЬНОСТЕЙ ПРИ ЗАНЕСЕНИИ ДОКУМЕНТОВ В ЭЛЕКТРОННЫЙ АРХИВ

 

 

В настоящее время большое значение в работе предприятий имеют электронные архивы документов: бухгалтерских, корреспонденции, уставных, проектной документации и других. Подобные архивы обеспечивают надежно защищенное хранение документов и доступ к ним в соответствии с правами. При занесении документов в электронный архив используется следующая схема: сканирование бумажных документов, распознавание образов и верификация документов, отправка в архив. Более подробно эта схема описана в статье [1].

Однако зачастую документы создаются на основе каких-либо других, например, на основе счета создается накладная, на основе полученной накладной создается приходный складской ордер . При этом в документах повторяются некоторые реквизиты, например, количество, суммы, номенклатура, поставщик. Закономерно возникает вопрос об использовании уже имеющихся в архиве документов при верификации вновь поступающих.

Данную задачу можно разделить на два этапа:

·           получение закономерностей перехода атрибутов с документов одного типа на другой;

·           использование полученных закономерностей при верификации.

Рассмотрим эти этапы подробнее. Закономерность представляет собой выражение вида: «Если значение атрибута   документа   типа   равно значению атрибута   документа типа , то значение атрибута   документа   равно значению атрибута   документа   с вероятностью ». Здесь   и   – определенные в архиве типы документов,   и   – определенные в архиве атрибуты документов,   и   – некоторые документы архива,   – численное значение вероятности. Например, если в некоторых документах типа «Счет» и «Накладная» совпадают значения атрибута «Сумма», то значения атрибутов «Количество» и «Поставщик» совпадут с вероятностью 80%. Отметим также, что в данном случае рассматривается не полное равенство строковых значений, а равенство по особому критерию [2]. Вычислим расстояние Левенштейна между этими значениями и разделим его на среднюю длину строки. Если полученное значение не превышает определенного предела   (например, 7%), то строковые значения можно считать равными.

Для поиска последовательностей будем использовать следующий метод. Выберем два атрибута   и , по которым будет идти поиск. Используя настройки архива, найдем подмножество типов архива   таких, которые содержат оба этих атрибута. Очевидно, что для существования каких-либо последовательностей множество должно содержать как минимум 2 элемента. Начнем перебор документов типа   из множества . Пусть значение атрибута   равно , тогда выберем документы следующего типа , в которых значение   также равно . Далее сравним значения атрибута   в документах. Разделив количество совпадений значений атрибута   на общее количество отобранных документов типа , получим вероятность   для данного случая. Сравнивая даты рассматриваемых документов, можно определить, какой из документов был первичным, а какой создается на его основе. Затем будем выбирать документы оставшихся типов   (если множество   содержит больше двух элементов), в которых значение   также равно . Соответственно для каждой пары типов составляем закономерности (правила). Далее продолжаем перебор документов типа   и составляем правила на их основе.

Таким образом, после выполнения подобной процедуры мы получим список закономерностей-правил. Каждое правило однозначно характеризуется пятеркой , где   и   – атрибуты,   и   – типы, причем   – первичный тип,   – вторичный,   – значение вероятности. Далее рассмотрим следующий этап: применение полученных правил.

Применение полученных правил происходит на стадии верификации документов при занесении в электронный архив. Суть заключается в следующем: после сканирования и распознавания бумажных документов 100% точность значений атрибутов достигается довольно редко. Поэтому специальный человек должен проверять и редактировать результаты распознавания. Пусть человек верифицирует документ типа   (например, накладная). При начале верификации такого документа необходимо выбрать из полного набора правил такие, где . Далее человек подтверждает значение   некоторого атрибута   (например, сумма). Из уже отобранного набора правил отбираем такие, где   и располагаем их по убыванию вероятности . Далее подгружаем из архива документы типа , в которых значение , составляем список атрибутов   и их значений. Эти значения необходимо выдать пользователю при верификации соответствующих атрибутов, причем наиболее вероятное значение должно быть первым в списке.

После верификации необходимо произвести корректировку правил. Для этого нужно средствами архива получить количество   документов типа , в которых , среди этих документов выбрать те, в которых , где   – утвержденное после верификации значение. Количество таких документов обозначим . Тогда новое значение вероятности .

Рис. 1 . Последовательность работы

На рис. 1 приведена последовательность работы, представленная в виде схемы.

Использование данного метода позволит ускорить работу верификатора за счет подстановки наиболее вероятных вариантов значений, а также повысить точность и связанность документов. Например, если в потоке документов один и тот же поставщик именуется одинаково, то выполнить поиск связанных документов становится проще. Таким образом, повышается эффективность использования архива.

 

Список использованных источников:

1.      Кроль Т.Я. Схема наполнения электронного архива документами / Т.Я. Кроль, М.А. Харин, П.В. Евдокимов // Материалы первой международной конференции «Автоматизация управления и интеллектуальные системы и среды», Терскол , 20-27 дек.. – 2010. – Т. IV . – С. 53–56.

2.      Кроль Т.Я. Методы создания справочника на основе электронного архива / Т.Я. Кроль, М.А. Харин, П.В. Евдокимов // Известия КБНЦ РАН. – 2011. – №1.

3.      Дюк В.А. Data Mining – интеллектуальный анализ данных [Электронный ресурс] / В.А. Дюк . – Режим доступа: http :// www . olap . ru / basic / dm 2. asp , свободный.

4.      Вопросы извлечения и представления неточных и недоопределенных знаний при автоматизированном построении баз знаний для интегрированных экспертных систем / Г.В. Рыбина, Р.В. Душкин , Д.А. Козлов, Д.Е. Левин, В.В. Смирнов, М.Л. Файбисович // Третья международная летняя школа-семинар по искусственному интеллекту для студентов и аспирантов ( Браславская школа, 1999): сб. науч . тр. – Мн.: БГУИР, 1999. – С. 191–198.

5.      Арустамов А. Анализ бизнес информации – основные принципы [Электронный ресурс] / А. Арустамов . – Режим доступа: http://www.basegroup.ru/library/methodology/analysisbusinessdata/, свободный.