Напишите нам

Откуда о нас узнали:

ABBYY: Как правильно организовать автоматизированный ввод документов  

Как правильно организовать автоматизированный ввод документов

Итак, если принять во внимание качество получаемых данных, удобство работы оператора и скорость обработки документов, автоматизированный ввод данных имеет несомненные преимущества перед ручным. Экономически оправданной автоматизация ввода становится при обработке от 100 и более документов в день.

Чтобы автоматизировать ввод даже при небольших объемах, потребуются некоторые изменения в организации работы операторов. Когда же объем ввода достигает нескольких тысяч форм ежедневно, автоматизация ввода становится задачей производственного масштаба и требует ощутимых организационных усилий.

Подходы к организации потокового ввода данных

Выделяют два основных подхода к организации потокового ввода данных: обработка форм по мере их поступления и обработка форм по мере накопления. Соответственно, система автоматизированного ввода внедряется либо во фронт-офисе (секретариате, клиентском отделе), либо в бэк-офисе (вычислительном центре, внутренних отделах).

Ввод данных во фронт-офисе

Характерным примером первого подхода может служить система ввода форм, внедрённая на складе торговой организации. Представитель организации-заказчика, обращаясь на склад, заполняет форму, в которой указывает, какой именно товар и в каких количествах он желает получить. Понятно, что такая форма должна быть обработана сразу, как только она поступит к сотрудникам склада; на основе этой формы выписывается счет, который клиент оплачивает, пока кладовщики и грузчики готовят заказ. Поэтому система автоматизированной обработки устанавливается непосредственно по месту приёма форм, на складе. Исходя из очевидных требований к функционированию такой системы, можем назвать ряд её особенностей.

  1. Скорость сканирования в данном случае не слишком важна – лишние две-три минуты на обработку каждой формы не замедлят общий процесс, поскольку погрузо-разгрузочные работы всё равно занимают намного больше времени. Следовательно, в составе системы может работать любой сканер, даже дешёвый планшетный аппарат из тех, что используются в офисах. Все современные сканеры способны оцифровать лист формата А4 за 30–40 секунд, что вполне приемлемо в описанной ситуации.

  2. Полный цикл операций ввода проводится на одном рабочем месте – непосредственно там, где клиент заполняет и сдаёт форму. Более того, там же осуществляются все вспомогательные операции, не связанные прямо с вводом данных: в нашем примере это оформление счёта, утилизация бумажной формы или помещение её в архив и т.п.

Ввод данных в бэк-офисе

Проиллюстрировать второй подход, «обработка по мере накопления», легко на примере налоговых деклараций. Как известно, Государственная налоговая служба России организовала сбор и обработку налоговых деклараций частных лиц следующим образом: определённое время (несколько месяцев) ведётся приём деклараций. Собранные документы складируются и накапливаются всё время, пока продолжается сбор. Вскоре после окончания сбора деклараций ГНС должна будет отчитаться о результатах проведенной работы. Очевидно, что для автоматизированного ввода такого объёма информации необходима система промышленного уровня. Аналогично предыдущему случаю, можем сформулировать основные особенности такой системы.

  1. Необходимо использование промышленных, высокопроизводительных сканеров.

  2. Должна быть организована распределённая система обработки. Каждый из операторов ввода должен иметь чёткую специализацию и на всём протяжении процесса обслуживать какую-либо одну рабочую станцию: сканирования, распознавания, верификации, экспорта.

  3. Требуется значительно более строгий, чем в предыдущем примере, контроль качества. Причины очевидны: если состав заказа всегда может быть легко скорректирован, то проделать нечто аналогичное с информацией, содержащейся в налоговых декларациях миллионов граждан, практически невозможно.

  4. Весьма желательно организовать двух- или трёхсменную работу вычислительного центра. Это, помимо прочего, позволит максимально полно использовать возможности высокопроизводительных сканеров, рассчитанных на круглосуточную работу.

Несложно убедиться, что в данном случае для выполнения всех описанных требований лучше всего подходит система класса ABBYY FormReader Enterprise Edition.

Сравнительный анализ этих примеров приводит к выводу о том, что для каждого конкретного проекта может быть подобрана оптимальная конфигурация системы автоматизированного ввода. Однако решение о выборе такой конфигурации должно приниматься с учётом всех особенностей проекта, а также возможностей системы. Поэтому обычно на этапе разработки плана внедрения той или иной системы в равной мере востребованы как специалисты компании-разработчика, так и представители компании-заказчика, располагающие полной информацией об особенностях работы данного предприятия.

Рассмотрим основные принципы построения мощных систем автоматизированного ввода форм, позволяющие добиться высокой эффективности при сохранении других параметров ввода (качество данных, скорость обработки и т.д.) на высоком уровне. Все эти принципы сформированы на базе успешных масштабных проектов по вводу форм и положены в основу программных продуктов компании ABBYY.

Основные принципы потокового ввода данных

Пакетная обработка данных.

Смысл этого принципа состоит в том, что однотипные формы в рамках системы объединяются в так называемые пакеты. Иными словами, на программном уровне однотипные формы рассматриваются как содержимое некоего обособленного контейнера. Каждый такой пакет имеет уникальный идентификатор. Подобное решение позволяет структурировать поток вводимых данных. Преимущества очевидны: во-первых, с каждым пакетом могут быть связаны свои программные настройки. Во-вторых, в потоковой системе ввода структурирование облегчает администрирование, маршрутизацию потоков и дальнейшее хранение данных.

Распределение функций операторов.

Мощные системы ввода данных обычно функционируют по принципу конвейера. Смысл такого построения понятен: специализация повышает производительность труда, а также позволяет практически неограниченно масштабировать систему. Например, всегда можно увеличить количество мест операторов сканирования, никоим образом не вмешиваясь в работу операторов распознавания, верификаторов, и так далее.

Масштабируемость системы.

Как показано выше, благодаря распределению функций между операторами, система оказывается состоящей из узкоспециализированных модулей. При этом количество модулей каждого вида определяется только особенностями конкретной ситуации и может быть при необходимости легко изменено. Например на один модуль распознавания (мощный 2-процессорный сервер) изначально приходилось 8 модулей верификации; через какое-то время выяснилось, что верификация стала «узким местом» системы; решили добавить ещё 4 таких модуля, после чего информационный «затор» был устранён. Понятно, что все эти особенности делают систему более гибкой и управляемой, что существенно удешевляет комплекс ввода в целом.

Очередность заданий.

Важным для таких систем является понятие маршрута движения пакета. Пакеты движутся по системе не произвольным образом, а в соответствии с заданной схемой маршрутизации. Простейшим примером схемы маршрутизации может служить линейная схема: станция сканирования – станция распознавания – станция верификации – станция корректировки – станция экспорта. ABBYY FormReader Enterprise Edition поддерживает средства настройки маршрута прохождения пакетом всех стадий обработки. В частности есть возможность задать специальные условия, от выполнения которых зависит, что ждет пакет на следующей стадии. В каждый момент времени пакет имеет определённый статус, указывающий, на какой стадии обработки он находится. В сложных системах статус, скажем, «на верификацию» могут одновременно иметь 5…10 пакетов, составляющих так называемую очередь. Как только одна из станций верификации освобождается, следующий пакет из очереди автоматически переправляется на обработку. Основное преимущество системы, использующей очереди заданий, – равномерное распределение нагрузки по всем ресурсам (операторам) системы. Как только, например, оператор верификации освободился от задания и сообщил о своей готовности продолжить работу, на его рабочее место доставляется очередной пакет форм, стоящий следующим в очереди пакетов на верификацию.

Сохранение магистрали ввода.

До тех пор пока обработка документа идёт без серьёзных затруднений, он обрабатывается в общем потоке, так называемой магистрали. Общая схема маршрутизации выбирается таким образом, чтобы пакеты в магистрали следовали как можно быстрее. Бывает, что при обработке документа возникают какие-либо проблемы, например, из-за сбоя при сканировании изображение оказалось нераспознаваемым. Принцип сохранения магистрали гласит, что такой документ должен быть немедленно исключён из магистрали, чтобы не замедлять прохождение остальных пакетов. Как правило, «проблемные» пакеты передаются на ручную обработку – оператор, установив причину возникновения сбоя, выбирает способ решения проблемы. В нашем примере документ будет направлен на повторное сканирование. Заметим, что обработка остальных пакетов всё это время продолжалась в прежнем, высоком темпе.

Проект по промышленному вводу форм

Особого внимания заслуживает проект внедрения системы для автоматизированного ввода форм в промышленном масштабе. Для обеспечения его реализации потребуются специальное аппаратное и программное обеспечение, обучение операторов и организация их работы.

Программное решение для ввода форм

Практика показывает, что если необходимо в день обрабатывать более 3000 документов и привлекать для этого более трех сотрудников, то максимальная эффективность достигается при распределении этапов обработки. Тогда каждый сотрудник будет иметь возможность сосредоточиться на определенной операции и выполнять ее быстро и качественно. Именно такой принцип работы заложен в программном продукте ABBYY FormReader Enterprise Edition.

В сочетании с уже упомянутыми возможностями связывать многостраничные документы, применять разообразные правила, система подобного ранга позволяет организовать процесс практически без ограничений по объему ввода и для форм любой сложности

Промышленный сканер

Обязательно использовать высокопроизводительные сканеры. Иногда теоретически рассматривают альтернативное решение, заключающееся в распределении входного потока форм по большому количеству (десяткам и сотням) операторов сканирования, работающих на дешёвых аппаратах с невысоким быстродействием. Однако практика показывает, что подобный подход нереализуем: сканеры, не рассчитанные на потоковый ввод тысяч документов в день, имеют намного меньшую наработку на отказ, нежели промышленные аппараты. Соответственно, через короткое время организаторы столкнутся с массовой поломкой сканеров и дополнительными затратами на их ремонт или переоборудование рабочих мест.

Аппаратное обеспечение

  • Для станций сканирования годятся практически любые компьютеры, нужно лишь правильно оценить требуемый для сохранения отсканированных изображений объём жёсткого диска.

  • Станции распознавания должны иметь большую вычислительную мощность, для чего понадобится процессор с высокой тактовой частотой и достаточный объём оперативной памяти. В роли станций распознавания часто используют многопроцессорные серверы. Большинство систем ввода, в частности ABBYY FormReader, поддерживают многопроцессорную обработку.

  • Для верификаторов, нужны качественные мониторы; в противном случае у операторов будут быстро уставать глаза, что неизбежно понизит общее качество ввода.

  • Компьютер, на котором будет работать станция экспорта, должен иметь достаточный ресурс оперативной памяти, поскольку на нем в фоновом режиме будут экспортироваться данные.

  • Сама по себе локальная сеть в отделе автоматизированного ввода форм обязательно должна иметь высокую пропускную способность – внутренний трафик, как правило, досаточно велик. Для сравнения скажем, что объём одного пакета может достигать десятков Мбайт.

  • Так как для хранения настроек комплекса и вводимых данных ABBYY FormReader Enterprise Edition использует внутреннюю базу данных, требуется достаточно мощный компьютер, используемый как сервер базы данных.

Организация экспорта данных

Обычный для настольных систем экспорт распознанных данных в файл указанного формата для систем промышленного ввода непригоден. При создании любой более-менее масштабной системы обычно пишут специальный модуль экспорта. Последний позволяет организовать поточную передачу информации во внешнюю систему обработки и хранения. В качестве альтернативы иногда рассматривают экспорт в файл формата XML, который поддерживается во всех продуктах линейки ABBYY FormReader 6.0, с последующим применением специально разработанного анализатора XML-файлов.

Обучение персонала

Прежде чем приступить к работе с подобной системой, надо провести инструктаж персонала. Хотя интерфейс ABBYY FormReader Enterprise Edition разработан таким образом, чтобы оператор мог работать не задумываясь и не совершая ошибок, краткий курс обучения сотрудникам не повредит. Поэтому, участвуя в подобных проектах, специалисты компании ABBYY всегда оказывают содействие в создании инструкций для персонала, а также проводят обучение операторов всех специализаций. Особенно эффективным оказывается обучение непосредственно на рабочих местах – ведь это помогает операторам легко и быстро войти в работу!

Источник: Docflow.ru