Система корпоративного электронного архива.
Но внедрение мощных системы управления электронными документами не всегда приводит к получению ожидаемого эффекта. Причина кроется в том, что огромное количество оперативной и справочной информации по-прежнему остается на бумажных носителях. Ручная обработка таких бумажных хранилищ становится узким звеном функционирования многих крупных корпораций. Решением может стать использование технологии построения корпоративного электронного архива.
В рамках отрасли или корпорации речь идет даже не о традиционной автоматизации каталогов библиотек, а о построении интегрированной системы глобального масштаба, обеспечивающей эффективный доступ и хранение огромных объемов документов в электронном виде. Причем, технология должна включать как средства создания/наполнения супербанка данных, так и средства обеспечения его должного функционирования и развития. Однако, если потребность в такой технологии назрела уже много лет назад, то техническая возможность ее реализации появилась относительно недавно, как следствие появления дешевых носителей, повышение эффективности высокоскоростных вычислительных систем и сетей, новые информационные технологии индексирования сверхбольших массивов данных, наметилось направление внедрения средств искусственного интеллекта, позволяющих моделировать и анализировать большие массивы информации.
Общую идею можно обрисовать следующим образом. Организуется развертывание высокопроизводительной сети, включающей графические рабочие станции и мощные серверы ввода и обработки информации. Для ввода документов с бумажных носителей низкого качества, используются промышленные сканеры потокового ввода. Система обеспечивает эффективное индексирование и полнотекстовый поиск информации большого объема. Данные, необходимые для поиска документов, хранятся в высокопроизводительной и отказоустойчивой системе памяти, а графические образы документов – в виде изображений на носителях, характеризуемых длительным временем хранения и дешевизной. Специфическая черта корпоративного электронного архива – обеспечение полнотекстового поиска. Построение и поддержка системы атрибутивного поиска, характерного для систем управления документооборотом, оказывается неприемлемым вследствие временных и стоимостных ограничений.
Программным ядром корпоративного электронного архива по праву можно считать технологии индексирования и поиска. Первое направление, именуемое также корпоративным электронным архивом, относится к классу традиционных информационно-поисковых систем, основанных на атрибутном поиске структурированных данных. Альтернативное направление электронного архивирования базируется на принципе полнотекстового индексирования неструктурированных данных и включает контекстно-независимое индексирование, не зависящее от естественного языка, и контекстно-зависимое индексирование, позволяющее оптимизировать индексацию и поиск с учетом специфики морфологии и семантики естественного языка.
Как уже отмечалось, все данные в системе могут находиться в двух видах: поисковый образ и образ собственно документа. Из-за высоких требований к скорости доступа к поисковому образу документа и его целостности, он должен храниться в высокоскоростных отказоустойчивых системах хранения, например RAID-массивах.
Для хранения образа документов использование магнитных дисковых носителей не представляется возможным вследствие их высокой стоимости. С учетом того, что большинство архивных документов, практически, не подлежат модификации и удалению, библиотеки на компакт-дисках могут быть предпочтительнее. Кроме того, компакт-диски удобнее в работе: их автономное чтение можно осуществлять на любом компьютере, комплектуемом приводом CD-ROM.