ЛИНГВИСТИЧЕСКОЕ ПО    

Пакет дополнен поддержкой уйгурского языка

    

Через два года после анонсирования "Великолепной семерки" (см. PC Week/RE, N 33/2003, с. 1) компания ABBYY (www.abbyy.ru) представила восьмую версию системы распознавания документов FineReader. В ее основе лежат технологические и функциональные улучшения, направленные на повышение качества распознавания, сокращение времени на обработку документов и расширение областей применения продукта.

Новые сервисы

Так, благодаря новым возможностям работы с документами, снятыми цифровой камерой, теперь можно использовать фотоаппарат как альтернативу сканеру в случаях, когда последнего нет под рукой, например в библиотеке, на выставке или во время путешествия. А новые алгоритмы обработки изображений низкого разрешения позволяют лучше распознавать факсы низкого качества и документы, отсканированные с невысоким разрешением.

Руководитель службы продуктового маркетинга "ABBYY Россия" Дина Шелепина отмечает, что корректная обработка документов, снятых цифровой камерой, стала возможной за счет включения в пакет ряда чрезвычайно полезных функций предварительной обработки "входных картинок". Важнейшие из них: обрезание изображений, выпрямление строк, улучшение разрешения.

Дина Шелепина и Григорий Липич надеются,

что FineReader 8.0 будет востребован многомиллионой

армией владельцев цифровых фотокамер

Функция обрезания изображения предназначена для удаления (в ручном или автоматическом режиме) с фотографий документов областей, не содержащих текста. Например, для устранения черных полей, которые могут возникнуть при сканировании книг или фотографировании "настенных" презентаций.

Роль функции выпрямления строк ясна из ее названия. Ведь не секрет, что зачастую при сканировании толстых книг и журналов строки текста вблизи сгиба оказываются искривлены. Искривление строк (но уже по всему полю документа) также почти всегда встречается при фотографировании ppt-презентаций не из центра зала, а с боковых кресел и приводит к тому, что другие пакеты (скажем, FineReader 7.0) "превращают" снимки такого рода в текстовые файлы с большими погрешностями.

Функция предварительного улучшения разрешения позволяет увеличить точность распознавания в тех случаях, когда изображение отсканировано с низким разрешением, получено с помощью смартфона или недорогой любительской цифровой камеры либо представляет собой снимок экрана (скриншот). Если обрабатывать такие изображения без предварительной коррекции, качество окажется не очень высоким.

Обрисовывая перспективы развития новинки, генеральный директор "ABBYY Россия" Григорий Липич сказал: "Не исключено, что в следующих версиях FineReader’а все эти функции будут осуществляться автоматически. То есть, проанализировав картинку, пакет сам "сообразит", что перед распознаванием из документа следует удалить ненужные области, затем выпрямить в нем строки текста и, возможно, улучшить разрешение".

Среди новых сервисов, появившихся в ABBYY FineReader 8.0, надо также отметить "Менеджер сценариев", позволяющий автоматизировать повторяющиеся действия, которые возникают в процессе распознавания документов. Например, открыть несколько изображений, распознать их, а результаты сохранить в один PDF-файл. Такой набор операций можно объединить в один сценарий, вызов которого доступен по команде из меню. В новинке есть предопределенные сценарии, но пользователь может создавать и собственные.

Кроме того, в "восьмерку" включено приложение ABBYY Screenshot Reader. С его помощью можно распознать любую область экрана компьютера и перевести в редактируемый формат тексты, которые нельзя скопировать в буфер обмена обычным способом, допустим, тексты системных сообщений, страницы Flash-Web-сайтов или субтитры DVD-фильма.

А еще ABBYY FineReader 8.0 позволяет создавать защищенные PDF-файлы. При этом пароль может быть установлен как на открытие файла, так и на прочие действия с документом (печать, извлечение содержимого, редактирование, внесение комментариев, добавление/удаление страниц и др.). Предусмотрена возможность выбрать один из трех уровней шифрования: 40-битный, 128-битный на основе стандарта RC4 и 128-битный, основанный на стандарте AES (Advanced Encryption Standard).

Новое приложение-планировщик ABBYY Hot Folder & Scheduling, доступное в восьмой версии, ориентировано на бизнес-аудиторию. Оно позволяет распознавать большие массивы документов в автоматическом режиме без участия пользователя, например ночью. Кроме того, данное приложение дает возможность интегрировать ABBYY FineReader с сетевыми и персональными многофункциональными устройствами, настраивая систему на автоматическую обработку изображений, получаемых при помощи таких устройств.

Плюс ко всему этому в новой версии ABBYY FineReader количество поддерживаемых языков увеличено со 177 до 179 (добавлены уйгурский/кириллица и уйгурский/латиница). Словарная поддержка теперь обеспечена не 34 языкам, как раньше, а 36 (добавлены словари для словенского и башкирского языков), а кроме того, доработаны словари для венгерского, датского, польского, итальянского, голландского, норвежского, португальского и финского языков.

Появился также режим ускоренного распознавания, который полезен для сокращения времени на обработку документов высокого качества печати или при индексировании больших архивов документов. А еще восьмая версия FineReader поддерживает новый формат сохранения LIT, один из самых популярных форматов для создания электронных книг, а также умеет распознавать и сохранять гиперссылки и внутренние ссылки в PDF-файлах.

Прибегнув к помощи ABBYY FineReader 8.0, можно указать для распознанного документа дополнительные свойства, такие, как "описание", "автор", "тема", "ключевые слова". Сохраняется подобный документ в форматах PDF, DOC/RTF, XLS, HTML, Word XML или LIT. Указанные свойства могут в дальнейшем использоваться для индексирования и поиска по документам.

О некоторых других возможностях FineReader 8.0 расскажем совсем вкратце.

При открытии многостраничных TIFF- и PDF-файлов новый пакет позволяет указать диапазон страниц, которые необходимо открыть. Это удобно, например, когда требуется распознать не всю книгу в формате PDF, а только некоторые ее главы. Кроме того, теперь FineReader способен открывать графические файлы формата TIFF, сжатые по алгоритму LZW.

Добавлен новый режим сохранения - "Колонки, таблицы, абзацы, шрифты". Он позволяет, с одной стороны, сохранить близкое к оригиналу оформление документа, а с другой - легко редактировать распознанный текст.

В FineReader 8.0 при сохранении результатов распознавания в любом из форматов PDF, HTML, PPT, DOC, RTF можно задавать цветовую гамму картинок - цветная, серая или черно-белая. Например, если в документе много цветных иллюстраций, может быть полезно сохранить некоторые из них как серые или черно-белые. Это существенно уменьшит размер получившегося файла.

Кроме того, появились дополнительные опции сохранения картинок при экспорте в PDF, HTML и PPT. При сохранении в PDF теперь можно выбрать метод сжатия иллюстраций, при сохранении в HTML и PPT - формат файлов с изображениями (JPEG или PNG). Настройки цветовой гаммы и качества можно изменять как для отдельной картинки, так и для всех страниц пакета.

В FineReader 8.0 реализована поддержка технологий Intel Dual Core и Hyper-Threading. Благодаря этому новинка демонстрирует значительный выигрыш в скорости распознавания в фоновом режиме при работе на современных двухъядерных процессорах Intel.

Качество распознавания

Рассказывая о точностных характеристиках "восьмерки", Дина Шелепина собщила, что в настоящее время общий объем корпоративной базы тестовых документов ABBYY (на 179 языках) составляет более 30 тыс. страниц. Документы, на которых тестировался ABBYY FineReader 8.0, подразделяются на 11 категорий: 1) газета (мелкий шрифт); 2) газета (крупный шрифт); 3) газета (цветной текст); 4) документ, отсканированный с низким разрешением (менее 300 точек на дюйм); 5) документ, сфотографированный цифровой камерой; 6) журнал; 7) журнал (текст на цветном фоне); 8) журнал (цветной текст); 9) книжный разворот; 10) распечатка лазерного принтера; 11) факс.

Г-жа Шелепина также отметила, что при создании восьмой версии особое внимание было уделено документам, отсканированным с низким разрешением (точность их распознавания улучшилась на 15%), факсам (улучшение на 30%) и документам, сфотографированным цифровой камерой (улучшение на 40%).

Для остальных категорий документов качество распознавания улучшилось на 5-10%. Но при анализе текстов хорошего качества система FineReader и раньше делала такое незначительное количество ошибок (менее одного символа на страницу), что о "процентах улучшения" говорить сложно.

Варианты поставок

ABBYY FineReader 8.0 поставляется в двух версиях: ABBYY FineReader 8.0 Professional Edition (она предназначена для индивидуального использования дома или в небольшом офисе, где потребности в распознавании есть у одного-двух сотрудников) и ABBYY FineReader 8.0 Corporate Edition (продукт, предоставляющий возможности коллективной работы над задачами распознавания документов, обеспечивающий интеграцию с многофункциональными устройствами и возможность планирования задач распознавания благодаря наличию приложения-планировщика ABBYY Hot Holder & Scheduling).

Корпоративный вариант - его рекомендованная цена составляет 260 долл. (обновление с соответствующих вариантов версий 6.0 и 7.0 - 185 долл.) - предлагает режимы установки и лицензирования, оптимизированные под использование в локальной сети. Рекомендованная цена варианта "восьмерки" для SoHo - 130 долл. (обновление с версий 6.0 и 7.0 - 90 долл.).

Версия для печати