ЛИНГВИСТИЧЕСКОЕ ПО

FineReader 7.0 распознает символы на 25% лучше, чем его предшественник

2 сентября компания ABBYY Software House (www.abbyy.ru) представила ABBYY FineReader 7.0 - систему, работающую под управлением ОС Windows 98/Me/2000/XP/NT 4.0 (SP 6 или выше) и позволяющую распознавать многоязычные тексты, написанные на 177 языках. Презентация была обставлена по мотивам классического вестерна "Великолепная семерка". Новая система оптического распознавания текстов (Optical Character Recognition, OCR) пришла на смену выпущенному в прошлом году пакету ABBYY FineReader 6.0 (см. PC Week/RE, N 13/2002, с. 14) и предлагается пользователям в двух вариантах: FineReader 7.0 Professional Edition (ориентировочная цена - $129, апгрейд с предыдущей версии - $89) и ABBYY FineReader 7.0 Corporate Edition ($259 и $179 соответственно).

Вадим Терещенко гордится тем, что точность распознавания

систем FineReader растет быстрее, чем падает их производительность

В первый из них включены функции, прежде доступные только в корпоративной версии продукта, например распознавание штрих-кодов, полнотекстовый морфологический поиск, инструменты для разбиения изображения.

Вариант ABBYY FineReader 7.0 Corporate Edition обеспечивает все возможности версии FineReader Professional Edition плюс ряд дополнительных функций:

· автоматическую установку с сервера на рабочие места (с отслеживанием количества и состояния лицензий на данное ПО);

· распределенную обработку документов и коллективную работу со словарями;

· реализацию различных сценариев работы с сетевыми многофункциональными устройствами;

· поддержку многопроцессорных систем и т. д.

По словам разработчиков, оба варианта (по сравнению с их предшественниками) благодаря усовершенствованию используемых технологий *1 распознают хорошие и средние тексты (книги высокого качества, листы, отпечатанные на лазерных или струйных принтерах, плоды работы современных копировальных аппаратов и т. д.) в среднем на 25% лучше, а плохие (например, газеты, напечатанные в плохой типографии и на плохой бумаге) - даже на 35%. Что значит лучше и по отношению к чему считаются эти проценты? Генеральный директор ABBYY Software House Сергей Андреев поясняет, что качество распознавания текста определяется числом символов, которые после автоматического распознавания надо подправить вручную. Так вот, если при использовании прежней версии после автоматического сканирования и распознавания некой книги приходилось вручную подправлять, положим, 100 символов, то с новой версией неправильно распознанных символов будет, по всей видимости, всего 75.

_____

*1Технологии, лежащие в основе работы программ семейства FineReader, отмечены более чем сотней отечественных и зарубежных наград, в том числе премией Правительства Российской Федерации (см. PC Week/RE, N 48/2002, с. 1).

Вице-президент по направлению FineReader компании ABBYY Software House Вадим Терещенко сообщил, что обучение новой OCR производилось с помощью корпоративной базы данных, содержащей в общей сложности около 7,5 млн. символов, а при ее тестировании применялась библиотека хороших, средних и плохих текстов, написанных на 177 языках и содержащих в общей сложности около 37 тыс. страниц. Интересно отметить, что набор "учебных символов" и собрание тестовых страниц не остаются застывшими объектами, а постоянно пополняются новыми элементами - теми буквами и страницами, которые по тем или иным причинам плохо распознавались текущей версией FineReader.

Чего же удалось достичь? Конкретные цифры назвать трудно (ведь многое зависит не только от качества текстов, но и от функциональных возможностей используемых сканеров), однако разработчики говорят, что на хороших текстах FineReader 7.0 делает примерно одну ошибку на страницу формата A4, на средних - одну-две, на плохих - две-три.

Утверждается также, что новая версия системы в среднем на 45% лучше распознает документы, хранимые в формате PDF, и на 33% лучше - документы сложной верстки (текст на фоне картинок, документы с низкой контрастностью, цветной текст на цветном фоне и т. д.), которые до сих пор являются серьезным испытанием для любой OCR-системы. Кроме того, в систему добавлены юридический и медицинский словари для английского и немецкого языков, благодаря чему точность распознавания специализированных текстов (по тематике этих словарей) увеличилась на 30-40%.

Разумеется, ничто не дается даром: в любом семействе OCR чем выше точность распознавания, тем ниже производительность соответствующего пакета (число распознанных страниц в единицу времени). Причем в мировой практике темпы падения производительности (если не обращать внимания на знаки производных) опережают темпы роста точности распознавания, т. е. произведение "точность х производительность" со временем уменьшается. В продуктах же FineReader оно не только не уменьшается, но даже слегка увеличивается. Разработчики утверждают, что если точность распознавания их детища увеличилась в среднем на 25%, то скорость работы упала лишь где-то на 20%. Однако не надо забывать, что за год, прошедший с анонсирования FineReader 6.0, быстродействие "типовой модели ПК" выросло многократно.

Еще одним отличием новой системы является то, что она позволяет сохранять распознанные документы не только в PDF и различных текстовых форматах, а также в форматах Microsoft Word 2003/ XP/2000/97/95 и Microsoft Excel 2003/XP/ 2000/97/95, но и в форматах Microsoft Word 2003 XML и Microsoft PowerPoint 2003/XP. Для работы FineReader 7.0 (на жестком диске эта система занимает 220 Мб) необходим процессор с тактовой частотой не менее 200 МГц.

Версия для печати