ПО

В ходе своей работы в качестве консультанта и аналитика мне приходится собирать и перерабатывать огромные объемы информации, имеющей самые разные форматы - это и Web-страницы, и файлы PDF, и офисные документы. Все они постепенно накапливаются в файловой системе, и, несмотря на немалые усилия по систематизации этих информационных активов, со временем ориентироваться в них, даже с использованием поисковых механизмов наподобие Google Desktop, становится трудно.

Для систематизации информации в Web Research использована метафора Windows Explorer

Обиднее всего то, что значительная часть этих данных не несет полезной информации. Например, записанная на диск страница помимо бесполезных с точки зрения смысла частей текста может содержать еще и массу элементов оформления, которые запутывают поисковую машину, отвлекают внимание аналитика, "отъедают" системные ресурсы. Да и сам процесс сохранения страниц из Интернета в типовом браузере (Internet Explorer, Firefox) требует слишком большого числа шагов.

Поговорив со своими знакомыми, я выяснил, что такая проблема является весьма распространенной. Наиболее сильно от нее страдают аналитики и ИТ-директора, то есть те две категории людей, которым информация требуется постоянно, а не только на время осуществления текущего проекта. При этом подобные люди ведут базу знаний либо персонально, либо в составе небольшой рабочей группы. Иначе говоря, им не нужны средства масштаба предприятия, а нужно настольное ПО или ПО уровня рабочей группы.

Таким образом, личные потребности и потребности некоторых моих заказчиков побудили меня заняться анализом программного обеспечения, пригодного для решения такого рода задач.

Методика анализа

В данном случае применялась методика, используемая в исследовательских проектах, осуществляемых группой КОННАСИ по заказам крупных промышленных компаний. Вначале был сформулирован перечень сценариев работы, которые должна поддерживать система, а уже на их основе конкретизировался перечень ее, системы, свойств, обеспечивающих реализацию этих сценариев. Потенциальные кандидаты оценивались по сформированной таким образом метрике.

На мой взгляд и по мнению некоторых потенциальных пользователей, с которыми я консультировался, система должна поддерживать следующие сценарии:

- "мгновенное" сохранение Web-страницы;

- захват выделенной части Web-страницы;

- захват вырезок из не-Web-содержимого;

- импорт файлов из файловой системы;

- классификация контента по иерархическому рубрикатору;

- классификация по ключевым словам;

- отнесение документа к нескольким разделам классификатора;

- создание и редактирование заметок и документов;

- связывание документов перекрестными ссылками;

- поиск документов;

- печать и экспорт.

Как показывает практика, далеко не лишними являются возможности хранения структурированной информации (т. е. любых данных, описываемых при помощи форм - заданий, календарей, произвольной учетной информации), но поскольку эта задача решается многими другими продуктами, акцент в исследовании на них не делался. Наличие подобных функций желательно, но не критично.

В основе продукта Ultra Recall Professional лежит метафора классификатора на базе “дерева элементов”

Указанные сценарии должны реализовываться максимально эргономичным образом. Экономия усилий и времени, затрачиваемых пользователем на проведение рутинных операций, - это главный стимул приобретения подобных программ.

Самым существенным качеством, различающим системы, является применяемая в них метафора классификации, так как именно она определяет их соответствие или несоответствие стилю мышления пользователя. Иначе говоря, система с одной метафорой может казаться ему логичной, а с другой - нет.

Помимо всего перечисленного система должна полностью поддерживать русский язык, а также быть устойчивой к сбоям программного и аппаратного обеспечения. А для использования в рабочих группах она еще должна поддерживать сетевой доступ и разграничение прав доступа.

В приведенных выше сценариях много всевозможных тонкостей, и при их детализации набралось примерно 130 требований (см. www.konnasi.ru/wgkm_review.htm).

При анализе рынка был просмотрен широкий спектр кандидатов на роль повседневного программного инструмента такого рода, но значительная их часть по разным причинам отпала уже на первых этапах этой аналитической работы. О трех наиболее интересных продуктах будет рассказано ниже.

Web Research Professional 2.7

Очень интересная система немецкого производителя Macropool предназначена в первую очередь для Web-клиппинга, хотя в ней можно хранить что угодно, включая произвольные файлы.

Для систематизации информации в Web Research использована метафора Windows Explorer - классификатор строится как дерево папок, в которых хранятся документы (файлы и редактируемые записки). Все документы в Web Research равноправны - они, например, не делятся на основные (записки) и "приложения" (attachments), как это часто наблюдается в подобном ПО. Дополнительно документы классифицируются при помощи иерархического списка категорий.

Все сценарии использования реализованы в системе предельно эргономично - именно удобство сохранения и систематизации данных отличает ее в выгодную сторону от встроенных в браузеры и ОС средств. Например, система позволяет сохранять типичную Web-страницу или вырезку из нее буквально за одну-две секунды и один-два клика мышью. Столь же мало усилий требуют и типовые операции классификации (переименование, отнесение к папке или категории).

Для захвата страниц в основные браузеры (Firefox, Internet Explorer) встраиваются инструментальные линейки и контекстные меню, поэтому при желании пользователь может выбирать из множества опций сохранения. Само сохранение происходит с минимальным числом ошибок (таких как потеря кодировки, части текста, искажение оформления) среди всех обследованных программ. Более того, сохраненные страницы можно редактировать - что не позволяют делать другие программы, - а это дает возможность, например, выделять маркером интересные фрагменты текста или удалять лишнее. Все эти качества делают Web Reasearch уникальным продуктом.

Помимо захвата HTML-страниц из браузера их можно импортировать из файловой системы. При этом программа распознает каталоги _files, чего также не делают некоторые другие утилиты. Из файловой системы операцией drag-and-drop можно импортировать и группы файлов. Плюс к этому в Windows Explorer встраиваются инструментальная линейка, предоставляющая альтернативный способ загрузки в Web Research данных из файловых папок, и панель для навигации по базам данных этой программы. Есть также плагин для Outlook, позволяющий захватывать почтовые сообщения.

Распределение документов по иерархическому классификатору делается посредством привычного механизма drag-and-drop. Этой операцией можно изменить классификацию нескольких документов сразу, чего не позволяет, скажем, drag-and-drop-функция ПО MyBase. Правда, классификатор имеет существенный недостаток - документ может фигурировать только в одном его разделе. В этом Web Research уступает двум другим описываемым здесь продуктам.

Документ в MyBase характеризуется запиской, которую можно редактировать, и одним или несколькими присоединенными файлами

В системе крайне удобно присваивать имена сохраненным HTML-документам (головная боль в Windows Explorer) - достаточно выделить кусочек текста в окне просмотра документа и выбрать команду на переименование в контекстном меню. Такую возможность можно еще встретить только в продукте Ultra Recall. Отнесение к категории тоже происходит с помощью пары щелчков мыши - отличный результат.

Варианты для сравнения

На рынке существует множество других программ, которые также можно использовать для решения поставленной задачи. Помимо перечисленных в основном тексте данной статьи нужно отметить следующие.

     AskSam. Эта система больше ориентирована на ведение разрабатываемых пользователем баз данных на основе форм, что делает ее менее привлекательной для решения поставленной нами задачи. У продукта слишком высокая цена ($395) и слишком мало функций в нужной нам области - слабый Web-клиппинг и клиппинг из не-Web-приложений; использованный в нем метод классификации не очень удобен для задач классификации текстов (хотя в принципе заложенный здесь подход логичен и правилен, но реализован он недостаточно хорошо). Есть ряд похожих программ - MDE Infohandler, eGems Gemteque Software, Personal Knowbase.

     Baltsoft General Knowledge Base. Помимо невысокой цены ($45) трудно назвать преимущества этого продукта перед другими рассмотренными выше, разве что стоит упомянуть неплохой HTML-редактор. А вот недостатки - можно. Система имеет не слишком удобный классификатор, не позволяет вести словарь ключевых слов; в ней не развиты средства сохранения, импорта, переименования документов; невозможно затянуть обратно отредактированную версию документа и т. п.

     TreePad фирмы Freebyte. Хотя формально эта система имеет множество полезных функций, для наших задач она не очень удобна. Ее интерфейс показался нам слишком захламленным.

     EverNote. Данная бесплатная программа имеет довольно хороший интерфейс сохранения из браузера и почтового клиента Outlook, а также неплохой монитор буфера обмена. Однако система слаба в классификации информации, которая скапливается на ленте, напоминающей блог.

Еще одно уникальное для подобных программ качество - это возможность просматривать сохраненные файлы во внутреннем окне системы. Другие продукты, как правило, заставляют пользователя запускать соответствующий типу такого файла внешний редактор или вьюер.

Система имеет и некоторые средства для реферирования не-HTML-документов. Ее можно минимизировать в системный лоток панели задач Windows, и открыв оттуда диалог создания новой заметки, вставить в эту заметку данные, скопированные из буфера.

Слабое место Web Research - средства поиска. Полнотекстовый поиск можно вести только по документам HTML и PDF, причем для последних нужно устанавливать дополнительное ПО xPDF. Файлы же MS Office поиском не охватываются. Усугубляет ситуацию то, что нет интеграции с настольными поисковыми механизмами наподобие Google Desktop. В течение полугода ожидается появление плагина для индексирования документов в Windows Desktop Search, но пока он находится в фазе бета-тестирования и нестабилен.

К недостаткам системы можно отнести и то, что офисные документы, сохраненные в ней, нельзя выписывать для редактирования. А часто это требуется.

Есть недостатки и технические. Web Research устанавливает предельный размер одной базы в 2 Гб - это по современным меркам мало. И хотя документы можно легко перемещать между базами и разрешается работать с несколькими базами одновременно, до такого порога добраться очень легко.

Подводя итог, можно сказать, что Web Research - почти идеальная программа в части захвата интернет-данных, особенно учитывая ее цену ($45 плюс $17 за плагин для Outlook и $8 за плагин для массового поиска и замены в документах). Но она менее привлекательна, когда нужно работать с документами других форматов или требуется сложная классификация данных. Низкая степень настраиваемости пользовательского интерфейса (размеров шрифтов, в частности) также может затруднить использование данной программы на определенных рабочих местах. Кроме того. в ней отсутствуют какие бы то ни было возможности для работы со структурированными данными.

Ultra Recall Professional 3.0

Продукт фирмы Kinook предназначен для решения широкого спектра задач, поскольку позволяет хранить как неструктурированную, так и структурированную информацию. В частности, он дает возможность проектировать небольшие учетные формы для ведения карточек контактов, задач и т. п.

Основная метафора, лежащая в основе продукта, - это классификатор на основе "дерева элементов". Каждый его узел (элемент) имеет название, набор атрибутов, сопроводительный комментарий, небольшую текстовую заметку, а также какой-то один присоединенный документ (файл HTML, PDF и т. п. или редактируемую в системе RTF-записку). У элемента могут быть другие, подчиненные ему элементы.

Систему отличает полнота функционала в области классификации данных, навигации по ним и поиска. Например, разрешено включать в раздел классификатора ссылки на другие элементы, благодаря чему один документ можно поместить сразу в несколько разделов.

В продукте есть много позитивных качеств. Например, полнотекстовый поиск не ограничивается страницами HTML, а включает также файлы PDF и офисных приложений. В этом смысле Ultra Recall гораздо более продвинут, нежели Web Research.

Также полезно, что сохраненные офисные документы можно открывать на редактирование, и изменения в них будут автоматически зафиксированы. Этот функционал, ставший стандартным для систем документооборота, пока еще не стал типовым для систем управления знаниями начального уровня.

В системе широко используется механизм drag-and-drop, в частности для импорта файлов. Возможно даже создать иерархию документов в соответствии с иерархией папок в файловой системе - это удобно при импорте большого массива документов, но редко каким ПО поддерживается.

Другой плюс - система минимизируется в иконку в правом углу панели задач Windows, и тогда пользователю доступна операция быстрой вставки того текста, что скопирован в буфер обмена, в виде заметки. Такую же операцию можно "навесить" на комбинацию "горячих" клавиш. В заметку копируется не только текст, но и картинки, чего, например, не может сделать Web Research. Также важно, что переключения окон при создании заметки не происходит, поэтому время, затрачиваемое пользователем на реферирование не-HTML-документов, в значительной степени экономится. Сохраненные таким образом текстовые вырезки можно потом объединить (при экспорте из системы) в один файл - тоже редкая, но полезная функция.

Важным преимуществом в некоторых ситуациях является многооконность приложения. Например, ее можно использовать для включения ссылок на документы в текст хранимых записок, создавая тем самым гипертекстовую связанность между ними. Делается это посредством операции drag-and-drop.

Из недостатков можно выделить не до конца отлаженную функцию захвата Web-страниц и их частей. Хотя продукт интегрируется с Firefox и Internet Explorer, сложные страницы могут сохраняться с ошибками, а иногда и вообще теряться. Особенно эти проблемы характерны для интеграции с Firefox, где используется плагин Launchy, разработанный третьей стороной. В частности, в Firefox невозможно сохранить вырезку из страницы - сохраняется только вся страница целиком.

Рейтинг систем по реализованной функциональности

Другой недостаток, по сравнению с Web Research, - невозможность редактировать сохраненные Web-страницы. Также слабо проработан механизм ключевых слов. Хотя формально их поддержка присутствует, использовать их неудобно.

Снижает привлекательность продукта отсутствие интеграции с Google Desktop и Windows Desktop Search, а также тяжеловатый дизайн интерфейса пользователя и высокая цена за профессиональную версию ($99), из функций которой действительно нужны не более двух сверх тех, что есть в стандартной версии ценой $49.

Подводя итог, можно сказать, что Ultra Recall Professional оказался лидером по общему функционалу среди рассмотренных продуктов. При этом данная программа обладает и массой других полезных функций. Вместе с тем в ней есть ряд недоработок.

MyBase 5.3

Один из старожилов рынка персональных классификаторов информации, производимый компанией WJJSOFT, также хорошо зарекомендовал себя в наших тестах.

В системе принята метафора классификатора, аналогичная той, что использована в Ultra Recall, но несколько отличная от нее. Все документы объединяются в иерархию. Документ характеризуется запиской, которую можно редактировать, и одним или несколькими присоединенными файлами (приложениями - например, Web-страницей, PDF-файлом и пр.). Отличие же метафоры MyBase от метафоры Ultra Recall состоит в том, что такие файлы не включаются системой в классификатор, а показываются в отдельном окне.

MyBase схож с Ultra Recall еще и тем, что на документ классификатора можно делать символьные ссылки, которые выглядят как дубликат документа. Эти ссылки разрешается размещать в качестве подчиненных элементов других документов, т. е. запись может как бы находиться в нескольких местах классификатора одновременно. Применяется и другая технология - для "смыслового" связывания документов. "Смысловые" связи выводятся в отдельном окне, и по ним даже возможна навигация наподобие гипертекстовой.

Программа обладает и множеством других позитивных качеств, которых нет в конкурирующих продуктах, - например, средствами экспорта информации в виде HTML-дерева, поиска по вложениям, обратного захвата отредактированных версий файлов. Уникальным на сегодня качеством является интеграция с Google Desktop.

Крайне полезен монитор буфера обмена, позволяющий автоматически (почти без вмешательства пользователя) создавать из скопированных данных новые заметки или добавлять эти данные в конец какой-то старой заметки. Он очень упрощает рецензирование не-HTML-страниц. При этом монитор позволяет вставлять достаточно сложные фрагменты, включающие, например, картинки.

Есть у программы и недостатки. В частности, недоработан захват документов из Интернета. Программа иногда сохраняет страницы с ошибками (в том числе в кодировке), в сохраненные заметки проникает паразитное окружение текста (особенно при работе с Firefox), невозможно сохранить из браузера приcоединенные к Web-странице файлы.

Неудобно также то, что в систему нельзя отбуксировать мышью папку с документами, хотя и можно перетащить группы файлов. При буксировке мышью HTML-файла вместе с ним не затягиваются картинки из каталога _files.

Ряду пользователей не понравится и отсутствие поддержки ключевых слов. Это затрудняет поиск.

С технической точки зрения нехорошо, что, как и в Web Research, здесь есть ограничение на размер базы - 2 Гб. Также создает угрозу потери данных то, что опция автосохранения по умолчанию отключена.

Вместе с тем эта система временами кажется более эргономичной, чем Ultra Recall, и может рассматриваться как инструмент для построения базы классифицированной информации, особенно если не требуется работа с формами. Цена продукта также ниже, чем у Ultra Recall (с учетом совершенно необходимых плагинов она составляет $79).

Основные выводы

Подводя итоги нашего анализа, следует констатировать, что идеальной системы нет. Все три основных лидера имеют заметные недостатки: Web Research в области поиска и реферирования офисных документов, а Ultra Recall и MyBase чаще ошибаются при сохранении HTML-документов и не "любят" ключевые слова. Если приоритетом является работа с Интернетом, то предпочтительнее выглядит Web Research, но если в системе будет храниться много файлов иной природы, по которым требуется часто вести поиск, или же есть необходимость размещать документ одновременно во многих папках, то два других варианта становятся более интересными.    

Мнение CIO

     Павел Алферов, заместитель директора по ИТ консорциума "Альфа-Групп"

Хотя во множестве выступлений и cтатей немало говорится о начале эпохи "экономики знаний", нам в своей работе пришлось столкнуться с отсутствием эффективного инструментария для управления знаниями в рамках небольших рабочих групп. В корпоративном мире происходит массированное внедрение больших и сложных систем: ERP, BI, CRM и т. д. С каждым годом подобных аббревиатур становится все больше. И несмотря на то что эффективность этих продуктов, как инструментов эффективного управления знаниями, часто вызывает сомнения, подобные средства в них все же имеются.

В то же время офисный работник или небольшая исследовательская группа (в английском языке для них есть специальный термин - "think tank") до сих пор работают с примерно такими же инструментами, что и десять лет назад: файловое хранилище, текстовый редактор, электронная таблица, средство создания презентаций.

Сильно "продвинутые" используют Google Desktop Search или Microsoft Desktop Search, а "мегамыслители" еще и продукты "для мозгового штурма" наподобие MindManager. Но это фактически и все. Доля других продуктов пренебрежимо мала: Wiki и Windows Sharepoint Portal для таких команд пока не очень удобны, а промышленные системы слишком дороги.

Таким образом, поиск инструмента, который позволяет легко и с минимальным напряжением упорядочивать большие объемы статей, документов, Web-страниц и другой слабо структурированной информации, - задача достаточно актуальная.

Ultra Recall будет фаворитом, если потребуется хранить еще и информацию, вносимую через формы, например, в процессе подборки документов по проекту, в которую включаются не только тексты, но и учетные карточки задач, контактов и т. п.

Еще раз подчеркнем, что все рассмотренные продукты предназначены исключительно для индивидуальной работы или использования в небольших рабочих группах. Поэтому они не являются прямыми конкурентами системам управления документами (DMS). Хотя инструменты DMS также предоставляют средства атрибутирования и классификации информации, они обычно существенно более дороги, сложнее устанавливаются и ориентированы на задачи управления, в частности, не имеют развитых средств Web-клиппинга.

С автором, директором по исследованиям и консалтингу проекта КОННАСИ, можно связаться по адресу: vlad.borkus@konnasi.ru.