“Яндекс” совершенствует поисковый механизм

23 мая компания “Яндекс” (www.yandex.ru) запустила новую версию поисковой системы, в которой существенно повысилась точность поиска и улучшилась обработка запросов на естественном языке.

Необходимость ее внедрения вызвана тем, что размер индексной базы в “Яндексе” увеличился до нескольких десятков миллионов документов и остро встала проблема создания эффективного механизма выбора из этого массива наиболее релевантной для пользователя информации. Теперь уже недостаточно найти “все”, нужно еще найти и “самое главное”.

Новая версия поиска максимально использует дополнительную информацию, извлекаемую из самой гипертекстовой природы Интернета. А именно, теперь при каждом поиске и для каждой найденной страницы анализируется, кто, как часто и какими словами на нее ссылается. Иначе говоря, строя выборку, машина анализирует названия ссылок в HTML-тегах типа <A>. Этот механизм позволяет выделять самые цитируемые документы по данной теме и подавлять информационный шум. В частности, он даст возможность бороться со спэмом - попытками любой ценой оказаться на самом верху поисковой выдачи по популярным словам. Хотя на этом пути встают и другие проблемы, например, взаимное цитирование сайтов для повышения популярности каждого из них. Средства борьбы с этим явлением планируется встроить в машину в течение этого года.

Разработчики также научили систему “Яндекс” работать с запросами в вопросительной форме, а также расширили механизм выдачи рекомендаций. Теперь “Яндекс” обнаруживает и предлагает исправить опечатки и ошибки набора (в том числе при наборе запроса в неверном языковом регистре), дает советы по целенаправленному поиску товаров или изображений. Так, для запроса “купить акваланг” будет предложено сначала уточнить, что именно хочет клиент - купить акваланг себе или, наоборот, найти того, кто захочет его купить, а потом ограничить область поиска Интернет-магазинами или сайтами объявлений.

Помимо этого новый поиск оптимизирован и ускорен - например, часть кода переписана с языка “Си” на Ассемблер. Изменения внесены и в дизайн. Он стал легче, появилась возможность пересылки страниц в сжатом виде. Все это должно ускорить отображение страниц в браузерах пользователей.