НовостиОбзорыСобытияIT@WorkРеклама
Идеи и практики автоматизации:

Блог

Как правильнее размечать сайты

Google, Microsoft Bing и Yahoo объявили в начале июня об официальном запуске ресурса Schema.org. Он представляет собой библиотеку схем семантической разметки -- шаблонов и примеров организации и структуризации html-контента в зависимости от его предназначения: музыка, фильмы, продукция, геолокация, организация, и т. д. Сайт, построенные на основе подобных схем (фактически, промышленном стандарте организации разметки) будет анализироваться движками этих компаний, как утверждается, наиболее эффективно.

[spoiler]Сегодня клиентский html-код многие сайты генерируют скриптами на основании информации из баз данных, но в процессе их представления в html-формате оригинальная структура как правило теряется, и поисковым механизмам сложно понять, где какие данные, и для чего они используются (условно говоря, хотя бы приблизительно определить смысл контента). Но от этого и зависит в существенной степени эффективность работы поисковика.
Новоявленный "консорциум" предлагает задействовать концепцию "микродата" (спецификация тегов, взятая из HTML5), которая подсказывает поисковику-индексатору смысл контента на html-страничке, дабы подобрать его под запрос пользователя можно было наиболее точно. Всему миру обещается единая схема описания смысла содержимого, которая основана на модели реального мира, сформированной на огромном опыте этих компаний по индексации Сети.

По-моему, этот проект пытается сформировать подозрительную и немного мутную альтернативу классическому подходу Семантического веба, хотя внешне все выглядит корректно и достойно: участники поясняют, что придерживаются стандарта WWW на "микродаты", и просто предлагают конкретную техническую реализацию и пресловутые лучшие практики. Интересно, что еще полгода назад Google не отрицал полезности "микродат", но и в то же время не рекомендовал пока активно их применять -- и тогда было непонятно, почему. А теперь стало ясно -- скорее всего, велись переговоры по реализации этой идеи на высшем уровне.

Минусы анонсированного подхода:
-- отсутствует продуманная технология поддержки жизненного цикла сайта, построенного с использованием рекомендованных шаблонов и "микродат";
-- весьма трудоемка переделка существующих сайтов, особенно тех, html-код которых генерируется скриптами из баз данных;
-- можно предположить, что подобными новшествами первыми воспользуются SEO-спамеры, в результате чего общая эффективность движков-грандов может не повыситься, а упасть;
-- никаким Семантическим вебом в этом проекте особо "не пахнет", он выглядит скорее как попытка чуть-чуть расширить HTML (технологию браузерного рендеринга!) более-менее гибкой системой осмысливания содержимого с помощью тегов, хотя для этого скорее предназначены XML и RDF.

Возможно, это просто политические игры, например, в попытке оказать давление на создателей HTML5 -- тут важен и показателен скорее сам факт успешных переговоров злейших конкурентов (в принципе, по довольно пустяковому, в масштабе Сети, вопросу). Дескать, видите -- если нам надо будет, мы договоримся о чем угодно и без независимых комитетов, и наплюем на все ваши стандарты.

Но, кстати, возможность того, что о чем-то подобном -- ну хотя бы немного "семантическом", договорятся друг с другом Яндекс, Рамблер и Мэйл.ру, мне почему-то кажется совсем фантастической. C другой стороны, это и хорошо -- не будут изобретать собственные "стандарты".
Афонин А.Л.
 8) Не думаю, что это получиться. "Суха теория, мой друг, а древо жизни вечно зеленет" :!: