Создаем правильную карту сайта sitemap.xml для индексации поисковым роботом
Нужно пересобрать или перегенерировать файл карты сайта (sitemap.xml), так, как текущая версия структуры файла неверная в ней присутствует большое количество страниц,, которые в принципе не нужны для карты сайта (sitemap.xml). Страницы, не имеющие ценности в SEO—продвижении интернет—магазина, а в некоторых случаях, несут вред.
Страницы, которые нужно исключить из файла (sitemap.xml) и никогда не добавлять:
<!--[if !supportLineBreakNewLine]-->
- Служебные страницы — это страницы, которые не предназначены для показа пользователям и используются для внутренних нужд сайта. Примерами таких страниц могут быть страницы авторизации, страницы управления контентом и страницы настроек сайта. Такие страницы не должны быть включены в карту сайта, так как они не несут информационной ценности для пользователей.
- Технические страницы — это страницы, которые могут быть созданы для тестирования или отладки сайта. Такие страницы не должны быть включены в карту сайта, так как они не несут информационной ценности для пользователей и могут создавать путаницу в индексировании сайта поисковыми системами.
- Канонические страницы — это страницы, которые устанавливают каноническую ссылку на страницу, которая может иметь несколько версий URL—адреса. Канонические страницы могут быть включены в карту сайта, так как они являются важным инструментом для установления правильного URL—адреса страницы в поисковых системах и предотвращения дублирования контента. Однако, если на сайте не имеется страниц с дублирующимся контентом, то включать канонические страницы в карту сайта не обязательно. То—есть, URL адреса страниц на которых есть одна каноническая версия страницы не должны быть в файле sitemap.xml, лишь одна каноническая ссылка добавляется в файл.
- Страницы с переадресацией — это тип страниц, которые имеют переадресацию на другую страницу сайта при переходе. Причины 301 редиректа, могут быть разные, такие как: была допущена ошибка в URL страницы, страница была удалена, страница с возможным дублированием контента другой страницы.
- Дублирующиеся страницы — это страницы, которые имеют одинаковый контент, но разные URL—адреса. Они могут возникать в интернет—магазинах, если товары имеют несколько категорий или подкатегорий. Дублирующиеся страницы могут ухудшить SEO—рейтинг, поэтому их следует исключать из карты сайта.
- Страницы с низким качеством контента — это страницы, которые содержат мало информации, никакой уникальной информации или информацию, которая не относится к продуктам или услугам интернет—магазина. Такие страницы могут ухудшить SEO—рейтинг магазина, поэтому их следует исключать из карты сайта.
- Временные страницы — это страницы, которые создаются временно, например, страницы для специальных предложений, распродаж или временно недоступные страницы. Такие страницы следует исключать из карты сайта, чтобы избежать ошибок при индексации поисковыми системами.
- Страницы администратора — это страницы, на которые имеет доступ только администратор интернет—магазина. Такие страницы не должны быть включены в карту сайта.
- Страницы, содержащие конфиденциальную информацию — это страницы, которые содержат личную информацию клиентов, такую как их адреса электронной почты, номера телефонов, адреса и т.д. Такие страницы должны быть защищены паролем и не должны быть включены в карту сайта.
- Страницы с отсутствующим контентом — это страницы, которые не имеют никакого содержимого. Например, это могут быть страницы с ошибками 404 или страницы, которые еще не были созданы. Такие страницы не должны быть включены в карту сайта.
- Страницы с низким показателем отказов — это страницы, на которых пользователи часто покидают сайт. Если у страницы высокий показатель отказов, то это может указывать на низкое качество контента, неудобный дизайн или другие проблемы. Такие страницы не должны быть включены в карту сайта.
- Страницы с плохими ссылками — это страницы, на которые указывают битые ссылки или ссылки с низким качеством. Эти ссылки могут ухудшить SEO—рейтинг всего сайта. Такие страницы не должны быть включены в карту сайта.
- Страницы с плохой скоростью загрузки — это страницы, которые загружаются очень медленно. Если страницы имеют плохую скорость загрузки, то это может отталкивать пользователей и ухудшать SEO—рейтинг магазина. Такие страницы не должны быть включены в карту сайта.
- Страницы с динамическим содержимым — это страницы, которые создаются динамически, в зависимости от пользовательских действий. Такие страницы могут иметь различный URL—адрес в зависимости от пользовательского поведения и не должны быть включены в карту сайта.
- Страницы с низкой уникальностью контента — это страницы, которые имеют мало уникального контента и похожи на другие страницы на сайте. Такие страницы могут ухудшить SEO—рейтинг магазина и не должны быть включены в карту сайта.
Для примера, разберем несколько типов страниц.
Служебные страницы
Страницы, которые не предназначены для показа пользователям и используются для внутренних нужд сайта. Примерами таких страниц могут быть страницы авторизации, страницы управления контентом и страницы настроек сайта. Такие страницы не должны быть включены в карту сайта, так как они не несут информационной ценности для пользователей.
<!--[if !supportLineBreakNewLine]-->
- Страница авторизации в учетной записи;
- Страница регистрация учетной записи;
- Страница корзины;
- Страница пожеланий (сохраненные товары);
- Страница восстановления пароля;
- Страница заказанных товаров;
- Страница редактирования профиля учетной записи.
И другие, которые не являются коммерческими или информативными страницами, несущие полезные материалы, например: блог, статьи, инструкции ...
Технические страницы
Страницы, которые могут быть созданы для тестирования или отладки сайта. Такие страницы не должны быть включены в карту сайта, так как они не несут информационной ценности для пользователей и могут создавать путаницу в индексировании сайта поисковыми системами.
<!--[if !supportLineBreakNewLine]-->
- Страница о доставке и оплате;
- Страница о возврате товара;
- Страница о пунктах самовывоза;
- Страница о контактах (если на странице только контакты компании и нет другого контента);
- Страница о гарантии низкой цены и другие.
И другие, которые не являются коммерческими или информативными страницами, несущие полезные материалы, например: блог, статьи, инструкции ...
Как должен выглядеть правильный sitemap.xml?
Структура файла карты сайта (sitemap.xml) должна быть разбита на логические подкаталоги, для распределения страниц сайта по типам, а также, если сайт имеет мультиязычность, то и альтернативные языковые версии страниц. В этом случае, все страницы должны быть перелинкованны между собой.
Если сайт мультиязычный, то в файле sitemap.xml должна быть представлена структура страниц для каждого языка отдельно. То есть, для каждой версии сайта должна быть создана отдельная карта сайта.
Каждая карта сайта должна содержать только страницы на соответствующем языке. Для каждой версии карта сайта должна иметь свой уникальный URL-адрес, который должен быть указан в файле robots.txt.
Кроме того, для каждой страницы должны быть указаны теги <link rel="alternate" hreflang="xx" href="URL">, где "xx" - это код языка страницы, пример: ru-UA - русская версия для Украины, uk-UA - украинская версия для Украины, а "URL" - это URL-адрес страницы на соответствующем языке. Такие теги позволяют поисковым системам понимать, что на сайте есть версии страниц на разных языках, и помогают правильно отображать страницы в результатах поиска для соответствующих языковых запросов.
Вот пример реализации:
Украинская версия страниц в карте сайта
<!--[if !supportLineBreakNewLine]-->
- sitemap_ua.xml
- home_ua.xml — файл содержащий URL на главную страницу
- product_ua.xml — файл содержащий URL на страницы товаров
- category_ua.xml — файл содержащий список URL на основные категории сайта
- subcategory_ua.xml — файл содержащий список URL на подкатегории основных категорий сайта
- article_ua.xml — файл содержащий список URL статей, новостей и другие информационные страницы
- brands_ua.xml — файл содержащий URL на страницы брендов товаров
- custom_pages.xml — файл содержащий URL на кастомные, специально созданные страницы не входящие в общую иерархию сайта
- filter_pages_ua.xml — файл, который имеет URL страниц фильтрации товаров, но добавление такого файла в карту сайта, требуется производить только тогда, когда есть сформированный SEO-адрес страницы фильтра, а сама страница оптимизирована для индексации. В другом случае, запрещается вносить страницы фильтрации в файл карты сайта. Это касается и страниц сортировки и других страниц с динамическим контентом.
Русскоязычная версия страниц в карте сайта
<!--[if !supportLineBreakNewLine]-->
- sitemap_ru.xml
- home_ru.xml — файл содержащий URL на главную страницу
- product_ru.xml — файл содержащий URL на страницы товаров
- category_ru.xml — файл содержащий список URL на основные категории сайта
- subcategory_ru.xml — файл содержащий список URL на подкатегории основных категорий сайта
- article_ru.xml — файл содержащий список URL статей, новостей и другие информационные страницы
- brands_ru.xml — файл содержащий URL на страницы брендов товаров
- custom_pages_ru.xml — файл содержащий URL на кастомные, специально созданные страницы не входящие в общую иерархию сайта
- filter_pages_ru.xml — файл, который имеет URL страниц фильтрации товаров, но добавление такого файла в карту сайта, требуется производить только тогда, когда есть сформированный SEO-адрес страницы фильтра, а сама страница оптимизирована для индексации. В другом случае, запрещается вносить страницы фильтрации в файл карты сайта. Это касается и страниц сортировки и других страниц с динамическим контентом.
Дополнительное указание мультиязычности страниц сайта
Для корректной работы мультиязычности вашего сайта и четкого понимания поисковыми роботами того, что у вас действительно есть разные версии языка, а не контент кое-как изменен, но может считаться дубликатом, нужно произвести несколько действий:
Установить Hreflang-атрибуты:
<!--[if !supportLineBreakNewLine]-->
- В секцию <head> для всех веб-страниц вашего сайта;
- В файл карты сайта sitemap.xml.
Дополнительные теги:
<!--[if !supportLineBreakNewLine]-->
- <meta name="robots" content="index, follow" /> — данный тег означает, что поисковому роботу, разрешено индексировать страницу и переходить по всем ссылкам ведущим с этой страницы
- <meta name="googlebot" content="noarchive" /> — этот тег, дает сигнал поисковому роботу Googlebot, что ему запрещено кешировать страницу и создавать архивную версию текущей страницы.
Распространенные ошибки
Среди наиболее частых ошибок можно выделить следующее:
<!--[if !supportLineBreakNewLine]-->
- Дубли и частичные дубли в мета-тегах во всех языковых версиях — При адаптации страниц сайта для регионов никогда не забывайте про мета-теги. Это самая частая ошибка – непереведенные title и description.
- Отсутствует мультиязычный файл карты сайта sitemap.xml — Также частая ошибка среди вебмастеров, если в файле sitemap есть URL только одной языковой версии. Необходимо при создании карты сайта ознакомиться с рекомендациями Google для мультиязычных сайтов по созданию карты sitemap.xml
- Отсутствуют обратные атрибуты hreflang — Если в одной версии веб-сайта «1» есть ссылка на альтернативную «2», то и в последней должна быть ссылка на первую. В ином случае поисковый робот может воспринять страницы, как полные или частичные дубли, или атрибуты будут неправильно определены.
- Ошибки языкового кода — Корректные форматы мы описывали выше.
Настройка языковых версий карты сайта
Принцип перелинковки языковых версий страниц в файле карты сайта sitemap.xml заключается в указании соответствующих ссылок на альтернативные версии страниц на других языках.
Для каждой страницы сайта в файле карты сайта должны быть указаны все ее доступные версии на разных языках с помощью тега <xhtml:link rel="alternate" hreflang="xx" href="URL" />, где:
<!--[if !supportLineBreakNewLine]-->
- "xx-XX" — это код языка страницы и страны (например, "uk-UA" для украинского языка в Украине и "ru-UA" для русского языка в Украине);
- "URL" — это URL-адрес страницы на соответствующем языке.
Допустим, наш интернет-магазин работает на территории Украины и имеет 2 языковые версии, а стандартная версия языка страницы на украинском. То-есть, когда вы заходите на сайт, а вам показывается контент на украинском языке, а второй доступный для перевода контента язык будет русским.
Пример тега для страницы на украинском языке:
<xhtml:link rel="alternate" hreflang="uk-UA" href="https://example.com/page1" />
Пример тега для страницы на русском языке:
<xhtml:link rel="alternate" hreflang="ru-UA" href="https://example.com/ru/page1" />
Таким образом, каждая страница сайта будет иметь ссылки на все доступные версии страниц на других языках. Это позволит поисковым системам правильно индексировать все версии страниц и отображать соответствующие версии в результатах поиска для пользователей, которые используют разные языки для поисковых запросов.
Настройка Robots.txt: Файл с набором правил для поисковых роботов
Отличная статья по настройке правил и дополнительных параметров здесь и здесь , статьи которые помогут исправить популярные ошибки веб-мастеров.