Как создавать и отправлять файлы Sitemap. Файлы Sitemap Что такое файл sitemap

Viber OUT 02.07.2020
Viber OUT

Использование протокола Sitemap не гарантирует полной индексации сайта, но позволяет роботам произвести более тщательное сканирование. Его версию 1.0 поддерживают Google, Yandex, Yahoo!, Bing и Ask.com.

Файл Sitemap полезен для эффективной раскрутки сайта, если ресурс:

  • содержит страницы с изображениями или мультимедийным AJAX-контентом, которые не могут быть обнаруженны поисковыми роботами при сканировании, динамическую составляющую или большой архив документов, не перелинкованных между собой;
  • создан недавно и не имеет достаточной внешней ссылочной массы.
Местоположение

Файл Sitemap располагают в корневой директории сервера (например, http://site.ru/sitemap.xml). Все перечисленные ссылки должны принадлежать тому же доменному имени, что и файл, указывать на находящиеся в том же разделе или подразделах страницы и использовать тот же протокол, по которому доступен Sitemap.

Формат

В файле Sitemap необходимо использование кодировки UTF-8, маскирование символов ‘ “ > < и &. Формат протокола состоит из XML-тегов.

Обязательные теги:

  • urlset указывает стандарт протокола и инкапсулирует файл. Открывающий необходим в начале документа, закрывающий — в конце,
  • url - родительский тег для каждого URL,
  • loc - URL-адрес веб-страницы, начинается с префикса и заканчивается символом /. Его длина ограничивается 2048 символами.

Необязательные теги:

  • lastmod - дата последнего изменения в формате W3C Datetime, позволяющем опустить сегмент времени и при необходимости использовать вид ГГГГ-ММ-ДД.
  • changefreq - предполагаемая частота обновлений данной страницы. Допустимы значения always (для описания документов, изменяющихся при каждом доступе к ним), hourly, daily, weekly, monthly, yearly и never (для архивных адресов).
  • priority - приоритетность данного URL-адреса относительно других на ресурсе. Позволяет выделить страницы с наиболее важными для поисковой оптимизации сайта запросами. Стандартный диапазон значений от 0 до 1 (по умолчанию 0.5).

Количество адресов в файле Sitemap не должно превышать 50 000, максимальный размер - 10 МБ. Допускается сжимать файл архиватором gzip для уменьшения требований к пропускной способности канала. При необходимости описания более 50 000 адресов создают несколько файлов Sitemap.

Файл sitemap.xml - это инструмент, который позволяет вебмастерам информировать поисковые системы о страницах сайта, доступных к индексации. Также, в XML карте можно указывать дополнительные параметры страниц: дата последнего обновления, частота обновлений и приоритет относительно других страниц. Информация в sitemap.xml может влиять на поведение поискового краулера и, в целом, на процесс индексации новых документов. Sitemap содержит в себе директивы включения страниц в очередь на обход и дополняет robots.txt, содержащий директивы исключения страниц.

В этом руководстве вы найдете ответы на все вопросы, касающиеся использования sitemap.xml.

Нужен ли мне sitemap.xml

Поисковые системы используют sitemap для поиска новых документов на сайте (это могут быть html-документы или медиа-контент), которые недоступны через навигацию, но их необходимо просканировать. Наличие ссылки на документ в sitemap.xml не гарантирует его сканирование или индексацию, но чаще всего файл помогает большим сайтам индексироваться лучше. К тому же, данные из XML карты используются при определении канонических страниц, если это специально не указано в теге rel=canonical.

Sitemap.xml важен для сайтов, где:

  • Некоторые разделы недоступны через навигационное меню.
  • Имеется множество изолированных страниц или плохо связанных между собой.
  • Используются технологии, слабо поддерживаемые поисковыми системами (например, Ajax, Flash или Silverlight).
  • Присутствует очень много страниц и есть вероятность, что поисковый краулер пропустит новый контент.

Если это не ваши случаи, то скорей всего sitemap.xml вам не нужен. Для сайтов, где каждая важная для индексации страница доступна в пределах 2х кликов, где для отображения контента не используются технологии JavaScript или Flash, где при необходимости используются канонические и региональные теги, и свежий контент появляется не чаще, чем на сайт заходит робот, в файле sitemap.xml нет необходимости.

Для небольших проектов при наличии проблемы лишь большого уровня вложенности документов, ее легко решить с помощью HTML карты сайта, не прибегая к использованию XML карты. Но если вы решили, что sitemap.xml вам все-таки нужен, то прочитайте это руководство полностью.

Техническая информация

  • Sitemap.xml является текстовым файлом формата XML . Однако, поисковые системы также поддерживают текстовый формат (см. следующий раздел).
  • Каждый сайтмап может содержать максимум 50 000 адресов и весить не более 50Мб (10Мб для Яндекса).
  • Можно использовать gzip-сжатие для уменьшения размера файла sitemap.xml и увеличения скорости его передачи. В таком случае используйте расширение gz (sitemap.xml.gz). При этом, ограничения по весу остаются для несжатых сайтмапов.
  • Местоположение файла Sitemap определяет набор URL-адресов, которые можно включить в этот Sitemap. Карта, содержащая адреса страниц всего сайта, должна располагаться в корне. Если сайтмап располагается в папке, то и все URL в этом сайтмапе должны располагаться в этой папке или глубже ().
  • Адреса в sitemap.xml должны быть абсолютными.
  • Максимальная длина URL - 2048 символов (1024 символа для Яндекса).
  • Спецсимволы в URL (типа амперсанда "&" или кавычек) должны маскироваться в HTML-сущности.
  • Указанные в карте страницы должны отдавать 200 http-код статуса.
  • Перечисленные в карте адреса не должны быть закрыты в файле robots.txt или в meta-robots.
  • Sitemap не должен быть закрыт в robots.txt, иначе поисковая система его не просканирует. Сам файл может находиться в индексе, это нормально.

Форматы XML карт

Поисковые системы поддерживают простой текстовый формат карты сайта, где просто списком перечислены URL-адреса страниц без дополнительных параметров. В таком случае файл должен иметь кодировку UTF-8 и иметь расширение .txt .

Также поисковиками поддерживается стандартный XML-протокол . Google дополнительно поддерживает сайтмапы для изображений, видео и новостей.

Пример файла Sitemap, содержащий только один адрес.

https://сайт/ 2018-06-14 daily 0.9

XML-теги
urlset
url (обязательный) - родительский тег для каждого URL-адреса.
loc (обязательный) - URL-адрес документа, должен быть абсолютным.
lastmod - дата последнего изменения документа в формате Datetime .
changefreq - частота изменения страницы (always, hourly, daily, weekly, monthly, yearly, never). Значение этого тега является рекомендацией поисковым системам, а не командой.
priority - приоритетность URL относительно других адресов (от 0 до 1) для очередности сканирования. Если не указывается, то по умолчанию равна 0.5.

XML карта для изображений

Некоторые оптимизаторы вставляют в sitemap.xml ссылки на изображения аналогично ссылкам на html-документы. Так можно делать, но лучше для Google использовать расширение стандартного протокола и вместе с урлами отправлять дополнительную информацию об изображениях. Создавать XML карты изображений полезно, если картинки необходимо сканировать и индексировать, и при этом, они напрямую не доступны боту (например, используется JavaScript).

Пример карты сайта, содержащей одну страницу и принадлежащие ей изображения

http://example.com/primer.html http://example.com/kartinka.jpg http://example.com/photo.jpg Вид на Балаклаву Севастополь, Крым http://creativecommons.org/licenses/by-nd/3.0/legalcode

XML-теги
image:image (обязательно) - информация об одном изображении. Максимум может использоваться 1000 изображений.
image:loc (обязательно) - путь к файлу изображения. Если используется CDN, то допустимо ссылаться на другой домен, если он подтвержден в панели для вебмастеров.
image:caption - подпись к изображению (может содержаться длинный текст).
image:title - название изображение (обычно короткий текст).
image:geo_location - место съемки.
image:license - URL лицензии изображения. Используется при расширенном поиске по картинкам.

XML карта для видео

Подобно карте для изображений, Google также имеет расширение sitemap протокола для видео, где можно указывать подробную информацию о видео-контенте, влияющую на отображение в поиске по видео. Видео-сайтмап необходим, когда на сайте используются видео, которые хостятся локально, и когда индексация этих видео затруднена из-за используемых технологий. Если вы на сайте внедряете видео из YouTube, то video-sitemap здесь не нужен.

Файл Sitemap для новостей

При наличии на сайте новостного контента и участии в Google Новостях полезно использовать Sitemap для новостей, так Google будет быстрей находить ваши свежие материалы и индексировать все новостные статьи. В этом случае Sitemap должен содержать только адреса страниц, опубликованных за последние 2 дня и содержать не более 1000 урлов.

Использование нескольких карт

При необходимости можно использовать несколько карт сайтов, объединяя их в один индексный сайтмап. Несколько sitemap.xml используются в случаях, когда:

  • На сайте используется несколько движков (CMS).
  • На сайте больше 50 000 страниц.
  • Необходимо настроить удобное отслеживание ошибок в разделах.

В последнем случае каждый большой раздел сайта имеет свой sitemap.xml и все они добавляются в панель для вебмастеров, где удобно наблюдать, в каком из разделов больше всего ошибок (см. раздел поиска ошибок в карте сайта).

Если у вас 2 и более сайтмапа, их необходимо объединить в индексный сайтмап, который выглядит также как обычный (за исключением наличия тегов sitemapindex и sitemap вместо urlset и url), имеет аналогичные ограничения и может ссылаться только на обычные XML карты (не на индексные).

Пример Sitemap Index:

http://www.example.com/sitemap-blog.xml.gz 2004-10-01T18:23:17+00:00 http://www.example.com/sitemap-webinars.xml.gz 2005-01-01

sitemapindex (обязательный) - указывает стандарт текущего протокола.
sitemap (обязательный) - содержит информацию об отдельном sitemap.
loc (обязательный) - местоположение sitemap (в формате xml, txt или rss для Google).
lastmod - время изменения сайтмапа. Позволяет поисковикам быстро обнаруживать новые URL на сайтах больших размеров.

Как создать sitemap.xml

Методы создания XML Sitemap:

  • Внутренние средства CMS. Многие CMS уже поддерживают создание карты сайта. Чтобы это выяснить, почитайте документацию к вашей CMS, посмотрите пункты меню в администраторской панели или обратитесь в техподдержку движка. Загрузите на вашем сайте файл https://вашсайт.com/sitemap.xml , возможно он уже существует и динамически формируется.
  • Внешние плагины. Если в CMS нет функционала генерации карты сайта, и она поддерживает плагины, погуглите, какой из плагинов закрывает вопрос sitemap.xml для вашего движка и установите его. В некоторых случаях необходимо обратиться к программистам, чтобы они написали вам подобный плагин.
  • Отдельный скрипт на сайте. Зная протокол XML карты и технические ограничения, можно создать sitemap.xml самостоятельно, добавив скрипт генерации в CRON. Если вы не программист, используйте другие пункты этого списка.
  • Генераторы Sitemap. Существует множество генераторов sitemap.xml, которые сканируют ваш сайт и дают скачать готовую карту. Недостаток здесь в том, что при каждом обновлении сайта необходимо вручную генерировать сайтмап.
  • Парсеры. Десктопные программы, предназначенные для технического анализа сайта, обычно предоставляют возможность скачать sitemap.xml, сгенерированный на основе просканированных страниц. Работает аналогично генераторам sitemap, только запускается локально на своей машине.

Популярные онлайн-генераторы карты сайта

XML-Sitemaps.com

Позволяет получить sitemap.xml в несколько кликов. Поддерживает форматы XML, HTML, TXT и GZ. Удобно использовать для небольших сайтов (до 500 страниц).

Похожий генератор, но имеет чуть больше настроек и позволяет создать карту до 2000 страниц бесплатно.

Имеет множество настроек, позволяет импортировать URL-адреса из CSV-файла. Бесплатно сканирует до 500 урлов.

Не имеет лимитов на количество страниц для сканирования. Но для больших сайтов процесс генерации может подвисать на несколько десятков минут.

Локальные программы для генерации XML Sitemap

G-Mapper Sitemap Generator

Бесплатная десктопная версия генератора карты сайта под Windows.

Screaming Frog SEO Spider

Гибкий инструмент генерации карты сайта с множеством настроек. Удобно, если вы уже пользуетесь скримин фрогом для других SEO-задач. После сканирования сайта используйте пункт меню Sitemaps -> Create XML Sitemap.

Netpeak Spider

Менее гибкое, но тоже удобное решение для быстрой генерации sitemap.xml. После сканирования сайта необходимо использовать пункт меню Инструменты -> Генерация Sitemap.

В этом путеводителе мы рассмотрим следующие вопросы:

Что такое Sitemap ?

Это файл, который содержит в себе перечень ссылок на все важные страницы сайта. То есть, этот документ направляет поисковые системы на основной контент на сайте.

Для чего нужна карта сайта

Сайтмап нужен, если у сайта есть проблемы с индексацией, которые вызваны:
1) большим количеством страниц;
2) отсутствием ссылок (внутренних или внешних) на страницы;
3) глубокой вложенностью на сайте (запутанной структурой).

HTML vs XML-карта сайта

Карты сайта бывают следующих типов:

  • HTML;

Самое простое объяснение разницы между этими форматами в том, что XML-карта в первую очередь предназначена для поисковых систем, а HTML – для пользователей.

HTML-карта – это всего лишь общий обзор сайта, содержит только информацию и страницы, которые нужно видеть пользователям. Если вы находитесь на сайте и ищете определённый раздел, при переходе на Sitemap HTML легко его найдёте. Несмотря на то, что такой тип карт сайта ориентирован на пользователя, он также может помочь вашему ранжированию в поисковых системах. Это одно из свидетельств того, что вы заботитесь об удобстве сайта для пользователя.

При составлении HTML-карты сайта важно учитывать:

1. Структурированное содержание.

Карта сайта должна быть понятна и удобна для восприятия пользователя. Желательно, чтобы она включала в себя разделы, категории, подкатегории и т. д.

2. Анкоры ссылок.

Протокол XML-карты сайта предназначен для поисковых роботов. XML-файл содержит в себе информацию о том, когда последний раз обновлялся URL-адрес, насколько это важно и как часто происходят изменения.

Обычно Sitemap состоит из следующих XML-тегов:

Обязательные:
– определяет стандарт протокола и инкапсулирует этот файл.
– содержит в себе информацию о URL-адресе (является родительским тегом).
– содержит абсолютный URL-адрес.

Необязательные:
– указывает дату последнего изменения файла.
– указывает частоту смены файла.
– указывает на значимость документа на сайте. Диапазон значений: от 0,1 до 1,0 (по умолчанию 0,5).

Не устанавливайте для каждого URL-адреса слишком частую смену файла и максимальный приоритет. Если метки частоты и приоритета не отражают реальность, вероятнее всего, поисковые системы будут более склонны игнорировать всю карту XML.

Другие форматы Sitemap

Помимо вышеперечисленных карт сайта, поисковые системы также поддерживают следующие форматы:

Для Google:
— RSS, mRSS и Atom 1.0;
RSS / Atom фиды должны содержать последние обновления вашего сайта. Обычно они небольшие и часто обновляются (что является плюсом).
— Сайты Google.
Для сайтов, созданных на платформе Google Сайты, Sitemap создаётся автоматически, и внести какие-то изменения невозможно.

Для Google и Яндекс:
— текстовый формат (TXT).
Файл должен быть в кодировке UTF-8 и состоять только из URL-адресов.

Требования Google и Яндекса к файлам Sitemap

1. Используйте кодировку UTF-8.
2. Максимальное количество URL – 50 000.
3. Ссылки в сайтмапе должны быть на том же домене, что и файл.

4. Если файл слишком большой, разделите его на несколько и укажите их в файле индекса Sitemap.
5. Ответ сервера при обращении к файлу должен быть 200 ОК.
6. Указывайте только канонические адреса страниц (без GET-параметров и идентификаторов сессий).

1. Максимальный размер – 10 МБ.
2. Поддерживает кириллические URL.

1. Максимальный размер – 50 МБ.
2. Поддерживает только цифры и латинские буквы.

Распространённая ошибка: чтобы уменьшить требования к пропускной способности канала, используют архиватор gzip. Размер сайтмапа должен быть 50 МБ (10 МБ) до сжатия, а не после.

Совет: русские доменные имена можно преобразовать с помощью кодировки Punycode.

Как создать XML Sitemap

1. Чтобы создать карту сайта, в первую очередь нужно определить канонические адреса, которые будут добавлены в файл.

2. Определить, какой формат файла будете использовать.

3. Создать файл можно вручную или, воспользовавшись генератором Sitemap.

Google в своей справке подготовил список онлайн и десктопных, платных и бесплатных генераторов карт сайта. Ознакомиться со всем списком можно, перейдя по ссылке .

Сгенерировать Sitemap проще, чем кажется. Разберём, как сгенерировать сайтмап, на примере деcктопного приложения Majento:

1. Парсим сайт.

2. Переходим в раздел «Сайты» => «Генерировать Sitemap».

3. Сохраняем в нужном нам формате.

4. Карта сайта готова.

Из online-генераторов XML-карты сайта заслуживает внимания XML Sitemap Generator .

Расширенные возможности этого сервера позволяют установить определённые XML-теги, включить/исключить нужные документы.

Исключить ненужные страницы можно и с помощью регулярных выражений.

Google поддерживает расширенный синтаксис для изображений. Для этого вы можете создать отдельную карту сайта для изображений или добавить синтаксис в существующую. Использование расширенного синтаксиса в Sitemap предоставляет поисковой системе дополнительную информацию об изображениях на сайте. Также это может помочь Google обнаружить и проиндексировать изображения, которые он не может найти при сканировании сайта.

Как и в обычной карте сайта, есть обязательные и необязательные XML-теги.

Обязательные:
– аналогично тегу содержит в себе URL изображения и дополнительную информацию.
– URL изображения.

Необязательные:
– подпись к изображению.
– место съёмки фотографии.
– название изображения.
– URL-лицензии изображения.

Ещё один расширенный синтаксис, который поддерживает Google, – XML-карта для видео.

Плюсы добавления XML-тегов для видео:

1) даёт понять Google, какой контент на сайте;
2) даёт возможность предоставить детальное описание к файлу;
3) станет доступным для поиска в Google Видео;
4) в поисковой выдаче будет отображаться заставка видео (может повысить количество переходов из поисковой выдачи).

Карта сайта для видеофайлов состоит из следующих обязательных элементов:

– содержит URL-адрес страницы, на которой размещено видео; если на одной странице размещено более одного видео, не нужно каждый раз создавать тег , достаточно в одном теге несколько раз прописать для каждого видео на странице.
– включает в себя всю информацию о видео.
– URL к миниатюрному изображению (заставке) к видео. Рекомендованные размеры: от 160×90 пикселей до 1920×1080. Форматы изображения: .jpg, .png, or. gif
– заголовок, который должен совпадать с названием страницы, на которой отображается видео.
– описание видео. Должно соответствовать с метаописаниями страницы. Максимальное количество символов – 2048.

Заголовок и описание видео должны быть экранированы или упакованы в блок CDATA.

Со всеми XML-тегами карты сайта для видео можно ознакомиться в справке Google .

Где разместить карту сайта

Распространённые заблуждения о Sitemap

Так как у многих этот файл вызывает трудности и является «тёмным лесом», возникают определённые мифы в отношении карт сайта. Рассмотрим некоторые из них:

– «Включение URL-адреса в файл Sitemap для XML гарантирует, что он будет проиндексирован».
Нет. Важно отметить, что XML-файлы Sitemap – это только рекомендации. Карта сайта XML не гарантирует индексацию поисковыми системами страниц, указанных в файле.

– «Если я удалю URL из XML-карты, он будет удалён из индекса».
Нет. Карта сайта XML не исключает индексацию страниц, не включённых в карту сайта XML.

– «XML-файлы Sitemap трудно создавать и поддерживать»
Нет. Небольшие сайты могут легко создавать и размещать собственные XML-файлы вручную, используя приведённые выше примеры в качестве руководства по форматированию. Для более крупных сайтов и сайтов, которые изменяются чаще, плагины или модули, доступные для большинства CMS, могут автоматизировать обновление XML-файлов.

Заключение

Файл Sitemap – полезный инструмент для передачи поисковым роботам информации о структуре сайта. Используйте это руководство, чтобы понять, как работает карта сайта, как она устроена, как сгенерировать, разместить и проверить файл.

Подписаться на рассылку

Разберемся, как составить Карту сайта, из чего она состоит, какие требования к Sitemap у поисковиков. Обновленный материал.

Sitemap или Карта сайта – специально созданный файл с перечнем страниц ресурса, которые необходимо проиндексировать.


Зачем нужен файл Sitemap

Существует два вида Карты сайта, которые различаются форматами и назначением:

HTML-карта

Её составляют для пользователей, чтобы упростить им навигацию по страницам сайта. Это необязательный элемент, такую карту можно составить на большом сайте со сложной иерархией для удобства пользователей.

XML-карта

Нужна для поисковых ботов, она важна для SEO, так как помогает ботам индексировать страницы ресурса.Наличие этого файла подсказывает поисковым роботам, как именно организована структура сайта. Соответственно, Яндекс, Google, Bing и другие поисковики получают возможность более качественно индексировать проект.

В этом материале разберем создание XML-карты .

Для чего нужна Карта сайта:

  1. Ускорить процесс полной индексации .
    Поисковые роботы Google могут пропустить недавно созданные или измененные страницы, а Карта поможет в них ориентироваться.
  2. Дать дополнительную информацию.
    В Карте указывают дополнительные рекомендации для робота: делают пометки о важности страницы, частоте и дате обновления.
  3. Отобразить количество проиндексированных URL
    Сигналы из Sitemap нужны в том числе для отображения проиндексированных ссылок в Search Console.
  4. Ускорить процесс пакетной деиндексации.
    Для этого создают временный файл Sitemap, в который включают страницы для удаления. Об этом , он рекомендует обязательно указать дату последнего изменения страниц, когда им был присвоен код ошибки 404 или атрибут noindex. Так Google будет знать, что необходимо заново просканировать содержимое сайта. Через несколько месяцев эту временную карту сайта можно будет убрать.

При этом даже если Google найдет ссылку в Sitemap, но ее не будет в навигации, он не придаст ей веса и не проиндексирует. Ссылки в Карте сайта - это рекомендации, важнее всего составить грамотную , в которой поисковый робот найдет все нужные страницы.

В большинстве случаев грамотной внешней и внутренней перелинковки страниц достаточно, чтобы поисковые роботы узнали о всем содержимом сайта. Лендингам, небольшим корпоративным сайтам из пары страниц, одностраничным визиткам Карта сайта и не нужна - бот разберется в страницах без труда. Карты нужны для сайтов, которые сложно краулить, поэтому для остальных проектов ее рекомендуют создать.

Карта обязательно нужна сайтам с такими признаками:

  • Проект создан недавно, у него мало внешних ссылок. В этом случае поисковому боту сложнее найти сайт.
  • В структуре сайта много архивов веб-документов, не связанных между собой.
  • У проекта большое количество страниц, разделов и подразделов;
  • В структуре преобладают динамические страницы.
  • На сайте есть мультимедийный контент. Бот сможет получить дополнительную информацию из Sitemap для показа в результатах поиска.

Поисковые системы могут не проиндексировать все нужные страницы таких сайтов, если не предложить краулерам файл Sitemap. Разберем, как его создать.


Базовые критерии создания файла Sitemap

У поисковиков есть свои требования к составлению Карты сайта, о которых нужно помнить веб-мастеру.

Общие требования к Sitemap:

  1. Количество URL-адресов в файле Sitemap не должно превышать 50 тысяч. Если их больше, необходимо создать несколько отдельных Карт сайта, которые прописывают в файле индекса Sitemap. По , для этого достаточно создать несколько отдельных файлов Sitemap, не больше 50 тысяч ссылок каждая, а в сумме ссылок может быть больше лимита. После этого для нескольких Карт создают общий материнский файл Sitemap.
  2. Максимальный размер файла – 50 Мб. Файл можно уменьшить при помощи сжатия , но в несжатом виде он все равно должен быть меньше 50 Мб.
  3. Файл Sitemap должен находиться на том же домене, что и веб-сайт, для которого он создан.
  4. Можно использовать кодировку UTF-8, а также латинские буквы и цифры.
  5. на обращение к файлу Sitemap должен быть HTTP-статус с кодом 200 OK.
  6. URL идентификаторы сессий не должны быть в Карте сайта.
  7. Ссылки должны иметь одинаковый синтаксис.
  8. В Карте указаны только канонические URL.
  9. Карта не конфликтует с информацией в robots.txt - если в robots.txt какие-то страницы закрыты от индексации, то их не должно быть в Карте.

Некоторые веб-мастеры беспокоятся о порядке ссылок в файле, но представитель Google , что очередность не имеет значения вообще, главное - поместить в Sitemap самые важные канонические ссылки.


Допустимые форматы Карты сайта

Особое требование предъявляется к формату файла Sitemap. Карту сайта можно создать в виде XML-файла, текстового файла или посредством RSS, mRSS и Atom 1.0. Яндекс указывает, что поиск не поддерживает передачу RSS и Atom-фидов с помощью Sitemap. Если ориентируетесь на разные поисковые системы, используйте формат XML. Правила создания файла описаны в стандарте .

Служебные теги Sitemap

Обязательные теги Карты сайта:

  • - контейнер с указанием стандарта протокола;
  • - родительский тег для каждой записи URL-адреса;
  • - указание URL, начинается с префикса, к примеру, http или https.

Дополнительные теги:

  • - частота обновления веб-документа с атрибутами never, always, yearly, monthly и так далее;
  • - дата последнего обновления на странице;
  • - указание разной важности страниц ресурса от 0,1 до 1, определяет очередность обработки URL на этом сайте. Google его не поддерживает. Приоритет можно дать самым важным страницам и нет смысла указывать высокий приоритет всем ссылкам, тогда тег вообще ни на что не повлияет.

Другие языковые версии сайта указывают с помощью атрибута hreflang .

Пример Карты сайта в формате XML

Sitemap для сайт, если бы он состоял из одной страницы и содержал упомянутые теги, мог бы выглядеть так:

http://www.сайт/ 2016-03-21 daily 0.8

Как создать и где разместить файл Sitemap?

При желании составить Карту сайта можно вручную, но это слишком трудозатратно и бессмысленно - Карта сайта должна быть динамической, если вы регулярно обновляете сайт - публикуете новые записи в блоге, развиваете интернет-магазин. Лучше создавать файл Sitemap автоматически, обратившись к услугам бесплатных онлайн-сервисов и плагинов для CMS.

На этой странице сосредоточена почти вся информация, которую нужно знать о Sitemap .

Sitemap — это карта сайта, предназначенная для помощи роботам поисковых систем в индексации сайта. Имя Sitemap является стандартным, то есть принятым по умолчанию.

Sitemap обычно хранится на сервере хостинга в каталоге public_html сайта. Sitemap принято прописывать в двух последних строчках файла — там можно задать и иные имена двух файлов карты сайта, а также иное местоположение файлов, чтобы попытаться скрыть эти файлы от злоумышленных программ и людей. А наиболее популярным поисковым системам сообщать имя и координаты файлов индивидуально, посылая прочие поисковики подальше в лес.

Считаю это дешёвыми хитростями, ибо файл обязан находиться в каталоге public_html сайта. Даже если его удалить, так как он необязателен, злоумышленник, способный добраться до этого каталога, способен и подменить три файла, чтобы перенаправить посетителей сайта на любой другой сайт и его страницы. Думаю, что таким образом и атакуют порой некоторые сайты.

Sitemap моего сайта создаёт плагин Google XML Sitemaps версии 3.4 На сервере хостинга в каталоге public_html сайта хранятся два файла: Sitemap.xml и Sitemap.xml.gz , причём оба файла создаются практически одновременно.

Файл Sitemap.xml , имеющий сейчас длину 103-ри КБ, формируется вышеупомянутым плагином при изменении любой страницы сайта.

Файл Sitemap.xml.gz , имеющий длину 10-ть КБ, является вспомогательным и содержит в зашифрованном виде некую нужную роботу информацию.

07.03.14 мне удалось после поисков советов в Интернете вытянуть из Интернета расшифрованную карту моего сайта. Сегодня мне не удалось это повторить, а записать алгоритм извлечения карты вчера не догадался. Впрочем, теперь это уже неважно — чуть позже поймёте почему.

Вот начало и конец преобразованного мной вчера файла:
http://сайт/ 2014-03-07T19:23:22+00:00 daily 1.0
http://сайт/stroitelstvo/sayt/cms-wordpress 2014-03-07T19:23:22+00:00 daily 0.6
http://сайт/posadki/ogorod/pomidoryi 2014-03-07T18:06:27+00:00 daily 0.6
…… http://сайт/voprosyi/otvet-15 2013-03-19T13:25:35+00:00 daily 0.6
http://сайт/sample-page/roshhi/hvoynyie/listvennitsa 2013-03-05T13:01:35+00:00 daily 0.6
http://сайт/sample-page/roshhi/listvennyie/lipyi 2013-03-05T12:30:19+00:00 daily 0.6

В полученном файле записи, относящиеся к отдельным страницам, шли сплошняком и были лишь разделены двумя пробелами. Не поленился разделить в редакторе Notepad файл на строки и сохранил в формате TXT. Затем скопировал дважды содержимое файла в столбцы чистого листа Excel . Выяснил, что создана 591-на запись с адресами страниц сайта. Во втором столбце отсортировал записи по алфавиту.

Так как в редакторе Notepad содержится примитивная команда замены, скопировал всё содержимое преобразованного файла в Word . Затем по команде замены «Ctrl+H » заменил http на htp, а потем наоборот. В обоих случаях была сделана 591-на замена.

Таким образом, можно было не тратить время на разделение на строки, а сразу копировать в Word и делать замену, чтобы выяснить число страниц сайта, внесенных в Sitemap .

Вот начало и две строчки конца файла Sitemap.xml , скопированные с хостинга:





http://сайт/
2014-03-08T18:55:00+00:00
daily
1.0


http://сайт/stroitelstvo/sayt/sitemap
2014-03-08T18:55:00+00:00
daily
0.6


http://сайт/voprosyi/otvet-15
2013-03-19T13:25:35+00:00
daily
0.6


http://сайт/sample-page/roshhi/hvoynyie/listvennitsa
2013-03-05T13:01:35+00:00
daily
0.6

Крайняя запись относится к странице, созданной более года тому назад!

В шапке файла содержится информация о том, какими средствами был создан этот файл: версия WordPress, имя плагина и, судя по записи в шапке, имя внешнего сайта, расположенного в Германии, где находится эталон программы, создающей записи, относящиеся к страницам сайта, а также дата и время и дата создания карты сайты. Кроме того, там содержится информация, в соответствии с какими стандартами создана карта сайта.

Сами записи наверняка создаёт плагин, используя процессор ноутбука, с которого вносятся изменения в страницы сайта.

Эти записи находятся между и .

В 4-х строках содержится адрес страницы сайта, время последней модификации, рекомендуемая роботу частота просмотра страницы и рекомендуемый приоритет просмотра. Что означают присутствующие в каждой второй строке отдельной записи 6-ть символов «+00:00″ и зачем они нужны, совершенно непонятно. Думаю, это можно понять, изучив использованный стандарт записи. Но оно нам надо?

Существенно, во-первых, то, что записи отсортированы по времени создания страниц файла — это помогает роботам экономить время, не просматривая те страницы, которые не изменились со времени последней индексации.

Во-вторых, всегда можно с хостинга скопировать в Word всё содержимое длинного файла Sitemap и быстро выяснить число страниц, вписанных в карту сайта. Сделал это примерно за одну минуту — теперь есть 593-ри страницы в карте сайта, так как сегодня добавил две страницы.

В-третьих, совершенно очевидно, что файл Sitemap.xml имеет избыточную длину и что создатели стандартов предпочли почему-то создавать его в виде, понятном людям. Почему? Если интересно, ищите информацию в Интернете или спросите у корифеев, гуру и прочих знатоков.

В-четвёртых, поисковые роботы наверняка читают файл не целиком, а только до записи той страницы, которая не изменилась с прошлого посещения роботом карты сайта. И поэтому избыточность длинного файла карты сайта при нынешних процессорах для них неважна.

В-пятых, вышеупомянутый плагин прекрасно справляется с созданием карты сайта — его можно и нужно смело использовать.

В-шестых, всегда можно посмотреть в карте сайта имена старых страниц и, копируя их в адресную строку браузера, вызывать страницы на переделку. Мне это нужно сделать со многими страницами, чтобы избавить страницы от чрезмерного числа сохранённых редакций, а заодно и перепроверить их.

В-седьмых, уверен, что можно придумать ещё много полезных способов использования понятной карты сайта. По мере придумывания буду сообщать.

Приглашаю всех высказываться в



Рекомендуем почитать

Наверх