Страница является копией канонический вариант не выбран пользователем как исправить - Исправление ошибок и поиск оптимальных решений проблем

Как проходит индексация в Google

Обнаружение

Сканирование

Индексация

Ранжирование

Как пользоваться Отчётом об индексировании в Google Search Console

Фильтры «Все обработанные страницы» vs «Все отправленные страницы»

Проверка статусов URL

Что учесть при использовании отчёта

Как часто смотреть Отчёт

Дополнительно: инструмент проверки URL

Статус «Ошибка»

Ошибка сервера (5xx)

Ошибка переадресации

Доступ к отправленному URL заблокирован в файле robots.txt

Страница, связанная с отправленным URL, содержит тег noindex

Отправленный URL возвращает ложную ошибку 404

Отправленный URL возвращает ошибку 401 (неавторизованный запрос)

Отправленный URL не найден (ошибка 404)

При отправке URL произошла ошибка 403

URL заблокирован из-за ошибки 4xx (ошибка клиента)

Статус «Без ошибок, есть предупреждения»

Проиндексировано, несмотря на блокировку в файле robots.txt

Страница проиндексирована без контента

Статус «Страница без ошибок»

Страница была отправлена в Google и проиндексирована

Страница проиндексирована, но её нет в файле Sitemap

Статус «Исключено»

Индексирование страницы запрещено тегом noindex

Индексирование страницы запрещено с помощью инструмента удаления страниц

Заблокировано в файле robots.txt

Страница не проиндексирована вследствие ошибки 401 (неавторизованный запрос)

Страница просканирована, но пока не проиндексирована

Обнаружена, не проиндексирована

Вариант страницы с тегом canonical

Страница является копией, канонический вариант не выбран пользователем

Страница является копией, канонические версии страницы, выбранные Google и пользователем, не совпадают

Не найдено (404)

Страница с переадресацией

Ложная ошибка 404

Страница является копией, отправленный URL не выбран в качестве канонического

Страница заблокирована из-за ошибки 403 (доступ запрещён)

URL заблокирован из-за ошибки 4xx (ошибка клиента)

Ключевые выводы

Подробный SEO-гайд по Отчёту об индексировании Google Search Console. Разберёмся, как проверить индексацию сайта с его помощью, как «читать» статусы URL, какие ошибки можно обнаружить и как их исправить.

Перевод с сайта onely.com.

В Отчёте вы можете получить данные о сканировании и индексации всех URL-адресов, которые Google смог обнаружить на вашем сайте. Он поможет отследить, добавлен ли сайт в индекс, и проинформирует о технических проблемах со сканированием и индексацией.

Но перед тем, как говорить об Отчёте, вспомним все этапы индексации страницы в Google.

Как проходит индексация в Google

Чтобы страница ранжировалась в поиске и показывалась пользователям, она должна быть обнаружена, просканирована и проиндексирована.

Обнаружение

Перед тем, как просканировать страницу, Google должен её обнаружить. Он может сделать это несколькими способами.

Наиболее распространённые — с помощью внутренних или внешних ссылок или через карту сайта (файл Sitemap.xml).

Сканирование

Суть сканирования состоит и том, что поисковые системы изучают страницу и анализируют её содержимое.

Главный аспект в этом вопросе — краулинговый бюджет, который представляет собой лимит времени и ресурсов, который поисковая система готова «потратить» на сканирование вашего сайта.

Что такое «краулинговый бюджет, как его проверить и оптимизировать

Индексация

В процессе индексации Google оценивает качество страницы и добавляет её в индекс — базу данных, где собраны все страницы, о которых «знает» Google.

В этот этап включается и рендеринг, который помогает Google видеть макет и содержимое страницы. Собранная информация даёт поисковой системе понимание, как показывать страницу в результатах поиска.

Даже если Google нашёл и просканировал страницу, это не означает, что она обязательно будет проиндексирована.

Но главное, что вы должны понять и запомнить: нет необходимости в том, чтобы абсолютно все страницы вашего сайты были проиндексированы. Вместо этого убедитесь, что в индекс включены все важные и полезные для пользователей страницы с качественным контентом.

Некоторые страницы могут содержать контент низкого качества или быть дублями. Если поисковые системы их увидят, это может негативно отразится на всём сайте.

Поэтому важно в процессе создания стратегии индексации решить, какие страницы должны и не должны быть проиндексированы.

Ранжирование

Только проиндексированные страницы могут появиться в результатах поиска и ранжироваться.

Google определяет, как ранжировать страницу, основываясь на множестве факторов, таких как количество и качество ссылок, скорость страницы, удобство мобильной версии, релевантность контента и др.

Теперь перейдём к Отчёту.

Как пользоваться Отчётом об индексировании в Google Search Console

Чтобы просмотреть Отчёт, авторизуйтесь в своём аккаунте Google Search Console. Затем в меню слева выберите «Покрытие» в секции «Индекс»:

Как найти Отчёт об индексировании в Google Search Console

Перед вами Отчёт. Отметив галочками любой из статусов или все сразу, вы сможете выбрать то, что хотите визуализировать на графике:

Статусы URL на странице Отчёта

Вы увидите четыре статуса URL-адресов:

Ошибка — критическая проблема сканирования или индексации.
Без ошибок, есть предупреждения — URL-адреса проиндексированы, но содержат некоторые некритичные ошибки.
Страница без ошибок — страницы проиндексированы корректно.
Исключено — страницы, которые не были проиндексированы из-за проблем (это самый важный раздел, на котором нужно сфокусироваться).

Фильтры «Все обработанные страницы» vs «Все отправленные страницы»

В верхнем углу вы можете отфильтровать, какие страницы хотите видеть:

Фильтр отображаемых страниц

«Все обработанные страницы» показываются по умолчанию. В этот фильтр включены все URL-адреса, которые Google смог обнаружить любым способом.

Фильтр «Все отправленные страницы» включает только URL-адреса, добавленные с помощью файла Sitemap.

В чём разница?

Первый обычно включает в себя больше URL-адресов и многие из них попадают в секцию «Исключено». Это происходит потому, что карта сайта включает только индексируемые URL, в то время как сайты обычно содержат множество страниц, которые не должны быть проиндексированы.

Как пример — URL с параметрами на сайтах eCommerce. Googlebot может найти их разными способами, но не в карте сайта.

Так что когда открываете Отчёт, убедитесь, что смотрите нужные данные.

Проверка статусов URL

Чтобы увидеть подробную информацию о проблемах, обнаруженных для каждого статуса, посмотрите «Сведения» под графиком:

Раздел «Сведения»

Тут показан статус, тип проблемы и количество затронутых страниц. Обратите внимание на столбец «Проверка» — после исправления ошибки, вы можете попросить Google проверить URL повторно.

Например, если кликнуть на первую строку со статусом «Предупреждение», то вверху появится кнопка «Проверить исправление»:

Проверка исправлений

Вы также можете увидеть динамику каждого статуса: увеличилось, уменьшилось или осталось на том же уровне количество URL-адресов в этом статусе.

Если в «Сведениях» кликнуть на любой статус, вы увидите количество адресов, связанных с ним. Кроме того, вы сможете посмотреть, когда каждая страница была просканирована (но помните, что эта информация может быть неактуальна из-за задержек в обновлении отчётов).

Подробная информация о сканировании в Сведениях

Что учесть при использовании отчёта

Всегда проверяйте, смотрите ли вы отчёт по всем обработанным или по всем отправленным страницам. Разница может быть очень существенной.
Отчёт может показывать изменения с задержкой. После публикации контента подождите несколько дней, пока страницы просканируются и проиндексируются.
Google пришлёт уведомления на электронную почту, если увидит какие-то критичные проблемы с сайтом.
Стремитесь к индексации канонической версии страницы, которую вы хотите показывать пользователям и поисковым ботам.
В процессе развития сайта, на нём будет появляться больше контента, так что ожидайте увеличения количества проиндексированных страниц в Отчёте.

Как часто смотреть Отчёт

Обычно достаточно делать это раз в месяц.

Но если вы внесли значимые изменения на сайте, например, изменили макет страницы, структуру URL или сделали перенос сайта, мониторьте Отчёт чаще, чтобы вовремя поймать негативное влияние изменений.

Рекомендую делать это хотя бы раз в неделю и обращать особое внимание на статус «Исключено».

Дополнительно: инструмент проверки URL

В Search Console есть ещё один инструмент, который даст ценную информацию о сканировании и индексации страниц вашего сайта — Инструмент проверки URL.

Он находится в самом верху страницы в GSC:

Инструмент проверки URL

Просто вставьте URL, который вы хотите проверить, в эту строку и увидите данные по нему. Например:

Результат проверки URL

Инструментом можно пользоваться для того, чтобы:

проверить статус индексирования URL, и обнаружить возможные проблемы;
узнать, индексируется ли URL;
просмотреть проиндексированную версию URL;
запросить индексацию, например, если страница изменилась;
посмотреть загруженные ресурсы, например, такие как JavaScript;
посмотреть, какие улучшения доступны для URL, например, реализация структурированных данных или удобство для мобильных.

Если в Отчёте об индексировании обнаружены какие-то проблемы со страницами, используйте Инструмент, чтобы тщательнее проверить их и понять, что именно нужно исправить.

Статус «Ошибка»

Под этим статусом собраны URL, которые не были проиндексированы из-за ошибок.

Если вы видите проблему с пометкой «Отправлено», то это может касаться только URL, которые были отправлены через карту сайту. Убедитесь, что в карте сайте содержатся только те страницы, которые вы действительно хотите проиндексировать.

Ошибка сервера (5xx)

Эта проблема говорит об ошибке сервера со статусом 5xx, например, 502 Bad Gateway или 503 Service Unavailable.

Советую регулярно проверять этот раздел и следить, нет ли у Googlebot проблем с индексацией страниц из-за ошибки сервера.

Что делать. Нужно связаться с вашим хостинг-провайдером, чтобы исправить эту проблему или проверить, не вызваны ли эти ошибки недавними обновлениями и изменениями на сайте.

Как исправить ошибки сервера — рекомендации Google

Ошибка переадресации

Редиректы перенаправляют поисковых ботов и пользователей со старого URL на новый. Обычно они применяются, если старый адрес изменился или страницы больше не существует.

Ошибки переадресации могут указывать на такие проблемы:

цепочка редиректов слишком длинная;
обнаружен циклический редирект — страницы переадресуют друг на друга;
редирект настроен на страницу, URL которой превышает максимальную длину;
в цепочке редиректов найден пустой или ошибочный URL.

Что делать. Проверьте и исправьте редиректы каждой затронутой страницы.

Доступ к отправленному URL заблокирован в файле robots.txt

Эти страницы есть в файле Sitemap, но заблокированы в файле robots.txt.

Robots.txt — это файл, который содержит инструкции для поисковых роботов о том, как сканировать ваш сайт. Чтобы URL был проиндексирован, Google нужно для начала его просканировать.

Что делать. Если вы видите такую ошибку, перейдите в файл robots.txt и проверьте настройку директив. Убедитесь, что страницы не закрыты через noindex.

Страница, связанная с отправленным URL, содержит тег noindex

По аналогии с предыдущей ошибкой, эта страница была отправлена на индексацию, но она содержит директиву noindex в метатеге или в заголовке ответа HTTP.

Что делать. Если страница должна быть проиндексирована, уберите noindex.

Отправленный URL возвращает ложную ошибку 404

Ложная ошибка 404 означает, что страница возвращает статус 200 OK, но её содержимое может указывать на ошибку. Например, страница пустая или содержит слишком мало контента.

Что делать. Проверьте страницы с ошибками и посмотрите, есть ли возможность изменить контент или настроить редирект.

Отправленный URL возвращает ошибку 401 (неавторизованный запрос)

Ошибка 401 Unauthorized означает, что запрос не может быть обработан, потому что необходимо залогиниться под правильными user ID и паролем.

Что делать. Googlebot не может индексировать страницы, скрытые за логинами. Или уберите необходимость авторизации или подтвердите авторизацию Googlebot, чтобы он мог получить доступ к странице.

Отправленный URL не найден (ошибка 404)

Ошибка 404 говорит о том, что запрашиваемая страница не найдена, потому что была изменена или удалена. Такие страницы есть на каждом сайте и наличие их в малом количестве обычно ни на что не влияет. Но если пользователи будут находить такие страницы, это может отразиться негативно.

Что делать. Если вы увидели эту проблему в отчёте, перейдите на затронутые страницы и проверьте, можете ли вы исправить ошибку. Например, настроить 301-й редирект на рабочую страницу.

Дополнительно убедитесь, что файл Sitemap не содержит URL, которые возвращают какой-либо другой код состояния HTTP кроме 200 OK.

При отправке URL произошла ошибка 403

Код состояния 403 Forbidden означает, что сервер понимает запрос, но отказывается авторизовывать его.

Что делать. Можно либо предоставить доступ анонимным пользователям, чтобы робот Googlebot мог получить доступ к URL, либо, если это невозможно, удалить URL из карты сайта.

URL заблокирован из-за ошибки 4xx (ошибка клиента)

Страница может быть непроиндексирована из-за других ошибок 4xx, которые не описаны выше.

Что делать. Чтобы понять, о какой именно ошибке речь, используйте Инструмент проверки URL. Если устранить ошибку невозможно, уберите URL из карты сайта.

Статус «Без ошибок, есть предупреждения»

URL без ошибок, но с предупреждениями, были проиндексированы, но могут требовать вашего внимания. Тут обычно случается две проблемы.

Проиндексировано, несмотря на блокировку в файле robots.txt

Обычно эти страницы не должны быть проиндексированы, но скорее всего Google нашёл ссылки, указывающие на них, и посчитал их важными.

Что делать. Проверьте эти страницы. Если они всё же должны быть проиндексированы, то обновите файл robots.txt, чтобы Google получил к ним доступ. Если не должны — поищите ссылки, которые на них указывают. Если вы хотите, чтобы URL были просканированы, но не проиндексированы, добавьте директиву noindex.

Страница проиндексирована без контента

URL проиндексированы, но Google не смог прочитать их контент. Это может быть из-за таких проблем:

Клоакинг — маскировка контента, когда Googlebot и пользователи видят разный контент.
Страница пустая.
Google не может отобразить страницу.
Страница в формате, который Google не может проиндексировать.

Зайдите на эти страницы сами и проверьте, виден ли на них контент. Также проверьте их через Инструмент проверки URL и посмотрите, как их видит Googlebot. После того, как устраните ошибки, или если не обнаружите каких-либо проблем, вы можете запросить у Google повторное индексирование.

Статус «Страница без ошибок»

Здесь показываются страницы, которые корректно проиндексированы. Но на эту часть Отчёта всё равно нужно обращать внимание, чтобы сюда не попали страницы, которые не должны были оказаться в индексе. Тут тоже есть два статуса.

Страница была отправлена в Google и проиндексирована

Это значит, что страницы отправлена через Sitemap и Google её проиндексировал.

Страница проиндексирована, но её нет в файле Sitemap

Это значит, что страница проиндексирована даже несмотря на то, что её нет в Sitemap. Посмотрите, как Google нашёл эту страницу, через Инструмент проверки URL.

Чаще всего страницы в этом статусе — это страницы пагинации, что нормально, учитывая, что их и не должно быть в Sitemap. Посмотрите список этих URL, вдруг какие-то из них стоит добавить в карту сайта.

Статус «Исключено»

В этом статусе находятся страницы, которые не были проиндексированы. В большинстве случаев это вызвано теми же проблемами, которые мы обсуждали выше. Единственное различие в том, что Google не считает, что исключение этих страниц вызвано какой-либо ошибкой.

Вы можете обнаружить, что многие URL здесь исключены по разумным причинам. Но регулярный просмотр Отчёта поможет убедиться, что не исключены важные страницы.

Индексирование страницы запрещено тегом noindex

Что делать. Тут то же самое — если страница и не должна быть проиндексирована, то всё в порядке. Если должна — удалите noindex.

Индексирование страницы запрещено с помощью инструмента удаления страниц

У Google есть Инструмент удаления страниц. Как правило с его помощью Google удаляет страницы из индекса не навсегда. Через 90 дней они снова могут быть проиндексированы.

Что делать. Если вы хотите заблокировать страницу насовсем, вы можете удалить её, настроит редирект, внедрить авторизацию или закрыть от индексации с помощью тега noindex.

Заблокировано в файле robots.txt

У Google есть Инструмент проверки файла robots.txt, где вы можете в этом убедиться.

Что делать. Если эти страницы и не должны быть в индексе, то всё в порядке. Если должны — обновите файл robots.txt.

Помните, что блокировка в robots.txt — не стопроцентный вариант закрыть страницу от индексации. Google может проиндексировать её, например, если найдёт ссылку на другой странице. Чтобы страница точно не была проиндексирована, используйте директиву noindex.

Подробнее о блокировке индексирования при помощи директивы noindex

Страница не проиндексирована вследствие ошибки 401 (неавторизованный запрос)

Обычно это происходит на страницах, защищённых паролем.

Что делать. Если они и не должны быть проиндексированы, то ничего делать не нужно. Если вы не хотите, чтобы Google обнаруживал эти страницы, уберите существующие внутренние и внешние ссылки на них.

Страница просканирована, но пока не проиндексирована

Это значит, что страница «ждёт» решения. Для этого может быть несколько причин. Например, с URL нет проблем и вскоре он будет проиндексирован.

Но чаще всего Google не будет торопиться с индексацией, если контент недостаточно качественный или выглядит похожим на остальные страницы сайта.

В этом случае он поставит её в очередь с низким приоритетом и сфокусируется на индексации более важных страниц. Google говорит, что отправлять такие страницы на переиндексацию не нужно.

Что делать. Для начала убедитесь, что это не ошибка. Проверьте, действительно ли URL не проиндексирован, в Инструменте проверки URL или через инструмент «Индексация» в Анализе сайта в Топвизоре. Они показывают более свежие данные, чем Отчёт.

Как исправить ошибку, когда страница просканирована, но не проиндексирована (на английском)

Обнаружена, не проиндексирована

Это значит, что Google увидел страницу, например, в карте сайта, но ещё не просканировал её. В скором времени страница может быть просканирована.

Иногда эта проблема возникает из-за проблем с краулинговым бюджетом. Google может посчитать сайт некачественным, потому что ему не хватает производительности или на нём слишком мало контента.

Что такое краулинговый бюджет и как его оптимизировать

Возможно, Google не нашёл каких-либо ссылок на эту страницу или нашёл страницы с большим ссылочным весом и посчитал их более приоритетными для сканирования.

Если на сайте есть более качественные и важные страницы, Google может игнорировать менее важные страницы месяцами или даже никогда их не просканировать.

Вариант страницы с тегом canonical

Эти URL — дубли канонической страницы, отмеченные правильным тегом, который указывает на основную страницу.

Что делать. Ничего, вы всё сделали правильно.

Страница является копией, канонический вариант не выбран пользователем

Это значит, что Google не считает эти страницы каноническими. Посмотрите через Инструмент проверки URL какую страницу он считает канонической.

Что делать. Выберите страницу, которая по вашему мнению является канонической, и разметьте дубли с помощью rel=”canonical”.

Страница является копией, канонические версии страницы, выбранные Google и пользователем, не совпадают

Вы выбрали каноническую страницу, но Google решил по-другому. Возможно, страница, которую вы выбрали, не имеет столько внутреннего ссылочного веса, как неканоническая.

Что делать. В этом случае может помочь объединение URL повторяющихся страниц.

Как правильно настроить внутренние ссылки на сайте

Не найдено (404)

URL нет в Sitemap, но Google всё равно его обнаружил. Возможно, это произошло с помощью ссылки на другом сайте или ранее страница существовала и была удалена.

Что делать. Если вы и не хотели, чтобы Google индексировал страницу, то ничего делать не нужно. Другой вариант — поставить 301-й редирект на работающую страницу.

Страница с переадресацией

Эта страница редиректит на другую страницу, поэтому не была проиндексирована. Обычно, такие страницы не требуют внимания.

Что делать. Эти страницы и не должны быть проиндексированы, так что делать ничего не нужно.

Для постоянного редиректа убедитесь, что вы настроили перенаправление на ближайшую альтернативную страницу, а не на Главную. Редирект страницы с 404 ошибкой на Главную может определять её как soft 404.

@JohnMu what does Google do when a site redirects all its 404s to the homepage? Seeing more and more sites do this and it’s such an anti-pattern.

— Joost de Valk (@jdevalk) January 7, 2019

Yeah, it’s not a great practice (confuses users), and we mostly treat them as 404s anyway (they’re soft-404s), so there’s no upside. It’s not critically broken/bad, but additional complexity for no good reason — make a better 404 page instead.

— ? John ? (@JohnMu) January 8, 2019

Ложная ошибка 404

Обычно это страницы, на которых пользователь видит сообщение «не найдено», но которые не сопровождаются кодом ошибки 404.

Что делать. Для исправления проблемы вы можете:

Добавить или улучшить контент таких страниц.
Настроить 301-й редирект на ближайшую альтернативную страницу.
Настроить сервер, чтобы он возвращал правильный код ошибки 404 или 410.

Страница является копией, отправленный URL не выбран в качестве канонического

Эти страницы есть в Sitemap, но для них не выбрана каноническая страница. Google считает их дублями и канонизировал их другими страницами, которые определил самостоятельно.

Что делать. Выберите и добавьте канонические страницы для этих URL.

Страница заблокирована из-за ошибки 403 (доступ запрещён)

Что делать. Если Google не может получить доступ к URL, лучше закрыть их от индексации с помощью метатега noindex или файла robots.txt.

URL заблокирован из-за ошибки 4xx (ошибка клиента)

Сервер столкнулся с ошибкой 4xx, которая не описана выше.

Гайд по ошибкам 4xx и способы их устранения (на английском)

Попробуйте исправить ошибки или оставьте страницы как есть.

Ключевые выводы

Проверяя данные в Отчёте помните, что не все страницы сайта должны быть просканированы и проиндексированы.
Закрыть от индексации некоторые страницы может быть так же важно, как и следить за тем, чтобы нужные страницы сайта индексировались корректно.
Отчёт об индексировании показывает как критичные ошибки, так и неважные, которые не обязательно требуют действий с вашей стороны.
Регулярно проверяйте Отчёт, но только для того, чтобы убедиться, что всё идёт по плану. Исправляйте только те ошибки, которые не соответствуют вашей стратегии индексации.

Источник

Не позволяйте своему контенту оставаться незамеченным. Узнайте о том, что попало в графу «Исключено» в Google Search Console в отчете «Покрытие» и исправьте.

Google Search Console позволяет пользователю посмотреть на свой сайт так, как его видит Google.

Вы получите информацию о производительности сайта, имеющихся брешах в безопасности; о краулинге, о том, как индексируется сайт и т.п.

Часть отчета, помеченная как «Исключено» в Google Search Console «Покрытие» предоставляет детальную информацию об индексации страниц сайта.

Узнайте, почему некоторые страницы вашего ресурса попадают в графу «Исключено» в Google Search Console и как это исправить.

Что показывает графа «Покрытие»

Отчет Google Search Console «Покрытие» показывает подробную информацию об индексации веб-страниц вашего сайта. Они могут попасть в одну из следующих четырех «корзин»:

Ошибка: Страницы, которые Google не может проиндексировать. Вы должны просмотреть этот отчет, поскольку Google считает, что вы, возможно, хотите, чтобы эти страницы были проиндексированы.
Без ошибок, есть предупреждения: Страницы, которые Google индексирует, но есть некоторые проблемы, которые вам следует устранить.
Страница без ошибок: Страницы, которые Google индексирует.
«Исключено»: Страницы, которые исключены из индекса.

Нас интересует графа «Исключено». Так что же она значит?

Дело в том, что Google не индексирует страницы, которые попали в категорию «Исключено» или «Ошибка». Но эти две категории, тем не менее, имеют существенное отличие друг от друга:

Google считает, что страницы в графе «Ошибка» должны быть проиндексированы, но сделать это, впрочем, не представляет возможным – до тех пор, пока ошибки не будут изучены лично вами. Например, неиндексируемые страницы на базе языка разметки XML попадают в категорию Ошибка.
Что касаемо «Исключено»: Google действительно убежден в том, что страницы в этой категории не должны индексироваться – вне зависимости от того, есть ли у них проблемы, которые можно решить. Они неликвидны.

Однако Google не всегда стратифицирует их правильно, и страницы, которые должны быть проиндексированы, попадают в «Исключено». Вместо «Ошибка».

К счастью, Google Search Console сообщает пользователю о причинах помещения страниц в ту или иную категорию.

Именно поэтому «благим делом» считается тщательный анализ страниц во всех четырех категориях. Но пока вернемся к страницам из категории «Исключено».

Почему страницы попадают в «Исключено»

Всего Google Search Console показывает 15 возможных причин, по которым веб-страницы попадают в группу «Исключено». Давайте рассмотрим каждую из них подробнее.

Исключено тегом noindex

Речь об URL-адресах, которые имеют тег noindex.

Google полагает, что вы на самом деле хотите исключить эти страницы из индексации в принципе, поскольку не указали их в XML sitemap. К ним, как правило, относятся: страницы для входа в личный кабинет, профиля пользователей, поисковые результаты.

Что можно сделать:

Перепроверьте эти URL-адреса еще раз, чтобы убедиться, что вы точно хотите исключить их из индексации Google.
Проверьте, присутствует ли тег noindex в этих ссылках.

Страница просканирована, но пока не проиндексирована

Google обратил внимание на страницы, но все еще не проиндексировал их.

Как говорится в пояснении от самого сервиса: «URL-адреса, находящиеся в этой категории, могут быть проиндексированы в будущем, а могут и не быть; нет необходимости повторно отправлять запрос на индексацию».

Многие SEO-специалисты неоднократно отмечали, что у сайта могут быть серьезные проблемы с качеством, если многие полезные и адекватные страницы попадают в раздел «Страница просканирована, но пока не проиндексирована».

Это может означать, что Google просмотрел эти страницы и считает, что они не представляют достаточной ценности для индексации.

Что можно сделать:

Пересмотрите свой ресурс с точки зрения качества исполнения и обратите внимание на E-A-T.

Обнаружена, не проиндексирована

Как говорится в документации Google, страница под заголовком «Обнаружена, не проиндексирована» была найдена Google, но еще не проиндексирована.

Google не стал просматривать страницу, чтобы не перегружать сервер. Большое количество страниц в этом списке может свидетельствовать о том, что у вашего сайта проблемы с краулинговым бюджетом.

Что можно сделать:

Проверьте состояние сервера.

Не найдено (404)

Это страницы, которые при запросе Google выдают ошибку 404.

Это не URL-адреса, «предоставленные лично» поисковой машине (например, файлом sitemap). Это Google самостоятельно обнаружил эти страницы (например, через другой сайт, который ссылается на уже несуществующую страницу).

Что можно сделать:

Проанализируйте эти страницы и решите, следует ли прибегать к 301 редиректу на актуальный и рабочий сайт.

Ошибка 404

Ошибка 404 – код ответа сервера, который указывает, что он (сервер) не смог найти запрошенный URL-адрес.

Также под «Ошибка 404» часто подразумевается страница, практически не содержащая никакого контента, и на которой можно найти только ходовые фразы в духе «извините», «ошибка», «не найдено» и т.д.

Что можно сделать:

Для страниц с откровенно плохим содержанием добавьте уникальный контент, чтобы Google начал распознавать этот URL обособленно.
Не забудьте выгрузить все 404 из Google Search Console.

Страница с переадресацией

Все переадресованные страницы на вашем сайте попадают в раздел «Исключено», где вы можете внимательно их изучить.

Что можно сделать:

Внимательно просмотрите все страницы, чтобы убедиться в правильности редиректа.
Некоторые плагины WordPress могут автоматически производить редирект при изменении URL – следует периодически просматривать такие страницы.

Страница является копией. Канонический вариант не выбран пользователем

Google считает, что URL-адреса с этой меткой являются дубликатами и, следовательно, не должны индексироваться.

Такое случается, если вы забыли установить атрибут тега link rel=canonical тег для нужного адреса. Google сам выбрал каноническую страницу: основываясь на других моментах.

Что можно сделать:

Проверьте эти URL-адреса, чтобы узнать, какую из страниц Google выбрал канонической.

Страница является копией. Канонические версии страницы, выбранные Google и пользователем, не совпадают

В этом случае вы указали канонический тег для страницы, но, несмотря на это, Google выбрал в качестве предпочитаемого ресурса другой сайт. Как итог: выбранный Google URL индексируется, а выбранный пользователем — нет.

Что можно сделать:

Проверьте URL-адрес, чтобы узнать, какой сайт был выбран каноническим.
Изучите все поводы, которые заставили Google выбрать неправильный канонический (например, могли повлиять внешние ссылки).

Страница является копией. Отправленный URL не выбран в качестве канонического

Разница между вышеописанным и этим статусом заключается в том, что в последнем случае URL-адрес был отправлен в Google для индексации, но при этом у него не был указан тег link rel=canonical. Это дает повод поисковой машине считать, что другой URL будет смотреться более уместно в качестве каноничного.

Как результат: индексируется адрес, выбранный Google, а не отправленный вами.

Что можно сделать:

Проверьте URL, чтобы узнать, какой канон выбрал Google.

Вариант страницы с тегом canonical

Это дубликаты страниц, которые Google распознает как канонические URL.

Что можно сделать:

В большинстве случаев вмешательство не требуется. Не переживайте.

Заблокировано в файле robots.txt

Страницы, закрытые мета-тегом robots.txt.

При анализе этого блока следует помнить, что Google все еще может индексировать такие страницы (и отображать их в урезанном, «неполноценном» виде). Но только в том случае, если поисковик Google найдет ссылку на них – например, на других сайтах.

Что можно сделать:

Проверьте, закрыты ли страницы для индексации.
Добавьте тег noindex и удалите страницы из robots.txt.

Заблокирован инструментом удаления страниц

В этом отчете перечислены страницы, удаление которых было запрошено инструментом Removal.

Следует помнить, что эта утилита удаляет страницы из результатов поиска только временно (на 90 дней) и не препятствует им индексироваться.

Что можно сделать:

Проверьте, действительно ли должны эти страницы быть удалены. Или иметь тег noindex.

Страница не проиндексирована вследствие ошибки 401

В случае с этими URL Googlebot не смог получить доступ к страницам из-за запроса на авторизацию (ошибка 401).

Если эти страницы не должны быть доступны без авторизации, вам не нужно ничего делать. Google просто информирует вас о том, с чем он столкнулся.

Что можно сделать:

Проверьте, действительно ли эти страницы должны (или не должны) требовать авторизации.

Страница заблокирована из-за ошибки 403

Эта ошибка обычно свидетельствует о том, что проблема на стороне сервера. Она появляется, когда предоставленные полученные данные не соответствуют действительности. Ее очень желательно исправить, либо и вовсе – заблокировать страницу с помощью robots.txt или noindex.

Внезапные и огромные всплески количества исключенных страниц могут указывать на серьезные проблемы сайта.

Что можно узнать о страницах из категории «Исключено»

Различные ошибки, которые выдает вам Google Search Console после проведенного аудита, могут свидетельствовать о разных вещах. Так, например:

Большое количество страниц с ошибкой 404 может указывать на неудачную миграцию: когда URL-адреса были изменены, но перелинковка не реализована (или реализована крайне неудачно).
Большое количество страниц с пометкой «Страница просканирована, но пока не проиндексирована» или «Обнаружена, не проиндексирована» может указывать на то, что ваш ресурс был взломан. Обязательно просмотрите все ваши страницы, чтобы проверить, действительно ли они принадлежат вам или появились в результате взлома (взломанные страницы часто сопровождаются визуальными, графическими багами. Например, обилием китайских иероглифов).
Большой количество страниц с пометкой «Индексирование страницы запрещено тегом noindex» также может указывать на неудачную миграцию. Такое часто случается, когда у нового сайта остаются прежние теги noindex, что были у прошлого сайта.

Благодаря разделу «Исключено» в отчете GSC «Покрытие», вы можете узнать многое о вашем сайте и о том, как Googlebot взаимодействует с ним.

Независимо от того, являетесь ли вы начинающим SEO-специалистом или уже имеете несколько лет опыта за спиной, сделайте проверку Google Search Console своей привычкой.

Это поможет вам обнаружить различные технические SEO-проблемы до того, как они превратятся в настоящие катастрофы.

Источник: https://www.searchenginejournal.com/excluded-pages-google-search-console/453226/

Источник

Определения каноничности
Как выглядит атрибут каноникал
Процесс канонизации
Почему канониклы важны для SEO
Случаи, когда каноникал нужен✔️
Случай, когда можно использовать каноникал👌
Как указать канонический адрес страницы
Правила использования канониклов
Как проверить каноническую страницу
Ошибки⛔
Ответы на вопросы
1. Какую страницу выбрать канонической?
2. Почему Гугл ставит каноникал не мой сайт, а на сторонний ресурс?
3. Каноникал или 301 редирект?
4. Нужно ли ставить каноникал сам на себя?
Вывод

Определения каноничности

Каноническая страница — это страница, которую поисковая система считает главной в группе схожих по содержимому.

Каноническая ссылка — это ссылка, которая ведет на каноническую страницу и содержит атрибут rel со значением canonical: <link rel=»canonical» href=»ссылка»/>.

Неканоническая страница — это страница на которой размещен атрибут rel=»canonical» с адресом другой страницы.

Как выглядит атрибут каноникал

Атрибут rel=“canonical” может быть прописан двумя способами:

<link rel=“canonical” href=“ссылка” /> — в блоке <head> страницы;
Link: <ссылка>; rel=»canonical» — в HTTP-заголовке.

Какой из этих методов выбрать лучше всего, разберем в главе «Как указать канонический адрес страницы».

Процесс канонизации

Канонизация — это процесс выбора главной страницы среди дублей (одинаковых страниц доступных по разным адресам) и/или среди страниц с похожим контентом.

В подкасте Search Off the Record от 4 ноября 2020 сотрудник Google Мартин Сплитт рассказал, как поисковик обрабатывает канонизацию:

Сначала нужно обнаружить дубликаты, сгруппировать их вместе и отметить, что эти страницы дублируют друг друга. Затем для всех них нужно найти страницу лидера.

И то, как мы это делаем, возможно, так делают большинство людей и другие поисковые системы — сводят контент к хэшу или контрольной сумме, а затем сравнивают контрольные суммы. Это намного проще, чем сравнивать, например, 3 000 слов.

Итак, мы сокращаем содержание до контрольной суммы, потому что не хотим сканировать весь текст и потому что это просто не имеет смысла — это требует больше ресурсов, а результат будет примерно таким же. Мы вычисляем несколько видов контрольных сумм для текстового содержимого страницы, а затем сравниваем их.

На вопрос: «Обнаруживает ли такой метод только точные дубли или частичные тоже?» специалист ответил:

У нас есть несколько алгоритмов, которые пытаются обнаружить и не учитывать шаблонную часть страниц. Так, например, мы исключаем навигацию из расчета контрольной суммы, убираем нижний колонтитул. Тогда у нас остается то, что мы называем центральным элементом, то есть центральное содержимое страницы, что-то вроде самой сути страницы.

После вычисления и сравнения контрольных сумм, те, которые похожи между собой (сильно или частично) мы объединяем в дублирующий кластер.

Далее по словам Мартина, необходимо выбрать один документ из кластера, который и будет показываться в результатах поиска:

Но вычислить какая из них будет ведущей в кластере не так просто. Есть случаи, когда даже людям будет сложно определить, какая именно страница должна отображаться в результатах поиска. Мы используем более 20 сигналов, чтобы решить, какую страницу выбрать как каноническую из дублирующего кластера.

Очевидно, что один из них — это содержание страницы. Но это могут быть и другие сигналы: у какой страницы более высокий PageRank, на каком протоколе страницы (http или https), включена ли страница в карту сайта, перенаправляется ли на другую страницу, проставлен ли атрибут rel=canonical… Каждый из этих сигналов имеет свой вес, а для подсчета весовых коэффициентов мы используем машинное обучение.

После сравнения всех сигналов для всех пар страниц, мы приближаемся к фактическому определению канонической.

Почему канониклы важны для SEO

1) Поисковики не любят дублирующийся контент, потому что он засоряют выдачу. Так же алгоритмам бывает непросто выбрать правильно главную страницу. Атрибут rel=»canonical» подсказывает какой URL стоит индексировать.

Google и Яндекс заявляют, что они не всегда признают указанный канонический адрес. Из-за того, что теги каноничности считаются подсказками, а не директивами (указаниями). Учитываются различные сигналы (были рассмотрены выше). Грамотное использование тегов каноничности помогает снизить риск того, что робот сочтет канонической не ту страницу.

2) Большое количество дублирующегося контента может плохо сказаться на «краулинговом бюджете» вашего сайта. Это значит поисковые системы будут тратить свои ресурсы на сканирование неуникальных страниц вместо того, чтобы находить новый или обновленный контент.

Стоит отметить, что при грамотной настройке, поисковые боты обходят неканонические страницы заметно реже канонических.

Сотрудник Яндекса Платон Щукин подчеркивает:

Поисковой робот может посещать ссылки с неканонических страниц.

Частоту обхода назвать сложно: на планирование и обход страниц влияет очень большое число факторов. И если поисковому роботу уже известны ссылки на те страницы, которые указаны на неканонических адресах, например, из файлов sitemap, робот в любом случае будет обходить их.

3) Атрибут каноничности помогает в консолидации переходов на одинаковые или повторяющиеся страницы. Это необходимо, чтобы собрать всю информацию, которая есть о разных страницах (например, ссылки на них), и связать ее с одним URL.

Например, чтобы ссылки для страницы site.ru/tea/red?gclid=123 объединить со ссылками для site.ru/tea/red.

4) Данные из отчета об эффективности в Google Search Console с 2019 привязаны к каноническим адресам. Это значит, что для получения корректных данных из отчета нужно указать правильные канонические страницы.

5) Проставленные канониклы для каждой страницы помогают защититься от спама, когда конкуренты генерируют мусорные страницы через гет-параметры.

Случаи, когда каноникал нужен✔️

Есть несколько ситуаций, когда атрибут каноникал нужно использовать. В остальных случаях его можно использовать по своему усмотрению (рассмотрим отдельно).

Для страниц-дубликатов

Нередко одна и та же страница может открываться по разным URL-адресам. Это происходит из-за того, что раздел или товар/услуга/публикация может принадлежать нескольким категориям. В этом случае необходимо выбрать один адрес, который будет считаться основным, а для остальных страниц-копий проставить каноникал.

Пример: в интернет-магазине попасть на товарную страницу майки можно тремя способами:

site.ru/t-shirt/nike/futbolka-sportivnaya/
site.ru/brands/nike/futbolka-sportivnaya/
site.ru/t-shirt/kovty/sportivnyye/futbolka-sportivnaya/

В качестве канонического урла можно выбрать любой, однако предпочтительными будут 1-й или 2-й варианты. Т.к. их уровень вложенности адреса меньше, чем у 3-го варианта. (P.S. Исследование факторов рейтинга 2016 года от Backlinko выявило сильную корреляцию между короткими адресами ссылок и высокими позициями в Google).

Также дублями с точки зрения поисковых систем считаются страницы сортировок т.к. порядок вывода содержимого не меняет сам контент. Это страницы вида:

site.ru/divany/?sort=price_asc
site.ru/divany/?sort=price_desc
site.ru/divany/?sort=new
и т.д.

Еще канониклы стоит использовать в тех случаях, когда после применения фильтров на сайте, содержимое страницы не меняется.

Например, есть страница «сплит-системы» представленная 5 моделями. После применения фильтра «Рекомендуемая площадь охлаждения» со значением «до 30 кв. м» на странице отображаются все те же 5 моделей. Т.е. в данном случае контент не изменился и поэтому стоит проставить каноникл в сторону родительской страницы.

Для страниц с похожим контентом

Если у вас есть похожий контент по разными адресами, то также стоит использовать каноникал. Например, это могут быть товары отличающиеся только цветом или размером. В этом случае выбираем из группы-страниц главную, расставляя канонические ссылки на нее. Такой вариант избавления от похожих страниц стоит применять, когда по ключу «товар+цвет», «товар+размер» нет спроса.

Для мобильных URL-адресов

Если урл адреса для мобильных устройств реализованы на отдельном домене (m.site.ru), то обязательно указывать каноническую ссылку на каждой такой странице в сторону основной (т.е. десктопной).

Для AMP-страниц

Для страниц, созданных по технологии AMP, ситуация точно такая же, что была рассмотрена выше. Для каждой AMP-страницы необходимо указать канонический адрес в сторону основной страницы.

Кстати, для Турбо-страниц, которые являются аналогом технологии AMP, по умолчанию проставляется канонический адрес.

Случай, когда можно использовать каноникал👌

Теперь рассмотрим ситуации, когда канонические адреса применяются в качестве одного из возможных решений технических проблем.

Для динамических адресов

На сайте могут формироваться динамические адреса, путем добавления различных идентификаторов и параметров в результате взаимодействия с фильтрами, за счет спама, переходов по рекламе и т.д.

site.ru/kitchen/table?material=wood&color=red
site.ru/kitchen/table?gclid=ABCD

Отсекать такие дубликаты можно с помощью канониклов, блокировки мусорных адресов по маске в robots.txt, с помощью директивы Clean-param для Яндекса (рекомендуется), с помощью инструмента «Параметры URL» для Гугла.

Для копий страниц на многоязычных и мультирегиональных сайтах

Версии одной страницы на разных языках считаются копиями, когда основной контент написан на одном и том же языке, а переведены лишь колонтитулы и прочие незначительные текстовые элементы. В этом случае нужно указать в качестве канонической страницы основную версию.

Использование rel=»canonical» на пагинации

Каноникал на пагинации можно использовать в двух вариациях:

если существует общая страница, которая содержит весь контент с пагинации, то проставлять канониклы на нее;
когда на каждой странице пагинации каноникал стоит сам на себя.

Больше информации по оптимизации страниц пагинации читайте в нашей статье.

Пример применения rel=»canonical» на пагинации от Гугла

Пример применения rel=»canonical» на пагинации от интернет-магазина Walmart

Для отдельных страниц печати

Бывает, что страницы печати формируют отдельные страницы, которые бесполезны для поисковых систем. Например:

site.ru/gotovyy-sertifikat-covid/
site.ru/gotovyy-sertifikat-covid/print/

Установка каноникала в сторону родительской страницы поможет избежать дублирования.

Для склейки

Использовать канониклы можно для склейки страниц, когда контент одинаковый, а URL-адреса различаются только:

префиксом www или его отсутствием: https://site.ru и https://www.site.ru
протоколами http и https: http://site.ru и https:/site.ru
слешом на конце урла или его отсутствием: site.ru/seo-god/ и site.ru/seo-god

Для индексных страниц

Главная страница сайта может быть открыта по разным адресам:

site.ru/index.html
site.ru/index.htm
site.ru/index.php
site.ru/default.htm
и т. д.

Для дублей можно указать каноническую страницу в сторону основной версии.

При разном написание URL-адреса

Например, когда страницы одинаковы по контенту, а отличаются только наличием заглавных букв в адресе:

site.ru/author/mike/
site.ru/Author/Mike/

Как указать канонический адрес страницы

Есть 3 основных метода указания канонической страницы. Далее рассмотрим каждый и сравним их.

HTML-код

Самый популярный способ — это использовать тег <link> в разделе <head> HTML-документа:

<link rel=»canonical» href=»ссылка на каноническую страницу» />

При этом необходимо установить каноническую ссылку для всех страниц-дублей.

Http-заголовок

Каноникализация может проводится как для обычных HTML-страниц, так и для электронных документов (PDF, DOC, XLS и т.д.).

Если у вас, например, PDF-файл доступен по разным URL-адресам, то необходимо указать предпочтительный через HTTP-заголовок следующим образом:

Link: <ссылка на каноническую страницу>; rel=»canonical»

Файл Sitemap

Все страницы в карте сайта по умолчанию считаются каноническими. По этой причине в сайтмапе не должно быть дубликатов. Иначе поисковые боты будут путаться в выборе канонического адреса.

Никаких атрибутов для указания канонической страницы использовать не нужно.

Сводная таблица методов

Для обычного HTML-документа размещайте конструкцию <link rel=»canonical» href=»ссылка»/> непосредственно на странице в разделе <head>.
Для документа формата .PDF, .DOC и т.д. используйте HTTP-заголовок с атрибутом rel=»canonical».
Канонический адрес в карте сайта является менее значимым сигналом, чем атрибут rel=»canonical». Поэтому на этот метод рассчитывать не стоит. Главное, чтобы в Sitemap не попадали дубли страниц, дабы не путать поисковые системы.

Установка канониклов на различных CMS и конструкторах

Для различных CMS существуют собственные плагины, которые позволяют настроить канонические URL-адреса, например, для WordPress можно воспользоваться Yoast SEO.

Для OpenCart настройка канониклов производится средствами CMS. Необходимо зайти в настройки товара и задать параметр SEO URL.

В Тильде по умолчанию проставляется каноникал сам на себя, но так же возможно изменить значение атрибута для каждой страницы вручную.

Правила использования канониклов

Джон Мюллер советует использовать только абсолютные URL-адреса:

Вы можете использовать как относительные, так и абсолютные канонические адреса. Я бы рекомендовал использовать последние. Чтобы вы были уверены, что адреса правильно интерпретируются.

В справке Яндекса такая же рекомендация:

Указывайте канонический адрес в пределах одного домена. В качестве канонического адреса задавайте абсолютный путь, например http://example.com/blog/.

✅ Правильно:

⛔ Не правильно :

Чек-лист:

Убедитесь, что вся или большая часть основного контента дублированной страницы также отображается на канонической странице.
Убедитесь, что rel=canonical указан только 1 раз на странице в разделе <head> или в HTTP-заголовке.
Убедитесь, что каноническая страница возвращает 200 ОК.
Убедитесь, что канонический адрес доступен для сканирования и индексирования.
Убедитесь, что каноническая страница указанная через атрибут rel=canonical совпадает со страницей в файле sitemap.
Убедитесь, что для группы страниц-копий выбрана единственная каноническая страница.

Как проверить каноническую страницу

Чтобы узнать какую страницу поисковая система определила в качестве канонической нужно воспользоваться специальными отчетами.

Проверка канонической страницы в Google Search Console

C помощью инструмента проверки URL в Google Search Console можно проверить, какой канонический адрес выбрала (или не выбрала) поисковая система. Нужно ввести интересующий URL, отправить запрос и получить в ответ сведения из индекса Гугла. Нас интересует отчет «Покрытие» и его статус.

Важно обращать внимание на дату сканирования. Сведения о проверяемой странице могут быть устаревшими. Если это так, то есть смысл отправить каноническую страницу на переиндексацию и дождаться обновления отчета.

Итак, возможны 4 варианта статуса. Далее про каждый подробнее.

Вариант страницы с тегом canonical

Данный статус означает, что проверяемая страница дублирует другую, которую Google считает канонической, и при этом канонический адрес верно указан.

В этом случае никаких дополнительных действий предпринимать не нужно.

Страница является копией. Канонический вариант не выбран пользователем

Это значит, что у проверяемой страницы есть точные копии и ни одна из них не указана в качестве канонической в явном виде. При этом Google считает анализируемую страницу неканонической. В отчете отображается какую страницу поисковик считает главной.

Если страница выбранная Гуглом вас не устраивает, то стоит указать каноническую страницу в явном виде через HTML-код или HTTP-заголовок. Иначе можно оставить все как есть.

Страница является копией. Канонические версии страницы, выбранные Google и пользователем, не совпадают

Это значит, что для проверяемой страницы указан канонический адрес, но Google считает, что другой URL больше подходит. Поэтому робот не проиндексировал страницу.

В справке Гугла рекомендуют пойти у них на поводу и отметить страницу как неканоническую копию. Однако если вас такой вариант не устраивает, то нужно будет проанализировать почему поисковик выбрал другую страницу (ссылка на абзац про процесс канонизации) и внести правки. Добавить каноническую страницу в карту сайта и удалить из нее дубли, проверить наличие внутренних ссылок на эту страницу, получить на нее внешние ссылки и т.д.

Страница является копией. Отправленный URL не выбран в качестве канонического

Отличие этого отчета от предыдущего в том, что страницы были принудительно отправлены на индексирование и при этом Google их считает копиями. Грубо говоря это отчет можно назвать «Зачем ты просишь меня индексировать неканонические страницы?».

Проверка канонической страницы в Яндекс.Вебмастере

В Яндекс.Вебмастере в разделе «Страницы в поиске» необходимо на вкладке «Последние изменения» отфильтровать интересующую вас страницу по условию «Статус и URL». В отчете будет указано является ли проверяемая страница канонической или нет.

Также возможно скачать данные в .XLS формате и отфильтровать данные по столбцу «status», где выбрать значение «NOT_CANONICAL». Т.о. вы получите весь список канонических страниц, которые не участвуют в поиске.

Ошибки⛔

Мы собрали наиболее популярные ошибки, которые могут возникнуть в процессе канонизации.

Блокирование с помощью файла robots.txt

Блокировка неканонических адресов в robots.txt не позволяет поисковыми роботам просканировать их содержимое. Поэтому такие страницы не смогут передавать сигналы, даже если на них установлен атрибут rel=»canonical».

Если в robots.txt была заблокирована каноническая страница, то вместо нее в поиске может участвовать копия, если она доступна для индексации.

Совмещение noindex и rel=»canonical»

Официальный ответ Джона Мюллер о различиях между сигналами noindex и rel=canonical и почему их нельзя совмещать:

Когда Google видит два URL с одного сайта, которые выглядят одинаково, а вы четко сообщаете о своих предпочтениях, то мы стараемся объединить их и обрабатывать как один (более сильный) URL вместо двух. Редиректы, rel=canonical, внутренние и внешние ссылки, файлы Sitemap, heflang и т.д. демонстрируют нам ваши предпочтения, поэтому чем более согласованно они применяются, тем скорее мы им последуем и используем их для канонической версии страницы.

С другой стороны, noindex (один) и директива disallow в файле robots.txt не являются четкими сигналами для каноникализации. Наличие на странице лишь тега noindex не говорит нам, что вы хотите объединить его с чем-то еще и что сигналы необходимо перенаправить. А директива disallow в файле robots.txt еще сложнее для понимания, так как мы не знаем, есть ли на сайте похожие страницы, поэтому не можем использовать данный сигнал для каноникализации.

Отсюда вытекает правило: нельзя смешивать noindex и rel=canonical: для нас это очень противоречивые сигналы. Обычно мы учитываем rel=canonical как более важный сигнал. Однако всякий раз, когда вы полагаетесь на интерпретацию со стороны компьютерного скрипта, вы уменьшаете вес вашего входа. А SEO сводится к передаче компьютерным скриптам информации о ваших предпочтениях.

Ошибка в написании канонического адреса

Речь идет о тех случаях, когда адрес канонической страницы по логике выбран правильно, но допущена ошибка в его написании. Например:

утрачен слеш в конце урла или наоборот добавлен лишний;
указан http протокол вместо https или наоборот;
домен указан с www или без него;
с ошибкой указан относительный адрес, например <link rel=»canonical» href=»site.ru/catalog/phones/» />.

Битые ссылки

Когда одна или несколько страниц указывают в качестве канонического адреса страницу с кодом состояния 4XX — это считается ошибкой. В этом случае сигналы с неканонических страниц никуда не перейдут.

Ссылки на страницы с редиректом

Канонические ссылки должны вести на наиболее предпочтительную версию страницы. Редирект же указывает на то, что нужно учитывать другой адрес. Из-за этого поисковые системы могут неверно интерпретировать тег или проигнорировать его вовсе.

Канонический адрес указывает на другой домен или поддомен

Эта ситуация актуальна только для Яндекса. Поисковик не учитывает канониклы, если они ведут на другой домен или поддомен.

В блоге Яндекса для вебмастеров сказано:

Стоит отметить, что межхостовый атрибут все ещё не поддерживается, поэтому, если отдельные страницы будут содержать атрибут с такими указаниями, как неканонические, они из поиска не выпадут.

Атрибут каноникал помогает указать оригинал контента. Например, если вы размещаете статью на стороннем ресурсе, но хотите чтобы в результатах поиска отображался основной URL т.е. с вашего сайта. Или у вас на основном домене и поддоменах есть одинаковые страницы (например блог).

Гугл поддерживает междоменные канонические адреса.

Конфликт канонических страниц

Не указывайте разные канонические адреса для страниц копий. Например, в карте сайта один адрес, а с помощью атрибута rel=»canonical» – другой.

Цепочка канонических адресов

Например, для страницы A канонической версией является страница B, а для страницы B указан канонический адрес C. Такие цепочки путают поисковые системы из-за чего атрибут каноникал может быть проигнорирован.

Два атрибута rel=canonical

Каноническая ссылка ведет на не релевантную страницу

301 редирект работает примерно также, как атрибут canonical. Если контент на неканонической и канонической страницах совпадает, то они склеиваются. В противном случае склейки не будет.

Если вы делаете склейку на страницу с совершенно другим контентом, то Google это будет расценивать как soft 404, что приводит к потере 100% PageRank.

Использование rel=canonical в секции <body>

Тег rel=canonical должен быть размещен в разделе <head> или в HTTP-заголовке. В секции <body> он не учитывается.

Ответы на вопросы

Какую страницу выбрать канонической?

Чтобы было проще определиться с выбором канонической страницы, обратите внимание на следующие моменты:

какая страница из группы дублей индексируется в данный момент;
посещаемость каждой из страниц;
наличие внешних/внутренних ссылок и их количество;
в качестве главной версии лучше выбирать страницу с наименьшей вложенностью URL-адреса

Предпочтительно выбирать в качестве канонической страницы ту, которая уже в индексе, обладает максимальной посещаемостью, наибольшим количеством ссылок и минимальной длинной URL-адреса.

Почему Гугл ставит каноникал не мой сайт, а на сторонний ресурс?

Такое может возникнуть по двум причинам:

Сайт был взломан и проставлен каноникал в сторону стороннего ресурса. Проверить легко. Заходим в исходной код нужной страницы и смотрим куда ведет каноникал. Если каноническая страница указана верно, то проблема может заключаться в другом.
Ваш контент скопировал более трастовый сайт и Гугл посчитал его источником материала (пример). В данном случае вы можете подать DMCA запрос на удаление контента.

Каноникал или 301 редирект?

Google и Яндекс могут передавать сигналы ранжирования на другой URL без 301-редиректа.

Джон Мюллер в июне 2021 года поделился своими мнением на этот счет:

Бывают случаи, когда при смене URL страницы технически невозможно поставить 301 редирект.

И для таких случаев есть шанс, что сигналы передадутся аналогично тому, как если бы стоял редирект.

При этом должны выполняться условия:

Контент должен быть тот же;
Старая страница должна существовать.

В общем случае лучше использовать 301 редирект, когда это возможно.

Каноникал лучше использовать в ситуациях, описанных в главе «Случаи, когда каноникал нужен».

Нужно ли ставить каноникал сам на себя?

Не обязательно. Т.е. никакого эффекта в ранжировании это не даст. Максимум защитит от появления страниц дубликатов.

Джон Мюллер заявляет, что автореферентные теги каноничности не являются обязательными, однако их применение рекомендуется.

Я рекомендую использовать автореферентные теги каноничности, поскольку это лучше всего помогает нам понять, какую именно страницу вы хотите проиндексировать, или какой адрес должен быть у проиндексированной страницы.

Даже если у вас только одна страница, иногда ее можно вызвать через разные варианты адреса — например, с определенными символами в конце, в верхнем или нижнем регистре, с www или без. Все это можно конкретизировать с помощью тега rel canonical.

Так делают в самом Гугле

В справке Яндекса сказано, что если атрибут rel=»canonical» указывает на страницу, на которой размещен — это не ошибка. Робот просто посчитает ее канонической.

А в Яндексе так не делают

Вывод

rel=“canonical” — это очередной полезный инструмент для поискового продвижения, который помогает решить проблему с дублированием контента, а также с неэффективным расходованием краулингового бюджета. Главное применять канониклы только по назначению и грамотно их настраивать, тогда и будет результат.

Источник

Пользователь 1473739

Заглянувший

Сообщений: 14
Баллов: 1
Авторитет:

1
Рейтинг пользователя:

0
Регистрация: 13.10.2017

Здравствуйте,
на нашем сайте (almash.ru) недавно реализовали переключение шаблонов с десктоп на мобильный шаблон. Стали появляться ошибки в вебмастере по поводу копий. Как правильно указать, что декстопная версия является канонической?

Помогите, пожалуйста

И если указать в качестве канонической дексктопную версию — не будет ли пессимизироваться мобильная?

Пользователь 1473739 Заглянувший Сообщений: 14 Баллов: 1 Авторитет: 1 Рейтинг пользователя: 0 Регистрация: 13.10.2017

Пользователь 164786 Эксперт Сообщений: 457 Баллов: 74 Авторитет: 5 Рейтинг пользователя: 0 Регистрация: 20.03.2013	Такая же беда с гуглом, но он видит сайт и как www и без и так же его индексирует, хотя все редиректы настроены верно и яндекс говорит, что всё отлично

Пользователь 164786 Эксперт Сообщений: 457 Баллов: 74 Авторитет: 5 Рейтинг пользователя: 0 Регистрация: 20.03.2013	Подскажите, как в битриксе указать для главной страницы каноническую ссылку с www на без

Пользователь 1473739

Заглянувший

Сообщений: 14
Баллов: 1
Авторитет:

1
Рейтинг пользователя:

0
Регистрация: 13.10.2017

Если прописать на главной версии каноникал на саму себя?

Конструкцией вроде
<link rel = «canonical» href=»<?=$_SERVER[‘HTTP_X_FORWARDED_PROTO’].’://’.’site.ru’.$APPLICATION->GetCurPage();?>»/>

То есть, на каждой странице главной версии, по идее, должно висеть объявление для роботов, что эта страница есть каноническая. И поскольку на всех допверсиях такого сигнала не будет, робот поймет все правильно.

Сможет такое сработать?

Пользователь 1473739 Заглянувший Сообщений: 14 Баллов: 1 Авторитет: 1 Рейтинг пользователя: 0 Регистрация: 13.10.2017

Пользователь 1473739

Заглянувший

Сообщений: 14
Баллов: 1
Авторитет:

1
Рейтинг пользователя:

0
Регистрация: 13.10.2017

15.10.2019 05:48:02

Цитата
Константин Ким написал: А попробовать так https://yandex.ru/support/webmaster/robot-workings/canonical.html

Константин, этот способ не подходит мне, наверное, или я не знаю, как модифицировать его под свою ситуацию.
Надо, чтоб все страницы главной версии сайта указывались в качестве канонических. в Битриксе head- один на весь сайт, надо динамическую конструкцию. А как сделать динамическую ссылку на другой сайт, но без расширения /?type=pda — не известно. Может, кто-нибудь подскажет?

Источник

На сайте с 01.02.2011

Offline

160

10 октября 2022, 09:05

459

Ранее я не добавлял сайт в гугловский search console как доменный ресурс.
Обычно добавлял с префиксом, вторым вариантом, как https://site.ru

Сейчас впервые добавил первым вариантом, через txt записи в домене и пришла такая вот ошибка — Страница является копией. Канонический вариант не выбран пользователем.
ниже примеры:
http://site.ru/
http://www.site.ru/

Пару месяцев я держал его в тестовом режиме (никуда не добавляя) и не закрывал ничем, возможно в поиск что то просочилось месяц назад и проблема пошла оттуда.

В роботс прописан: host: https://site.ru

Авторедирект с http на https, при этом http не закрыт. www нигде не используется и точно не использовался ранее.

по идее нужно прописать в хэд <link rel=»canonical» href=»https://site.ru»> — правильное ли решение?

и если да, то мне это для каждой страницы сделать в будущем? по типу для: site.ru/page — <link rel=»canonical» href=»https://site.ru/page»>
на текущий момент такая ошибка для только для главной, но и в поиск он добавил пока только главную.

Яндекс кстати никаких ошибок не шлет

На сайте с 19.10.2011

Offline

1512

10 октября 2022, 09:14

до одного места

Linblack :
Страница является копией. Канонический вариант не выбран пользователем.

ищите проблему в редиректах — все версии должны быть на одну ( ссл/без , ввв или без) .

Где то нету редиректа и он не видит там канон

На сайте с 01.02.2011

Offline

160

10 октября 2022, 09:32

Vladimir SEO #:

до одного места

ищите проблему в редиректах — все версии должны быть на одну ( ссл/без , ввв или без) .

Где то нету редиректа и он не видит там канон

там оказывается можно посмотреть откуда ссылки из примеров в списке оО

на главную с www ссылаются вообще каких то 3 непонятных сайта, которые либо не безопасные, либо без впн не открываются.
на главную с http ссылается только 1 старая страница моего сайта, ныне удаленная (существовала месяц назад).

как на подобное реагировать?

На сайте с 19.10.2011

Offline

1512

10 октября 2022, 09:46

Linblack #:
там оказывается можно посмотреть откуда ссылки из примеров в списке оО

как на подобное реагировать?

никак, вам не все равно что там ссылается — это как нашлась страница, а не проблема или что еще.

редиректы проверяете, и потом все страницы на переобход

Источник

В новых инструментах Google для веб-мастеров есть раздел «Покрытие индекса»> «Исключено»> «Отправленный URL-адрес не выбран как канонический». Я получаю 3 внутренних ссылки в разделе «Представленный URL не выбран как канонический» моего сайта.

Я не уверен, почему эти внутренние ссылки отображаются там. Я обновил канонические теги для этих 3 ссылок. (Я не делюсь ссылками, потому что мой аккаунт может быть помечен как спам)

Страница справки Google содержит некоторую информацию об этом, но не говорит, как это исправить:

Отправленный URL-адрес не выбран как канонический . URL-адрес является одним из набора дублирующих URL-адресов без явно помеченной канонической страницы . Вы явно просили индексировать этот URL, но, поскольку он является дубликатом, и Google считает, что другой URL является лучшим кандидатом на каноническое использование, Google не индексировал этот URL. Вместо этого мы проиндексировали выбранный каноник. Разница между этим статусом и «Google выбрал другой канонический язык, чем пользовательский» заключается в том, что в этом случае вы явно запросили индексирование.

Ответы:

Вы явно запросили индексирование некоторых URL-адресов, используя карту сайта или инструменты для веб-мастеров, которые являются дубликатами без канонического. Вопрос скорее в том, почему вы хотите, чтобы дублированные URL-адреса были явно проиндексированы? Это не в соответствии с хорошими практиками SEO.

Установите для дублированных URL-адресов значение noindex или, по крайней мере, установите каноническое значение, чтобы Google знал, что оценивать вместо дублированного контента — оба действия решат проблему.

Сначала вы должны найти дубликаты. Было бы хорошо, если бы Google сказал вам в консоли поиска, какой URL он считает дубликатом, но они не разглашают эту информацию, насколько я могу судить.

Чтобы найти дубликат, вам обычно приходится использовать поиск Google. Возьмите фразу со страницы, которая должна быть уникальной, и найдите ее в Google с кавычками вокруг нее. Это должно сказать вам, какую страницу Google индексирует вместо этого.

Как только вы узнаете, где находится дубликат, вы можете принять решение о том, что с ним делать. У вас будет несколько вариантов:

Ничего не делайте, и пусть Google сам выбирает, какую страницу он считает дубликатом. Google обычно индексирует только одну копию страницы, когда находит дубликаты. Наличие дублирующих страниц и автоматическое разрешение на их обработку Google обычно не повредит вашему сайту. См. Что такое дублированный контент и как я могу избежать наказания за него на моем сайте?
Если у вас есть контроль над обеими страницами, вы можете использовать канонические теги или перенаправления, чтобы сообщить Google, какой из них вы бы предпочли индексировать.
Если дублированный контент находится на каком-либо другом сайте и принадлежит вам, вы можете попытаться закрыть или удалить другой сайт из Google с помощью DMCA.
Вы также можете больше различать страницы, чтобы они больше не дублировались.

Изменить. Как указано в комментариях, вы также можете найти дубликаты, используя ссылку «Просмотреть как результат поиска» в консоли поиска, которая доступна при нажатии на URL-адрес в отчете:

Причиной этой ошибки является то, что Google игнорирует вашу страницу AMP. Просто потому, что у вас есть адаптивная / мобильная версия, на которую канонизирована страница AMP. Если у вас есть адаптивная / мобильная версия страницы AMP, которую вы используете, Google выбирает эту страницу вместо версии AMP для показа в поисковой выдаче и, таким образом, говорит, что у вас есть дубликат (с точки зрения содержания).

Источник