Как PDF файлы могут каннибализировать страницы сайта

Тема особенно актуальна для коммерческих сайтов, где в добавок к основному описанию товаров, часто, просто необходимо еще прикреплять технические характеристики, сертификаты, инструкции по эксплуатации и.т.д. в виде файла, и чаще всего это именно файлы в формате PDF. Но насколько полезны такие вложения для cайта в плане SEO?

Вот пример такой карточки товара с вложением:

energy-voltron.com.png

По нажатию на ссылку или открывается новая вкладка (окно, лайтбокс) с содержимым файла, или предлагается сохранить PDF файл на компьютер.

Но, давайте разберемся с целью добавления таких вложений:

  1. Дать наиболее полный ответ посетителю сайта на заданный ему запрос
  2. Разнообразить контент на странице
  3. Увеличить поведенческие факторы на сайте
  4. Как конечная цель - получить конверсию от посетителя, который после посещения страницы товара и ознакомления с информацией о нем должен совершить целевое действие, чаще всего это оформления заказа.

Это пожалуй основные цели и польза от добавления вложений. Индексация, ранжирование, расширение семантики и как итог дополнительные переходы с поисковых систем в целях я не указал специально, и вот почему.

Дело в том, что посещения с поисковой системы на страницу PDF документа не считаются в метрике сайта как переход на одну из страниц. Единственное что в метрике можно отследить - это так называемые "загрузки файлов", но это скорее к пункту 3 целей указанных выше.

zagruzki_faylov_-_yandeks.metrika.png

zagruzki_faylov_.metrika.png

Как видим загрузки все же есть.

Выдачу засираем, профит не получаем

Помимо того, что переходы с поисковой системы на PDF файлы не дают нам дополнительного траффика для сайта (я например не смог никак это отследить, если у кого-то есть другое мнение и опыт, пожалуйста, поправьте), так к тому же, редкий посетитель попав на этот самый PDF файл, совершит затем переход на саму карточку товара, даже если в PDF файле есть обратная ссылка на этот самый товар. Зачем нам тогда показывать в выдаче такие файлы?  Скажите, ну, пусть будут, вреда как миним никакого. Как бы ни так!

Каннибализация

Каннибализация, если просто, это когда в пределах сайта одна страница, "поедает" другую, выдавливая ее с результатов поиска. Такое бывает когда страницы имеют одну и ту же смысловую нагрузку и отвечают на одни и те же запросы. Как результат, поисковым системам нет смысла держать в выдаче два документа с одного сайта, которые отвечают на одно и тоже, и определяется одна, наиболее релевантная страница, другая же при этом уходит далеко вниз, либо вовсе перестает ранжироваться по ряду пересекающихся запросов.

PDF файл - такая же страница сайта как и html документы. Я даже писал как-то статью как их seo оптимизировать. Соответственно, если в PDF файл будет признан более релевантным по определенным запросам, то наша карточка товара, которая нам наиболее интересна для достижения целей, будет каннибализирована и сдвинута далека вниз. Ниже пример одной страницы с реального сайта, которую с поиска выдвинул PDF файл:

Есть карточка товара с вложенным техническим описанием прибора:

ustroystvo_rs83_a2.0_pdf.png

Вот позиции и релевантная страница, которую показывает сервис съема позиций Line:

line.png

А вот поисковая выдача по этому запросу в Яндексе:

ustroystvo_rs83_a2.0.png

Сайт по запросу в ТОП 3, но какой толк от этого ТОПа, если перейдя посетитель попадет не на страницу товара, а на PDF документ? И таких запросов, которые каннибализировали PDF файлы оказалось достаточно много. Почему? Часто в PDF вложениях гораздо больше полезной информации для пользователя чем на самой карточке товара, в связи с чем он и определяется по ряду запросов как наиболее релевантный документ. К слову, это касается только текстовых PDF файлов, PDF сохраненные картинками не страшны.

Решение проблемы

Удалять вложения все же не стоит так как они действительно могут быть полезными посетителям. Копировать все с PDF и вставлять в карточку товара тоже не выход, иначе превратим описание товара в целую статью. На мой взгляд наиболее правильным решением в таких случаях - оставить документацию для пользователей сайта охватив при этом все цели описанные выше, но убрать их из выдачи поисковых систем путем запрета на индексацию всех нежелательных файлов в robots.txt. Пример:

Disallow: / *pdf
Disallow: / *docx
Disallow: / *djvu
Disallow: / *txt

Я рассказал о вреде только PDF файлов так как они наиболее часто встречаются во вложениях и выдаче, но другие документы в формате Word или txt тоже могут составить конкуренцию html страницам сайта, поэтому закрывайте их тоже если таковые имеются.