Очень часто роботы поисковых систем обрабатываются PDF-файлами, таблицами в электронном виде и презентациями. В блоге Гугла был опубликован пост о том, как проходит индексация подобных страниц. Это может пригодиться тем, для кого раскрутка сайта является основным видом деятельности.
Уже известно, что поисковая система может индексировать текст из таких документов как PDF, который может быть написан на любом языке, что подтверждает Google. Главное чтобы не было зашифрованного текста или защитного пароля на файле. Google заявил что, текст может быть извлечен с помощью так называемых OCR алгоритмов.
Это возможно даже в тех случаях, когда он представляется в виде простого изображения. Важно отметить, что картинки в PDF-файлах не индексируются и не будут. Также стоит учесть то, что ссылки в PDF-файлах обрабатываются таким же образом, что и ссылки в HTML-коде.
В главном заявлении Google было отмечено , что в для поисковых алгоритмов страницы на HTML не имеют никаких преимуществ перед PDF-файлами. Другими словами, если файл содержит контент высокого качества и на него ведутся и ссылки с других ресурсов, то PDF может быть в ТОПе выдачи, обогнав стандартные страницы с HTML-кодом.