Индексация сайта - это процесс сканирования Вашего сайта поисковыми роботами и внесения всей полученной информации (текстов, ссылок, изображений и так далее) в базу поисковой системы. Соответственно, для того, чтобы Ваш сайт появился в результатах выдачи поисковой системы, он должен быть проиндексирован и добавлен в базу. Эта база и называется “индекс”. До тех пор, пока роботы поисковой системы не проиндексируют Ваш сайт, его в поисковой выдаче не будет, а это, в свою очередь, означает, что пользователи не смогут найти Ваш сайт.
Поисковая система осуществляет индексирование сайта с помощью поисковых роботов. Поисковые роботы - программы автоматизированного получения данных, бороздящие сеть в поисках информации и ссылок на информацию. Поисковый робот обращается по протоколу HTTP к серверам, на которых хранятся страницы сайта, и получает в ответ тело страниц. Робот подчиняется указаниям, прописанным в файле robots.txt , который лежит в корневой папке сервера. В robots.txt указывается, какие страницы запрещены к индексации роботом.
После обработки документа модулями робота, документ анализируется html-парсером, который оставляет только самое нужное и весомое для поиска: текст, оформление, ссылки и адреса. Все это при поиске будет влиять на ранжирование странички.
После обработки парсером происходит индексирование документа. При этом используются алгоритмы морфологического анализа. В конце концов, документ инвертируется и добавляется к основному индексу. Управление роботом поисковой системы ограничено и заключается, в основном, в установлении запретом на индексацию некоторых страниц сайта. На само расписание робота, на частоту его посещения можно лишь оказывать косвенное влияние.
Поисковый робот посещает страницу сайта исходя из того, как часто изменяется содержание этой страницы. На часто обновляемые страницы робот может ходить каждый день и даже чаще. Например, если это страница новостного сайта. Когда же страница изменяется нечасто, то робот посещает ее один-два раза в неделю. Те страницы, содержимое которых не меняется, все равно посещаются роботом, однако очень редко, не более трех раз в месяц.
При этом за один заход робот запрашивает не более 20-30 страничек с сайта. Это связано с тем, что роботы стараются не загружать сервер своими запросами. На сайт с большим количеством страниц робот ходит часто и каждый раз берет только небольшую «порцию» страниц.
Робот – это один из основных элементов любой поисковой системы. Он выполняет очень важные функции, связанные с индексацией сайтов Интернета. Из информации, добытой роботом, формируется индексная база поисковой системы, которая непосредственным образом влияет на качество поиска.
Аудитор индексирует страницы вашего сайта аналогично поисковым роботам вплоть до HTML кода, используя те же критерии ранжирования сайтов, что и поисковые системы. Переходя по доступным ссылкам на страницах сайта, аудитор сканирует страницы, собирая содержимое с учетом морфологии. Далее информация попадает в базу данных. Следующий этап- это анализ информации, после которого система выдает подробный отчет по каждой страницы вашего сайта с рекомендациями по устранению ошибок.