21:16 Поисковые роботы. перечень ботов пс Яндекс и Google |
Сканирование сайтов в широкомасштабной паутине интернет-сетей производится узкоспециализированными программами поисковиков, предназначенных исключительно для сбора и хранения информации без какой-либо дальнейшей обработки полученных данных потому как таким направлением занимаются программы альтернативного значения. Сбором сведений занимаются поисковые роботы или боты, пауки такая программа имеет массу названий на русском языке, в английском встречаются наиболее частые варианты, такие как spider, crawler. Информационные ресурсы интернета взглядом поискового робота Возможность видения сайта, так как это видят роботы поисковиков, существует достаточно только воспользоваться функциями, которые предложены в панели для веб-мастеров. К примеру, просмотреть вид собственного ресурса от робота Google можно, если предварительно добавить его в систему поиска, а после воспользоваться функционалом панели веб-мастера. А точнее, просмотреть на интернет-страничке: www.google.com/webmasters/tools/googlebot-fetch?hl=ru Вариант видимости сайта от робота поисковика Яндекс имеется возможность просмотреть, воспользовавшись сохранёнными копиями текстов. Для осуществления такой процедуры необходимо найти требуемую страницу в поисковике Яндекса далее нажать «сохранённая копия», а после «посмотреть текстовую версию». Существуют целые списки таких роботов, занимающихся сканированием разнообразной информации на сайтах. Роботы ПС специализированы по разным направлениям, они разделены по видам работ: индексации страниц сайта, картинок, новостей, слежению за контекстной рекламой. При определённых знаниях в этом направлении и чётком представлении о работе конкретных пауков существует возможность запрета или допуска определённого spider к ресурсу, что позволит не только уменьшить нагрузку на сервер, но и защитить собственный материал от проникновения во Всемирную паутину. Роботы, существующие в поисковике от Яндекса В ПС Яндекса имеется в наличие около полутора десятка наиболее известных поисковых роботов. Yandex: Bot - основа в индексации; Media - скан мультимедийных данных; Images – просмотр изображений; Catalog – проверяет материалы в каталоге и снимает с публикации недосягаемые; Blogs – индексирует блоги, посты и комментарии; News – новостная индексация; Webmaster – появляется после добавления сайта через AddURL; Pagechecker – проверка микрозаметок; Favicons - индексатор иконок; Metrika – проведение и анализ метрики; Market – анализ сведений маркета; Calendar – учёт по календарным данным; YaDirectFetcher – по основам директа. Поисковые Боты в Гугл В ПС Google в разделе помощи был, упомянут единственный поисковый spider, а другие боты были отслежены в логах информационных ресурсов. Google: bot – основа в индексации; Nes – новостная проверка; bot Images – просмотр изображений; bot Video – скан видеозаписей; Mobile – просмотр данных для мобильных устройств; Mobile AdSense - просмотр мобильных AdSense; AdSense – основной в AdSense; AdsBot – проверка качественности материала; Mediapartners-Google - робот AdSense. На личных ресурсах также возможно появление ботов от других поисковиков. Помимо пауков, существующих в поисковиках, сканированием также занимаются теневые пауки. Их задача сбор конкретного материала с сайтов для меркантильных целей создателей. Они не только занимаются воровством контента или картинок, но и способны взломать сайты и наполнить его сторонними ссылками. Если подобное наблюдается на собственном ресурсе, то его следует огородить любыми доступными способами, в частности, с содействием файла robots.txt от доступа сторонних spider. |
|
Всего комментариев: 0 | |