ahrefsbot что за бот

Анализ файлов robots.txt крупнейших сайтов

Robots.txt указывает веб-краулерам мира, какие файлы можно или нельзя скачивать с сервера. Он как первый сторож в интернете — не блокирует запросы, а просит не делать их. Интересно, что файлы robots.txt проявляют предположения веб-мастеров, как автоматизированным процессам следует работать с сайтом. Хотя бот легко может их игнорировать, но они указывают идеализированное поведение, как следует действовать краулеру.

По существу, это довольно важные файлы. Так что я решил скачать файл robots.txt с каждого из 1 миллиона самых посещаемых сайтов на планете и посмотреть, какие шаблоны удастся обнаружить.

Я взял список 1 млн крупнейших сайтов от Alexa и написал маленькую программу для скачивания файла robots.txt с каждого домена. После скачивания всех данных я пропустил каждый файл через питоновский пакет urllib.robotparser и начал изучать результаты.

ahrefsbot что за бот
Найдено в yangteacher.ru/robots.txt

Огороженные сады: банят всех, кроме Google

Среди моих любимых питомцев — сайты, которые позволяют индексировать содержимое только боту Google и банят всех остальных. Например, файл robots.txt сайта Facebook начинается со следующих строк:

(Предупреждение: Краулинг Facebook запрещён без письменного разрешения. См. http://www.facebook.com/apps/site_scraping_tos_terms.php )

Это слегка лицемерно, потому что сам Facebook начал работу с краулинга профилей студентов на сайте Гарвардского университета — именно такого рода активность они сейчас запрещают всем остальным.

Требование письменного разрешения перед началом краулинга сайта плюёт в лицо идеалам открытого интернета. Оно препятствует научным исследованиям и ставит барьер для развития новых поисковых систем: например, поисковику DuckDuckGo запрещено скачивать страницы Facebook, а поисковику Google можно.

В донкихотском порыве назвать и посрамить сайты, которые проявляют такое поведение, я написал простой скрипт, который проверяет домены и определяет тех, которые внесли Google в белый список тех, кому разрешено индексировать главную страницу. Вот самые популярные из этих доменов:

ahrefsbot что за бот
(В оригинальной статье указаны также аналогичные списки китайских, французских и немецких доменов — прим. пер.)

Я включил в таблицу пометку, позволяет ли сайт ещё DuckDuckGo индексировать свою заглавную страницу, в попытке показать, насколько тяжело приходится в наши дни новым поисковым системам.

У большинства из доменов в верхней части списка — таких как Facebook, LinkedIn, Quora и Yelp — есть одно общее. Все они размещают созданный пользователями контент, который представляет собой главную ценность их бизнеса. Это один из их главных активов, и компании не хотят отдавать его бесплатно. Впрочем, ради справедливости, такие запреты часто представляются как защита приватности пользователей, как в этом заявлении технического директора Facebook о решении забанить краулеры или глубоко в файле robots.txt от Quora, где объясняется, почему сайт забанил Wayback Machine.

Далее по списку результаты становятся более противоречивыми — например, мне не совсем понятно, почему census.gov позволяет доступ к своему контенту только трём основным поисковым системам, но блокирует DuckDuckGo. Логично предположить, что данные государственных переписей принадлежат народу, а не только Google/Microsoft/Yahoo.

Хотя я не фанат подобного поведения, но вполне могу понять импульсивную попытку внести в белый список только определённые краулеры, если учесть количество плохих ботов вокруг.

Боты плохого поведения

Я хотел попробовать ещё кое-что: определить самые плохие веб-краулеры в интернете, с учётом коллективного мнения миллиона файлов robots.txt. Для этого я подсчитал, сколько разных доменов полностью банят конкретный useragent — и отранжировал их по этому показателю:

user-agentТипКоличество
MJ12botSEO15156
AhrefsBotSEO14561
BaiduspiderПоисковая система11473
NutchПоисковая система11023
ia_archiverSEO10477
WebCopierАрхивация9538
WebStripperАрхивация8579
TeleportАрхивация7991
YandexПоисковая система7910
Offline ExplorerАрхивация7786
SiteSnaggerАрхивация7744
psbotПоисковая система7605
TeleportProАрхивация7063
EmailSiphonСпамерский скрапер6715
EmailCollectorСпамерский скрапер6611
larbinНеизвестно6436
BLEXBotSEO6435
SemrushBotSEO6361
MSIECrawlerАрхивация6354
mogetНеизвестно6091

В списке боты нескольких определённых типов.

Первая группа — краулеры, которые собирают данные для SEO и маркетингового анализа. Эти фирмы хотят получить как можно больше данных для своей аналитики — генерируя заметную нагрузку на многие сервера. Бот Ahrefs даже хвастается: «AhrefsBot — второй самый активный краулер после Googlebot», так что вполне понятно, почему люди хотят заблокировать этих надоедливых ботов. Majestic (MJ12Bot) позиционирует себя как инструмент конкурентной разведки. Это значит, что он скачивает ваш сайт, чтобы снабдить полезной информацией ваших конкурентов — и тоже на главной странице заявляет о «крупнейшем в мире индексе ссылок».

Вторая группа user-agents — от инструментов, которые стремятся быстро скачать веб-сайт для персонального использования в офлайне. Инструменты вроде WebCopier, Webstripper и Teleport — все они быстро скачивают полную копию веб-сайта на ваш жёсткий диск. Проблема в скорости многопоточного скачивания: все эти инструменты очевидно настолько забивают трафик, что сайты достаточно часто их запрещают.

Наконец, есть поисковые системы вроде Baidu (BaiduSpider) и Yandex, которые могут агрессивно индексировать контент, хотя обслуживают только языки/рынки, которые не обязательно очень ценны для определённых сайтов. Лично у меня оба эти краулера генерируют немало трафика, так что я бы не советовал блокировать их.

Объявления о работе

Это знак времени, что файлы, которые предназначены для чтения роботами, часто содержат объявления о найме на работу разработчиков программного обеспечения — особенно специалистов по SEO.

Источник

Как блокировать ботов и краулеров на сайте

Здравствуйте, дамы и господа, в этой статье хочу рассказать о том, как я блокирую вредных ботов, например, ботов ahfers, Semrush, PetalBot, Majestic, Megaindex и многих других. В целом, боты, которые активно копаются по сайту, создают очень много проблем. И на определённом этапе начинают съедать огромное количество ресурсов сервера, на котором расположен ваш сайт.

Ботов необходимо блокировать

Мало того что боты создают дополнительную колоссальную нагрузку на сервер, что выльется в оплату дополнительных ресурсов для оного. Ну или в более дорогой тариф для хостинга.

В общем, благодаря информации, которую собирают данные сервисы, ваш сайт у конкурентов как на ладони. Так что ботов нужно блокировать, особенно если у вас коммерческий проект.

Но просто знайте, что чем старше ваш сайт и заметнее в сети, тем больше ботов на него будет приходить. Сначала их численность будет незначительной, а создаваемая нагрузка не будет представлять собой проблему.

Со временем ботов станет очень много, ресурсов хостинга или сервера не будет хватать. Банально, на моём сайте возникла такая ситуация. Мне даже пришлось перевести сайт на другой хостинг, чтобы хватало ресурсов, но и там ресурсов хватало почти вплотную.

Нагрузка на сервер упала очень даже заметно. Конечно, 20-30% — разница не самая большая, но чем крупнее сайт, тем больше ботов на нём будет, соответственно, эти 20-30% разницы превратятся в переплаты за хостинг или VPS.

Конечно, результат может показаться не самым впечатляющим, но оно того стоило. Теперь мне не нужно докупать дополнительные CP или переходить на тариф подороже, соответственно, простой блок ботов позволяет сэкономить деньги.

Вам рекомендую сделать то же самое.

Как блокировать плохих ботов

Разделим ботов на две части:

Полезные. Боты поисковых систем и их сервисов. Например, YandexBot, GoogleImage. Их блокировать нельзя, это плохо скажется на ваших позициях в поисковых системах.

Плохие боты. Разные сервисы вроде SemRush, Ahfers, Megaindex и т. п. В общем, именно их будем отрезать.

После блокировки всевозможных плохих ботов у вас значительно упадёт нагрузка на сервер. Если от вашего хостера приходят уведомления, что превышен лимит процесс о рного времени ( CP ), то самое время отрезать часть плохих ботов. Какие ро боты и краулеры конкретно увеличивают нагрузку, можете увидеть в логах.

Найти логи мож но на сервере, как правило, логи посещений пишутся в отдельные журналы. Например, в Fozzy их можно увидеть в разделе «Статистика» в панели DirectAdmin, на Бегет придётся отдельно включить «Журналы доступа» в панели управления хостингом. В общем, если сами не знаете, как это сделать, задайте вопрос вашему хостеру, они с этим помогут.

ahrefsbot что за бот

После вы увидите примерно такую картину, где в логах будут записаны куча User-Agent, разнообразных IP, а также время посещения.

ahrefsbot что за бот

Бездумно блокировать всё подряд не рекомендую. Нужно вычленить именно бота, если блокировать всех «юзер-агентов», то заблокируете и реальных посетителей.

Многие боты себя идентифицируют. Таких отсечь легче всего.

ahrefsbot что за бот

Некоторые боты себя не идентифицируют или даже маскируются под краулеры. Их отсекать можно по IP- адресам, но это практически бесполезно, так как у вредоносных роботов IP- адреса постоянно меняются.

Также можно настроить фильтрацию посредством обратных DNS- запросов, но это задача непростая, так что в этой статье ограничимся разбором блокировки идентифицируемых ботов, а также наиболее «наглых» IP- адресов.

Этот вариант самый лучший, так как боты и краулеры частенько игнорируют директивы из robots.txt. Есть вариант блокировать с помощью команды SetEnvIfNoCase User-Agent или через ReveriteCond. Первый способ получше. Ну, лично для меня.

В данном списке я собрал именно тех ботов, которых выловил на своём сайте. И блокировка сработала. В логах вы увидите, что ботам выдаётся ответ сервера 403, соответственно, нагрузка на ваш сайт снизится.

Учтите, на многих сайтах есть аналогичные списки для блокировки ботов и краулеров. Рекомендую их бездумно не копировать, подобные директивы часто сделаны людьми из-за рубежа, соответственно, там бездумно блокируют краулеры Яндекс и Mail.ru, что плохо скажется на позициях сайта в Яндекс.

Банальный пример кода:

ahrefsbot что за бот

И многие контент-мейкеры из СНГ бездумно копируют такие коды себе на сайты. Так что смотрите внимательно и анализируйте.

В своих вариантах я опубликовал только тех ботов, которые атакуют мой сайт. В ваших логах могут быть иные роботы и краулеры.

У себя использую такой код, он оказался вполне работоспособным:

Потом в логах можете увидеть, что заблокированным ботам выдаётся ответ сервера 403:

ahrefsbot что за бот

Соответственно, бот не сможет парсить контент, а также скачивать данные сайта, например, rss- ленты или другие фиды.

Есть ещё один вариант кода, работать может не на всех серверах:

Работать данные варианты будут только с теми ботами, которые себя идентифицируют. Если же боты маскируются под другие краулеры или притворятся реальными посетителями, то такие методы не сработают.

Можно их банить по IP, но об этом чуть дальше.

Блокировка ботов через robots.txt

Некоторые боты можно банить через файл robots.txt. Но работает это только при одном условии: если робот или краулер не игнорирует директивы, прописанные в этом файле. По своим логам видел, что многие боты даже не запрашивают этот файл никогда, соответственно, директив в нём даже не увидят.

В общем, мы запретили обход сайта определённому User-Agent. Но, как уже сказал, бот может просто проигнорировать данную директиву.

Также можем через файл robots.txt не только заблокировать бот, а, например, указать скорость обхода, чтобы он продолжил находиться на сайте, но сильно его не грузил.

Crawl-delay позволяет установить задержку между запросами, но данная директива считается устаревшей, большинство ботов её игнорирует, соответственно, её использование не выглядит целесообразным.

В общем, на robots.txt нельзя надеяться при блокировке ботов, так как большей частью роботов этот файл попросту игнорируется.

Блокировка ботов и краулеров по IP

Бывает, в логах попадаются очень наглые боты, которые не идентифицируют себя, но генерируют большую нагрузку на сервер. Защитить от них может либо какая-нибудь AntiDDoS- система, капча и тому подобные фишки, либо блокировка по IP.

Блокировка по IP целесообразна только тогда, когда определённый бот посылает много запросов с 1-го IP- адреса.

Но, как правило, в этом мало смысла, у ботов, как правило, много IP в запасе, соответственно, при дискредитации 1-го адреса бот быстро появится с другого.

Но иногда данный вариант помогает. Но всегда проверяйте IP перед блокировкой, самым «наглым» IP в логах может оказаться ваш собственный. Также можно чисто случайно забанить IP краулеров Яндекс или Google.

Код для блокировки выглядит так:

Каждый новый IP в список добавляйте через пробел.

Блокировка ботов пойдёт вашему сайту на пользу

Чуть-чуть разгрузит сервер, а также информации о вашем сайте у конкурентов будет поменьше, так что не стесняйтесь и блокируйте. Инструкцию приложил. Конечно, если ваш сайт усиленно долбят боты с разных IP и никак себя не идентифицируют, придётся подумать о более серьёзных методах защиты, но частенько для того, чтобы снизить нагрузку на сервер будет достаточно тех методов, что предложил выше.

На этом с вами прощаюсь, желаю успехов, а также поменьше вредных ботов на сайте!

Насколько публикация полезна?

Нажмите на звезду, чтобы оценить!

Средняя оценка 4.2 / 5. Количество оценок: 5

Источник

Блокировка поисковых ботов Ahrefs Bot и Semrush Bot или как снизить нагрузку на сервер

Блокировка поисковых ботов Ahrefs Bot и Semrush Bot или как снизить нагрузку на сервер

На любимом хостинге, в моем недорогом тарифе есть ограничения по нагрузке на сервер, и в один прекрасный день мне пришло письмо от хостера, типа уменьшите нагрузку на сервер, проанализируйте логи, возможно какие-то скрипты работают неправильно. Странно подумал я, вроде ничего не менял, ранее хостер не жаловался на повышенную нагрузку. Думал может опять какой-нибудь вредоносный код теребит процессор, проверил ai-bolitом, вроде все нормально, ничего подозрительного не обнаружено. Полез в логи, как предлагал хостер. И там обнаружил, что очень много запросов от различных поисковых ботов, в том числе от каких то до селе неизвестных: Ahrefs Bot и Semrush Bot, количество запросов составляло до 40% от общего количества запросов. Да еще херовы хакеры ищут, удаленные ранее, вредоносные файлы, да еще с такой периодичностью, как будто бояться что-то пропустить)))

Почитал рекомендации, что с этим делать и вот что накопал:

1. В файле robots.txt необходимо запретить поисковым ботам сканирование сайта:

Так как незнаю, в логах указано название ботов, как SemrushBot/1.1

bl и AhrefsBot/5.1, то думаю не будет лишним прописать и эти названия ботов. Конечно жаль, что если блокировка бота происходит по уникальному названию бота типа AhrefsBot/5.1, видимо при смене цифры 5.1 бот необходимо будет заново прописывать в robots.txt

2. Блокировка ботов в htaccess:

3. Блокировка хакеров и вообще подозрительных ip адресов в файле htaccess:
Данное выражение говорит о том, что доступ разрешен всем, кроме данных ip адресов, причем указав только 163.172. я блокирую доступы для группы ip с 163.172.0.0 – 163.172.255.255. ip адреса перечисляются через пробел.

Источник

Блокировка ботов и снижение нагрузки на сервер

Исследуя логи сервера, можно найти огромное число ботов, которые буквально атакуют ваш сайт изо дня в день, создавая огромную нагрузку на сервер. Блокировка ненужных ботов – логичный этап развития крупных проектов.

Вторая сторона медали – исследование вашего проекта конкурентами через сервисы, например: ahrefs, semrush, serpstat, linkpad и другие. Если вы делаете SEO-продвижения с помощью PBN-сетей, через эти сервисы можно очень легко отследить всю вашу сеть, после чего “настучать” в Google для последующего бана всей сети сайтов читера. Чтобы этого не случилось, следует уделить время закрытию от ботов этих сервисов.

Есть и другие преимущества от блокировки, например: частичная защита от воровства контента, защита от замысла ддос и хакерских атак. Обычно все это делается с предварительным анализом сайта, которые проводятся некоторыми из нижеуказанных ботов.

Популярные боты, создающие нагрузку на сервер

Список ботов, создающих нагрузку на сервер, периодически пополняется и обновляется:

Напишите в комментариях, нужно ли расписывать, к чему относятся каждый из ботов выше (название сервиса и другая информация)?

Как заблокировать AhrefsBot, SemrushBot, MJ12bot и других ботов?

Существует 2 известных мне метода надежной блокировки от плохих ботов:

Если вы знаете другие методы, обязательно напишите в комментариях!

Источник

Как закрыть доступ роботам pr-cy, semrush

Здравствуйте. Подскажите может у кого-то есть готовое решение как закрыть доступ всем роботам вроде Pr-cy, semrush и ихним аналогам. Список всех роботов которым закрыть доступ в robots.txt. Чтобы не повторяли ссылочный профиль по обратным ссылкам.

да, это я знаю. Но кроме pr-cy есть ещё semrush, кроме semrush ещё штуки 3-4 знаю. Но допускаю что их больше чем 3-4 мне известных. Вот и думал, может у кого-то есть заготовка для robots.txt где список запретов для всех известных подобных роботов был.

мне кажется если бы кто то создал такой список, это было бы очень полезно для общества).

вот кстати robots.txt с того сайта который я тогда не смог семрашем пробить

Кстати а Pr-cy не закрыт ))

SetEnvIfNoCase User-Agent «^MegaIndex» bad_bot
SetEnvIfNoCase User-Agent «^LinkpadBot» bad_bot
SetEnvIfNoCase User-Agent «^AhrefsBot» bad_bot
SetEnvIfNoCase User-Agent «^MJ12bot» bad_bot
SetEnvIfNoCase User-Agent «^rogerBot» bad_bot
SetEnvIfNoCase User-Agent «^bingbot» bad_bot
SetEnvIfNoCase User-Agent «^bingbot/2.0» bad_bot
SetEnvIfNoCase User-Agent «^Baiduspider» bad_bot
SetEnvIfNoCase User-Agent «^Baiduspider/2.0» bad_bot
SetEnvIfNoCase User-Agent «^BLEXBot» bad_bot
SetEnvIfNoCase User-Agent «^proximic» bad_bot
SetEnvIfNoCase User-Agent «^GrapeshotCrawler/2.0» bad_bot
SetEnvIfNoCase User-Agent «^DotBot/1.1» bad_bot
SetEnvIfNoCase User-Agent «^coccocbot-web/1.0» bad_bot
SetEnvIfNoCase User-Agent «^Exabot/3.0» bad_bot

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *