Quad.Wiki

Блокировки парсинга

Многие сайты защищаются от парсинга и самый простой вид защиты - это блокировка IP-адреса вашего компьютера, с которого идет парсинг. В этом случае сайт перестанет открываться и парсить его будет нельзя. Вы будете получать ошибку HTTP/1.1 403 Forbidden или какие-то другие ошибки (например, будет отображаться капча). Такая ошибка еще может быть в случае, когда сайт проверяет, чтобы в заголовках запроса к сайту были какие-то данные, например определенные Cookie или User-Agent определенных свежих версий.

Если на том компьютере, откуда идет парсинг, сайт открывается в браузере без проблем, а ошибка есть только при парсинге, нужно в первую очередь попробовать добавить в настройки User-Agent.

 

User-Agent

Зайдите, например, на сайт https://n5m.ru/usagent.html

Скопируйте этот текст

и вставьте его сюда в настройках парсера:

после этого проверьте работу парсера, возможно этого достаточно, чтобы сайт, который парсите, не выдавал ошибки.

Прокси (Proxy)

Если добавление User-Agent не помогло или же сайт не открывается и через браузер, то тогда можно попробовать использовать прокси-сервера. При их использовании сайт, который парсится, не будет видеть ваш IP адрес и будет блокировать какой-то другой адрес.

Есть сервисы, в которых можно получить множество IP-адресов, при этом они же сами меняют адрес для каждого запроса, т.е. каждая полученная парсером страница будет открываться с разных IP-адресов и сайт, который парсится, не сможет защититься простой блокировкой этого адреса.

 

Самый дешевый известный нам сервис, предоставляющий IP-адреса с автоматической их заменой на каждый запрос:

https://stormproxies.com/

Зарегистрируйтесь на сайте и зайдите в кабинет.

Добавьте новую подписку (Rotating Proxies)

 

Стоимость зависит от количества одновременно запущенных парсеров. Если у вас одновременно может быть запущено меньше 10 парсеров в 1 поток, то выбирайте первый, самый дешевый вариант за 14$ в месяц.

После оформления и оплаты подписки нужно ввести в настройках сервиса IP адрес, с которого будет идти парсинг (вашего компьютера или сервера). Если у вас динамический IP то нужно будет его вводить каждый раз, когда он меняется. Посмотреть свой IP адрес можно например здесь https://myip.com/

 

IP вводится сюда:

 

После ввода и сохранения нужно еще подождать 15-20 минут, пока он заработает в сервисе.

Для использования скопируйте этот адрес и порт:

 

Где настраивать прокси

И вставьте его в настройках парсера или парсеров

 

Во вкладках “Поиск” и “Переход” поставьте птичку “Использовать прокси” и сохраните настройки.

Теперь при парсинге будет использоваться другой IP-адрес, а не ваш.

Вы можете так же просто купить прокси в каком-то другом месте и вставить этот список в настройках.

В этом случае поставьте здесь “1”, чтобы на каждый запрос программа выбирала разный прокси из вашего списка.

 

Некоторые сервисы дают прокси для которого необходимо вводить логин и пароль. В этом случае прокси адреса указываются в настройках в таком виде

 

адрес:порт@логин:пароль

 

Если с такими настройками вы получаете ошибку Connection Closed Gracefully,

 

то попробуйте добавить еще тег [ba].

адрес:порт@логин:пароль[ba]

 

Блокировка стран

В случае, если сайт, который вы парсите, заблокировал не какой-то конкретный адрес, а целиком доступ для страны, IP которой вы используете для парсинга, то нужно купить proxy другой страны, из которой доступен парсинг.

Российские прокси можно купить, например, здесь https://proxy6.net/order

Купите для начала 1 прокси, проверить, будет ли работать

Купленные прокси в программу добавляются так же, как и это указано в разделе выше.

Если сайт заблокирует через какое-то время и этот ваш прокси, который купили. То нужно покупать 10-20 прокси (при парсинге программа будет их менять случайным образом) и установить интервал парсинга, например, 5000 (в миллисекундах), чтобы между каждым запросом к сайту был интервал 5 секунд.