Quad.Wiki
Блокировки парсинга
Многие сайты защищаются от парсинга и самый простой вид защиты - это блокировка IP-адреса вашего компьютера, с которого идет парсинг. В этом случае сайт перестанет открываться и парсить его будет нельзя. Вы будете получать ошибку HTTP/1.1 403 Forbidden или какие-то другие ошибки (например, будет отображаться капча). Такая ошибка еще может быть в случае, когда сайт проверяет, чтобы в заголовках запроса к сайту были какие-то данные, например определенные Cookie или User-Agent определенных свежих версий.
Если на том компьютере, откуда идет парсинг, сайт открывается в браузере без проблем, а ошибка есть только при парсинге, нужно в первую очередь попробовать добавить в настройки User-Agent.
User-Agent
Зайдите, например, на сайт https://n5m.ru/usagent.html
Скопируйте этот текст
и вставьте его сюда в настройках парсера:
после этого проверьте работу парсера, возможно этого достаточно, чтобы сайт, который парсите, не выдавал ошибки.
Прокси (Proxy)
Если добавление User-Agent не помогло или же сайт не открывается и через браузер, то тогда можно попробовать использовать прокси-сервера. При их использовании сайт, который парсится, не будет видеть ваш IP адрес и будет блокировать какой-то другой адрес.
Есть сервисы, в которых можно получить множество IP-адресов, при этом они же сами меняют адрес для каждого запроса, т.е. каждая полученная парсером страница будет открываться с разных IP-адресов и сайт, который парсится, не сможет защититься простой блокировкой этого адреса.
Самый дешевый известный нам сервис, предоставляющий IP-адреса с автоматической их заменой на каждый запрос:
Зарегистрируйтесь на сайте и зайдите в кабинет.
Добавьте новую подписку (Rotating Proxies)
Стоимость зависит от количества одновременно запущенных парсеров. Если у вас одновременно может быть запущено меньше 10 парсеров в 1 поток, то выбирайте первый, самый дешевый вариант за 14$ в месяц.
После оформления и оплаты подписки нужно ввести в настройках сервиса IP адрес, с которого будет идти парсинг (вашего компьютера или сервера). Если у вас динамический IP то нужно будет его вводить каждый раз, когда он меняется. Посмотреть свой IP адрес можно например здесь https://myip.com/
IP вводится сюда:
После ввода и сохранения нужно еще подождать 15-20 минут, пока он заработает в сервисе.
Для использования скопируйте этот адрес и порт:
Где настраивать прокси
И вставьте его в настройках парсера или парсеров
Во вкладках “Поиск” и “Переход” поставьте птичку “Использовать прокси” и сохраните настройки.
Теперь при парсинге будет использоваться другой IP-адрес, а не ваш.
Вы можете так же просто купить прокси в каком-то другом месте и вставить этот список в настройках.
В этом случае поставьте здесь “1”, чтобы на каждый запрос программа выбирала разный прокси из вашего списка.
Некоторые сервисы дают прокси для которого необходимо вводить логин и пароль. В этом случае прокси адреса указываются в настройках в таком виде
адрес:порт@логин:пароль
Если с такими настройками вы получаете ошибку Connection Closed Gracefully,
то попробуйте добавить еще тег [ba].
адрес:порт@логин:пароль[ba]
Блокировка стран
В случае, если сайт, который вы парсите, заблокировал не какой-то конкретный адрес, а целиком доступ для страны, IP которой вы используете для парсинга, то нужно купить proxy другой страны, из которой доступен парсинг.
Российские прокси можно купить, например, здесь https://proxy6.net/order
Купите для начала 1 прокси, проверить, будет ли работать
Купленные прокси в программу добавляются так же, как и это указано в разделе выше.
Если сайт заблокирует через какое-то время и этот ваш прокси, который купили. То нужно покупать 10-20 прокси (при парсинге программа будет их менять случайным образом) и установить интервал парсинга, например, 5000 (в миллисекундах), чтобы между каждым запросом к сайту был интервал 5 секунд.