Многие сайты защищаются от парсинга и самый простой вид защиты - это блокировка IP-адреса вашего компьютера, с которого идет парсинг. В этом случае сайт перестанет открываться и парсить его будет нельзя.Для обхода такой защиты можно использовать proxy. Вы будете получать ошибку HTTP/1.1 403 Forbidden или какие-то другие ошибки (например, будет отображаться капча). Такая ошибка еще может быть в случае, когда сайт проверяет, чтобы в заголовках запроса к сайту были какие-то данные, например определенные Cookie или User-Agent определенных свежих версий.
Если на том компьютере, откуда идет парсинг, сайт открывается в браузере без проблем, а ошибка есть только при парсинге, нужно в первую очередь попробовать добавить в настройки User-Agent.
Table of Contents |
---|
User-Agent
Зайдите, например, на сайт https://n5m.ru/usagent.html
Скопируйте этот текст
...
и вставьте его сюда в настройках парсера:
...
после этого проверьте работу парсера, возможно этого достаточно, чтобы сайт, который парсите, не выдавал ошибки.
Прокси (Proxy)
Если добавление User-Agent не помогло или же сайт не открывается и через браузер, то тогда можно попробовать использовать прокси-сервера. При их использовании сайт, который парсится, не будет видеть ваш IP адрес и будет блокировать какой-то другой адрес.
...
Зарегистрируйтесь на сайте и зайдите в кабинет.
Добавьте новую подписку (Rotating Proxies)
...
Для использования скопируйте этот адрес и порт:
...
Где настраивать прокси
И вставьте его в настройках парсера или парсеров
...
В этом случае поставьте здесь “1”, чтобы на каждый запрос программа выбирала разный прокси из вашего списка.
...
Некоторые сервисы дают прокси для которого необходимо вводить логин и пароль. В этом случае прокси адреса указываются в настройках в таком виде
...
адрес:порт@логин:пароль
Если с такими настройками вы получаете ошибку Connection Closed Gracefully,
...
то попробуйте добавить еще тег [ba].
адрес:порт@логин:пароль[ba]
...
Блокировка стран
В случае, если сайт, который вы парсите, заблокировал не какой-то конкретный адрес, а целиком доступ для страны, IP которой вы используете для парсинга, то нужно купить proxy другой страны, из которой доступен парсинг.
Российские прокси можно купить, например, здесь https://proxy6.net/order
Купите для начала 1 прокси, проверить, будет ли работать
...
Купленные прокси в программу добавляются так же, как и это указано в разделе выше.
Если сайт заблокирует через какое-то время и этот ваш прокси, который купили. То нужно покупать 10-20 прокси (при парсинге программа будет их менять случайным образом) и установить интервал парсинга, например, 5000 (в миллисекундах), чтобы между каждым запросом к сайту был интервал 5 секунд.
...