Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

Многие сайты защищаются от парсинга и самый простой вид защиты - это блокировка IP-адреса вашего компьютера, с которого идет парсинг. В этом случае сайт перестанет открываться и парсить его будет нельзя. Вы будете получать ошибку HTTP/1.1 403 Forbidden или какие-то другие ошибки (например, будет отображаться капча). Такая ошибка еще может быть в случае, когда сайт проверяет, чтобы в заголовках запроса к сайту были какие-то данные, например определенные Cookie или User-Agent определенных свежих версий.

Если на том компьютере, откуда идет парсинг, сайт открывается в браузере без проблем, а ошибка есть только при парсинге, нужно в первую очередь попробовать добавить в настройки User-Agent.

Table of Contents

User-Agent

Зайдите, например, на сайт https://n5m.ru/usagent.html

...

https://stormproxies.com/

Зарегистрируйтесь на сайте и зайдите в кабинет.

Добавьте новую подписку (Rotating Proxies)

...

Для использования скопируйте этот адрес и порт:

...

Где настраивать прокси

И вставьте его в настройках парсера или парсеров

...

Некоторые сервисы дают прокси для которого необходимо вводить логин и пароль. В этом случае прокси адреса указываются в настройках в таком виде

...

адрес:порт@логин:пароль

Если с такими настройками вы получаете ошибку Connection Closed Gracefully,

...

то попробуйте добавить еще тег [ba].

адрес:порт@логин:пароль[ba]

...

Блокировка стран

В случае, если сайт, который вы парсите, заблокировал не какой-то конкретный адрес, а целиком доступ для страны, IP которой вы используете для парсинга, то нужно купить proxy другой страны, из которой доступен парсинг.

Российские прокси можно купить, например, здесь https://proxy6.net/order

Купите для начала 1 прокси, проверить, будет ли работать

...

Купленные прокси в программу добавляются так же, как и это указано в разделе выше.

Если сайт заблокирует через какое-то время и этот ваш прокси, который купили. То нужно покупать 10-20 прокси (при парсинге программа будет их менять случайным образом) и установить интервал парсинга, например, 5000 (в миллисекундах), чтобы между каждым запросом к сайту был интервал 5 секунд.

...