Quad.Wiki

Skip to end of metadata
Go to start of metadata

You are viewing an old version of this page. View the current version.

Compare with Current View Page History

« Previous Version 5 Next »

Многие сайты защищаются от парсинга и самый простой вид защиты - это блокировка IP-адреса вашего компьютера, с которого идет парсинг. В этом случае сайт перестанет открываться и парсить его будет нельзя.

Для обхода такой защиты можно использовать proxy. При их использовании сайт, который парсится, не будет видеть ваш IP адрес и будет блокировать какой-то другой адрес.

Есть сервисы, в которых можно получить множество IP-адресов, при этом они же сами меняют адрес для каждого запроса, т.е. каждая полученная парсером страница будет открываться с разных IP-адресов и сайт, который парсится, не сможет защититься простой блокировкой этого адреса.

Самый дешевый известный нам сервис, предоставляющий IP-адреса с автоматической их заменой на каждый запрос:

https://stormproxies.com/

Добавьте новую подписку (Rotating Proxies)

Стоимость зависит от количества одновременно запущенных парсеров. Если у вас одновременно может быть запущено меньше 10 парсеров в 1 поток, то выбирайте первый, самый дешевый вариант за 14$ в месяц.

После оформления и оплаты подписки нужно ввести в настройках сервиса IP адрес, с которого будет идти парсинг (вашего компьютера или сервера). Если у вас динамический IP то нужно будет его вводить каждый раз, когда он меняется. Посмотреть свой IP адрес можно например здесь https://myip.com/

IP вводится сюда:

После ввода и сохранения нужно еще подождать 15-20 минут, пока он заработает в сервисе.

Для использования скопируйте этот адрес и порт:

И вставьте его в настройках парсера или парсеров

Во вкладках “Поиск” и “Переход” поставьте птичку “Использовать прокси” и сохраните настройки.

Теперь при парсинге будет использоваться другой IP-адрес, а не ваш.

Вы можете так же просто купить прокси в каком-то другом месте и вставить этот список в настройках.

В этом случае поставьте здесь “1”, чтобы на каждый запрос программа выбирала разный прокси из вашего списка.

Некоторые сервисы дают прокси для которого необходимо вводить логин и пароль. В этом случае прокси адреса указываются в настройках в таком виде

адрес:порт@логин:пароль

Если с такими настройками вы получаете ошибку Connection Closed Gracefully,

то попробуйте добавить еще тег [ba].

адрес:порт@логин:пароль[ba]

  • No labels