Quad.Wiki

Добавление нового парсера

Прайс для сохранения товаров

Парсер собирает информацию о товарах, соответственно эти товары нужно куда-то добавлять. Добавляются товары в прайс и вам для нового парсера нужно в программе QuadX добавить новый прайс. При этом прайс можно не добавлять, если у вас уже есть прайс поставщика, для которого нужно парсить описание с сайта этого же поставщика, т.е. товары из прайса поставщика можно использовать для поиска на его сайте, а описания и фото добавлять сразу к товарам поставщика.

Если поставщика у вас нет, то прайс добавляется так:

Перейдите во вкладку вверху Прайсы / внизу 3. Настройка прайсов и нажмите кнопку Добавить

В открывшемся окне введите название прайса (обычно это название сайта, откуда парсинг) и тип прайса (для сбора цен - Конкуренты, для сбора описаний - Другой)

 

Укажите так же группу для прайса, чтобы можно было быстро находить прайсы, относящиеся к парсингу

 

Нажмите Ок - в результате добавится прайс, никаких больше настроек не нужно и вы можете приступать к настройке парсера.

 

Новый парсер

Откройте вверху вкладку Автоматизация / внизу Парсеры и нажмите кнопку Добавить

Введите название парсера, а так же заполните другие настройки:

 

Установить “Нет в наличии” - используется для парсеров цен, когда перед новым запускам всем товарам, полученным ранее парсер будет устанавливать статус Нет в наличии, если вам нужно использовать в наценке только товары, которые в наличии на сайте-источнике.

Обновить список товаров - используется для парсеров, которые собирают цены или описание по списку товаров, вашему или из прайса поставщика - если установлена эта птичка, то перед каждым парсингом будут догружаться новые товары из прайса поставщика в парсер.

Кол-во потоков - данной настройкой регулируется скорость сбора информации. Если стоит 1 поток, то парсер собирает по очереди все товары. Если, например, 5, то запускается 5 параллельных процессов и сбор информации может до 5 раз быстрее. При этом нужно помнить, что чем больше потоков, тем больше нагрузка на сайт-источник. Если это какой-то простой сайт, то он может вообще перестать работать или сильно тормозить и при 10 потоках скорость сбора информации станет меньше, чем при 2х потоках. Так же владелец сайта может заблокировать (“забанить”) ваш IP-адрес и вы не сможете парсить информацию с этого сайта без использования Proxy. Сайт перестанет открываться с вашего компьютера.

Для парсинга описаний используйте 1 поток. В большинстве случаев вам нет никакого смысла за 1 день собрать описания 100 000 товаров, так как вы все равно не сможете их обработать, чтобы добавить себе на сайт. Нормальная скорость, чтобы не доставлять неудобств сайту-источнику, это 1 товар в 2-3 секунды.

 

Загружать новые товары каждые (дней) - здесь можно указать интервал в днях, когда парсер загружает новые товары из прайса поставщика. Чтобы не загружать эти товары каждый раз, при запуске парсера, товары могут загружаться, например, 1 раз в 3 дня.

Повторный поиск ссылок каждые (дней) - используется для парсеров, которые ищут ссылку на карточку товара используя поиск на сайте источнике. При поиске каждому товару устанавливается статус, найдено или не найдено. Те товары, которые не найдены, при последующих запусках парсера больше не обрабатываются. Можно установить период, через который они будут заново обработаны, т.е. заново будет запущен поиск по сайту на случай, если там появились новые товары.

 

Использовать сохраненные страницы - если стоит эта птичка, то страница сайта-источника парсится 1 раз и сохраняется в текстовый файл в папку Sync\qs_logs\pars[ИД парсера]\logs\ , название файла формируется из адреса этой страницы. При повторном запуске парсера он уже не переходит на страницу на сайте источнике, а берет информацию из сохраненного файла. Используется это, например, для парсеров описаний, когда вы со временем решите дополнительно парсить какую-то еще информацию со страницы сайта-источника. В этом случае не нужно будет заново парсить сайт, а информацию парсер возьмет из сохраненных ранее страниц.

Так же вы эту функцию можете использовать для отладки, чтобы видеть код страницы целиком, который получает парсер, так как часто код страницы, который вы видите в браузере, может отличаться от реального кода.

Обновить сохраненные страницы - эта птичка используется совместно с предыдущей птичкой, для того, чтобы спарсить заново сохраненные ранее страницы.

Fiddler - если установлена птичка, то все запросы идут через программу Fiddler, для отладки (она должна быть обязательно запущена)

 

Выбор, какие типы парсеров будут запущены при работе данного парсера:

Парсер ссылок на категории - если установлена птичка, то при парсинге будет использован так же и парсер ссылок на группы товара. Его можно отключить, если по каким-то причинам вам больше не нужно собирать ссылки на группы.

Парсер категорий товаров - если установлена птичка, то при парсинге будет использован так же и парсер информации о товарах из категорий товаров на сайте.

Парсер карточек товаров - если установлена птичка, то при парсинге будет использован так же и парсер информации из карточек товаров на сайте. Вместе с этой настройкой используются 2 дополнительные:

Использовать поиск товара - если установлена данная птичка и сделаны необходимые настройки, то парсер, чтобы получить ссылку на нужный товар, будет использовать поиск на сайте-источнике (вводить какой-то текст из выбранного поля на сайте и сохранять ссылку из результата поиска, если такая есть).

Парсить только товары с пустым Значение 1 - с такой настройкой парсер карточек товаров будет работать только для товаров, которые ранее еще не парсились (т.е. не будет повторного парсинга одних и тех же товаров). Чтобы это работало, нужно при парсинге сохранять какую-либо информацию в Значение 1, например код или название товара (подробнее о “Значение 1” в описании парсера карточек товаров).

 

Вкладка “Настройки”

После добавления нового парсера нужно заполнить базовые настройки, указанные в этой вкладке.

Прайс - выбирается прайс ИЗ которого берутся товары для парсинга (в случае, если парсер работает через поиск ваших товаров на сайте-источнике). Если вам не нужны товары для поиска (товары вы ищете так же с помощью парсера), то здесь можно выбрать прайс, который вы создали по этой инструкции для сохранения информации.

 

Поле - указывается поле, по которому будет осуществляться поиск на сайте-источнике, если парсер работает через поиск. Если вам не нужен поиск, выбирайте здесь “Название”.

 

Дополнительные поля - указываются коды полей, которые используются для дополнительного поиска, если не найден товар с использованием информации в Поле. Поля указываются через точку с запятой.

 

Фильтр (таблица товаров p) - указывается SQL-фильтр для выбора товаров для парсинга. Фильтр должен начинаться с and и использовать префикс:

p. для полей из прайса

c. для полей из группы товара прайса

pc. для полей из группы собственного прайса

and (p.is_exists <> 2) - выбираются товары, которые в наличии в прайсе

and (p.prod_group like '%<12345%') - выбираются товары основного прайса из группы, код которой начинается с 12345

and (c.caption = 'Телевизоры') - выбираются товары из прайса, группа которых называется Телевизоры

and (manuf = 'Bosch') - выбираются товары бренда Bosch (обратите внимание, для бренда не нужен префикс)

and (p.is_exists <> 2 and p.prod_group like '%<12345%') - можно использовать сразу несколько условий для фильтрации, в этом случае между условиями добавляется and

 

Удалять символы из текста поиска - можно указать список символов, которые будут удалены из текста, который находится в поле для поиска. Символы указываются просто перечислением, без разделителей. Например: .+!)(}{ Указанные символы будут в итоге заменены на пробел. Можно использовать в случае, если какие-то символы в вашем тексте мешают правильному поиску товара на сайте-источнике.

 

Прайс результатов - указывается прайс, в который сохраняются результаты парсинга (тот прайс, который вы добавили в начале этой инструкции)

URL - поле, в которое сохраняется ссылка на найденный на сайте-источнике товар

Поле для ID - выбирается поле (тип поля Строка) в которое сохраняется ID результата парсинга. Выбирайте здесь ID сайт - такое поле у вас уже обычно создано в базе.

 

Формировать каталог - данная птичка используется в случае, когда парсер вы используете для формирования каталога, т.е. когда товары из прайсов поставщиков программа ищет на сайте-источнике и, если находит, добавляет этот товар в ваш собственный прайс. На данный функционал есть отдельная инструкция.

 

 

Запросов на 1 прокси - если вы для защиты своего IP-адреса используете прокси, то здесь можно задать количество запросов, которые будут отправляться с 1 прокси, прежде чем заменить его на другой из вашего списка.

Таймаут чтения - указывается интервал в миллисекундах (1 секунда = 1000 миллисекунд), максимальное время, которое программа ждет ответа от сайта источника. Если сайт медленный, например страницы открываются по 20 секунд, то здесь нужно увеличивать время ожидания, ввести 20000 или больше.

Таймаут подключения - указывается интервал в миллисекундах (1 секунда = 1000 миллисекунд), максимальное время, которое ждет парсер, чтобы получить ответ от сайта-источника. Если сайт вас блокирует, то подключение к нему может идти и 5 минут. Чтобы не ждать долго, устанавливается этот интервал. Если подключение долгое по каким-то другим причинам и сайт в итоге открывается, то вы можете увеличить интервал.

Интервал между запросами - указывается интервал в миллисекундах (1 секунда = 1000 миллисекунд), который ожидает программа между отправкой запросов к сайту-источнику, т.е. интервал между открытием разных страниц сайта-источника. Интервал нужно устанавливать, чтобы регулировать нагрузку на сайт или для обхода защиты, когда вас блокируют в случае частых запросов. Для самых сложных случаев, например, яндекс.маркет, вы можете установить здесь 60000, чтобы скорость парсинга была 1 товар в минуту.

Деактивировать ссылку после парсинга - если установить эту птичку, то после успешного парсинга товара ссылка, по которой он парсился, будет деактивирована, т.е. при повторном запуске парсинга этот товар больше не будет парситься. Повторно спарсить товар можно будет установив эту птичку

 

Настройки Антикапчи

Здесь можно указать ключ к сервису AntiCaptcha, который используется для автоматического распознавания капчи Google. На данный момент реализовано только для hotline.ua.

 

Замена ID - здесь можно указать код поля, значение которого будет использовано для формирования папок и названий файлов, которые создаются при парсинге (например, для сохранения фото).

По умолчанию используется ИД из результатов.

 

 

Запуск парсера

Дальше настройте автоматический запуск парсера через Sync.X

Запуск парсера

 

Настройка сбора информации

Парсер ссылок на группы товаров

Парсер информации из групп товаров

Парсер информации из карточек товаров