Прайс для сохранения товаров
...
Повторный поиск ссылок каждые (дней) - используется для парсеров, которые ищут ссылку на карточку товара используя поиск на сайте источнике. При поиске каждому товару устанавливается статус, найдено или не найдено. Те товары, которые не найдены, при последующих запусках парсера больше не обрабатываются. Можно установить период, через который они будут заново обработаны, т.е. заново будет запущен поиск по сайту на случай, если там появились новые товары.Fiddler - если установлена птичка, то все запросы идут через программу Fiddler, для отладки (она должна быть обязательно запущена)
Использовать сохраненные страницы - если стоит эта птичка, то страница сайта-источника парсится 1 раз и сохраняется в текстовый файл в папку Sync\qs_logs\pars[ИД парсера]\logs\ , название файла формируется из адреса этой страницы. При повторном запуске парсера он уже не переходит на страницу на сайте источнике, а берет информацию из сохраненного файла. Используется это, например, для парсеров описаний, когда вы со временем решите дополнительно парсить какую-то еще информацию со страницы сайта-источника. В этом случае не нужно будет заново парсить сайт, а информацию парсер возьмет из сохраненных ранее страниц.
...
Обновить сохраненные страницы - эта птичка используется совместно с предыдущей птичкой, для того, чтобы спарсить заново сохраненные ранее страницы.
Парсить только по категориям - когда установлена эта птичка, то парсер будет собираться только информацию из групп товаров, даже если в нем дополнительно настроен сбор информации и из карточек товаров.
Парсить ссылки Fiddler - если установлена птичка, то все запросы идут через программу Fiddler, для отладки (она должна быть обязательно запущена)
Выбор, какие типы парсеров будут запущены при работе данного парсера:
Парсер ссылок на категории - если установлена птичка, то при парсинге будет использован так же и парсер ссылок на группы товара. Его можно отключить, если по каким-то причинам вам больше не нужно собирать ссылки на группы.
Парсер категорий товаров - если установлена птичка, то при парсинге будет использован так же и парсер информации о товарах из категорий товаров на сайте.
Парсер карточек товаров - если установлена птичка, то при парсинге будет использован так же и парсер информации из карточек товаров на сайте. Вместе с этой настройкой используются 2 дополнительные:
Использовать поиск товара - если установлена данная птичка и сделаны необходимые настройки, то парсер, чтобы получить ссылку на нужный товар, будет использовать поиск на сайте-источнике (вводить какой-то текст из выбранного поля на сайте и сохранять ссылку из результата поиска, если такая есть).
Парсить только товары с пустым Значение 1 - с такой настройкой парсер карточек товаров будет работать только для товаров, которые ранее еще не парсились (т.е. не будет повторного парсинга одних и тех же товаров). Чтобы это работало, нужно при парсинге сохранять какую-либо информацию в Значение 1, например код или название товара (подробнее о “Значение 1” в описании парсера карточек товаров).После заполнения этих настроек можно приступить к настройке парсера.
Вкладка “Настройки”
После добавления нового парсера нужно заполнить базовые настройки, указанные в этой вкладке.
...
Прайс - выбирается прайс ИЗ которого берутся товары для парсинга (в случае, если парсер работает через поиск ваших товаров на сайте-источнике). Если вам не нужны товары для поиска (товары вы ищете так же с помощью парсера), то здесь можно выбрать прайс, который вы создали по этой инструкции для сохранения информации.
Поле - указывается поле, по которому будет осуществляться поиск на сайте-источнике, если парсер работает через поиск. Если вам не нужен поиск, выбирайте здесь “Название”.
Дополнительные поля - указываются коды полей, которые используются для дополнительного поиска, если не найден товар с использованием информации в Поле. Поля указываются через точку с запятой.
Фильтр (таблица товаров p) - указывается SQL-фильтр для выбора товаров для парсинга. Фильтр должен начинаться с and и использовать префикс:
p. для полей из прайса
c. для полей из группы товара прайса
pc. для полей из группы собственного прайса
and (p.is_exists <> 2) - выбираются товары, которые в наличии в прайсе
and (p.prod_group like '%<12345%') - выбираются товары основного прайса из группы, код которой начинается с 12345
and (c.caption = 'Телевизоры') - выбираются товары из прайса, группа которых называется Телевизоры
and (manuf = 'Bosch') - выбираются товары бренда Bosch (обратите внимание, для бренда не нужен префикс)
and (p.is_exists <> 2 and p.prod_group like '%<12345%') - можно использовать сразу несколько условий для фильтрации, в этом случае между условиями добавляется and
Удалять символы из текста поиска - можно указать список символов, которые будут удалены из текста, который находится в поле для поиска. Символы указываются просто перечислением, без разделителей. Например: .+!)(}{
Указанные символы будут в итоге заменены на пробел. Можно использовать в случае, если какие-то символы в вашем тексте мешают правильному поиску товара на сайте-источнике.
Прайс результатов - указывается прайс, в который сохраняются результаты парсинга (тот прайс, который вы добавили в начале этой инструкции)
URL - поле, в которое сохраняется ссылка на найденный на сайте-источнике товар
Поле для ID - выбирается поле (тип поля Строка) в которое сохраняется ID результата парсинга. Выбирайте здесь ID сайт - такое поле у вас уже обычно создано в базе.
Формировать каталог - данная птичка используется в случае, когда парсер вы используете для формирования каталога, т.е. когда товары из прайсов поставщиков программа ищет на сайте-источнике и, если находит, добавляет этот товар в ваш собственный прайс. На данный функционал есть отдельная инструкция.
Запросов на 1 прокси - если вы для защиты своего IP-адреса используете прокси, то здесь можно задать количество запросов, которые будут отправляться с 1 прокси, прежде чем заменить его на другой из вашего списка.
Таймаут чтения - указывается интервал в миллисекундах (1 секунда = 1000 миллисекунд), максимальное время, которое программа ждет ответа от сайта источника. Если сайт медленный, например страницы открываются по 20 секунд, то здесь нужно увеличивать время ожидания, ввести 20000 или больше.
Таймаут подключения - указывается интервал в миллисекундах (1 секунда = 1000 миллисекунд), максимальное время, которое ждет парсер, чтобы получить ответ от сайта-источника. Если сайт вас блокирует, то подключение к нему может идти и 5 минут. Чтобы не ждать долго, устанавливается этот интервал. Если подключение долгое по каким-то другим причинам и сайт в итоге открывается, то вы можете увеличить интервал.
Интервал между запросами - указывается интервал в миллисекундах (1 секунда = 1000 миллисекунд), который ожидает программа между отправкой запросов к сайту-источнику, т.е. интервал между открытием разных страниц сайта-источника. Интервал нужно устанавливать, чтобы регулировать нагрузку на сайт или для обхода защиты, когда вас блокируют в случае частых запросов. Для самых сложных случаев, например, яндекс.маркет, вы можете установить здесь 60000, чтобы скорость парсинга была 1 товар в минуту.
Деактивировать ссылку после парсинга - если установить эту птичку, то после успешного парсинга товара ссылка, по которой он парсился, будет деактивирована, т.е. при повторном запуске парсинга этот товар больше не будет парситься. Повторно спарсить товар можно будет установив эту птичку
...
Настройки Антикапчи
...
Здесь можно указать ключ к сервису AntiCaptcha, который используется для автоматического распознавания капчи Google. На данный момент реализовано только для hotline.ua.
Замена ID - здесь можно указать код поля, значение которого будет использовано для формирования папок и названий файлов, которые создаются при парсинге (например, для сохранения фото).
По умолчанию используется ИД из результатов.
...
Запуск парсера
Дальше настройте автоматический запуск парсера через Sync.X
Настройка сбора информации
Парсер ссылок на группы товаров