Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

Данный парсер применяется для того, чтобы собрать список товаров, или же в случае, когда с сайта нужно собирать только цены и наличие товаров. В этом случае парсеру не нужно заходить в каждую карточку товара, а достаточно собрать информацию из группы, на одной странице которой может отображаться сразу 20 или больше товаров, соответственно скорость сбора информации будет в разы выше. Пример страницы категории, на которой отображаются сразу несколько товаров:

...

Сначала нужно добавить список ссылок на категории, которые будут парситься. Это можно сделать как вручную Настройка групп товаров для парсинга , так и с помощью парсера ссылок на группы Парсер ссылок на группы товаров

Чтобы парсер выполнялся, в настройках парсера должна стоять такая птичка.

...

Warning

Выполняйте тесты, как описано в конце инструкции, чтобы убедиться, что результаты получены парсером правильно, прежде чем запускать парсер.

Настройки парсера

Перейдите во вкладку “Настройки”

...

ИД валюты можно посмотреть во вкладке Конфигурация.

...

Note

Если не указан ID валюты, то берется основная валюта программы

6. Указать настройки наличия товара

...

Ид типа “Нет в наличии” всегда 2. В наличии - 1, Под заказ - 3.

Наличие по умолчанию, на случай, если ни один из заданных типов наличия не найден, можно указать так: 3|def , т.е. вместо текста поиска указывается ключевое слово def. В моем примере наличие указывается “Под заказ”, если других типов наличия не найдено.

...

При необходимости, можно так же сохранять текст наличия, если он отображается в группе. Например, срок доставки.

...

Теги указываются по такому же принципу, как и теги для названия и ссылки.Других полей из категории товаров сохранить нельзя. Если нужны другие поля, то после получения товаров из группы нужно дополнительно использовать парсер карточек товаров. Настройка парсера описаний

Другие поля

Если нужно загрузить информацию в какие-то другие поля, то они настраиваются здесь:

...

Каждая строка - отдельное поле.

В строке можно указать от 5 до 8 настроек парсинга, разделенных вертикальной чертой |

Пример:

f_3rtf2qase|1|1|"profile":"|"|blockfrom|blockto|1

f_3rtf2qase - название поля, в которое сохраняется информация

1 - второй параметр, 1 - если должно быть число, 0 - если строка

1 - третий параметр, 1 - если полученное значение нужно добавить в конец названия товара, 0 - если не нужно добавлять

"profile":" - тег начала значения (4-ый)

" - тег завершения значений (5-ый)

blockfrom - тег начала блока со значением (6-й)

blockto - тег конца блока со значением (7-ой)

7-ой или 6 и 7 теги можно не указывать.

1 - восьмой параметр, ставится 1, если нужно очистить полученный результат от html-тегов. Этот параметр можно так же не указывать. Если его нужно указать, при этом не нужен текст поиска блоков, то указывается так:

f_3rtf2qase|1|1|"profile":"|"|||1

т.е. вертикальные черты должны быть и между ними пусто.

Если необходимо производить какую-то дополнительную обработку значений, то нужно эти значения получать из карточек товаров. Парсер информации из карточек товаров

Другие настройки

Флаг “Страница в JSON формате” - нужно использовать, если при парсинг категорий получает не HTML текст, а JSON.

...

Позиция товара в поле - здесь указывается код поля, в которое сохраняется номер позиции товара в категории (если, например, при открытии категории сайта товар отображается пятым, то сюда сохранится цифра 5). Это можно использовать, например, для сохранения информации о популярности товара на сайте, если в группе он выводится по популярности или можно его так отсортировать.

...

Тестирование парсера

В ходе настройки можно проверять, какую информацию собирает парсер по тем тегам, которые вы указали. Для этого нужно ввести ссылку на какую-то группу товаров с сайта (или несколько ссылок, если в разных группах на сайте информация отображается по-разному), по которой будет тестироваться и нажать кнопку “Тест”.

...

При нажатии кнопки “Тест” текст страницы, который возвращает сайт-источник, сохраняется в файл

Quad Solutions\crmpack\temp\all_page_N.html , где N - ид парсера

Блок текста со всеми товарами сохраняется в файл

Quad Solutions\crmpack\temp\all_prod_block_N.txt, где N - ид парсера

Можно в этих файлах попробовать найти нужный вам текст и теги HTML вокруг этого текста, если введенные из браузера не работают.