Quad.Wiki

Skip to end of metadata
Go to start of metadata

You are viewing an old version of this page. View the current version.

Compare with Current View Page History

« Previous Version 14 Next »

Настройки получения информации

Настройки для сохранения информации из карточки товара сайта в товар в программе указываются во вкладке “6. Обработка”

Перейти к тегу - указывается тег страницы, к которому переходит парсер, перед тем как собирать информацию. Используется, если нужно пропустить какую-то часть страницы (не обязательно указывать).

Начало блока поиска - указывается, если нужно перед обработкой страницы вырезать какую-то ее часть, чтобы ограничить текст, в котором будет поиск информации (не обязательно указывать).

Конец блока поиска - завершающий тег вырезаемого блока текста.

Наличие - здесь можно указать настройки обработки наличия товара, информация по которому видна на сайте в карточке товара. Наличие указывается в виде списка ИД наличия|текст поиска, каждый новый ID с новой строки.

После знака | нужно добавить код из текста страницы, который однозначно означает, что товар находится в требуемом наличии, указанном с помощью ИД перед знаком |

1|button>Купить
3|button>Заказать

Если указанного варианта текста не найдено на странице, то товар станет Нет в наличии

Можно наоборот, задать только текст для нет в наличии, например

2|class=”NotAvailable”

В этом случае, если найдет такой текст, то товар будет Нет в наличии, если не найден - в наличии.

ИД типа наличия можно посмотреть во вкладке Конфигурация

Поля для парсинга

Поля указываются в таблице, которая по умолчанию имеет следующий вид

Поле определяется по коду, примеры кодов можно увидеть здесь Полезные SQL-запросы в пункте “4. Коды полей в таблицах Продукция и Прайсы”. Так же можно использовать коды дополнительных полей (вкладка Конфигурация / внизу Доп. поля)

если парсится цена, то нужно указывать и поле price_curr_id - в котором записывается ИД валюты, в которой отображается цена на сайте. ИД валюты можно посмотреть здесь:

В настройках поля ИД указывается как значение по умолчанию:

Если нужно товар, который парсится, добавлять в группу, то указывается поле category , создать можно только категорию одним уровнем, т.е. дерево категорий не создается. Можно получить полный путь категорий через регулярное выражение и сохранить его используя разделитель, например в виде “Родитель1 / Родетель2/ Категория”

Настройка парсинга поля

Колонка Акт. - если не установлен флаг, то поле не парсится, т.е. можно временно отключить поле, если это нужно по каким-то причинам.

N - в этой колонке указывается порядок, в котором собирается информация с сайта. Порядок нужен для случая, когда в одно поле нужно собирать информацию из нескольких блоков, или если какая-то информация может быть в разных карточках в разных местах, чтобы проверить все возможные варианты. Указывайте порядок с интервалом 10, чтобы при необходимости можно было вставить поле без перенумерации.

Поле - здесь указывается код поля, в который будет сохранена информация.

Слева - текст html, который находится слева от вырезаемого значения со страницы

Справа - текст html, который находится справа от вырезаемого значения со страницы

Ограничить блок слева - если невозможно однозначно указать теги для вырезаемого значения, т.е. они встречаются несколько раз на странице, то можно сначала вырезать какой-то блок текст, а уже потом в этом блоке вырезать значение тегами “Слева” и “Справа”. Если при этом не указан текст в “Ограничить блок справа”, то парсер просто передвинется к тексту, указанному в “Ограничить блок слева”, и вырежет значение между блоками “Слева” и “Справа” начиная с места, куда сдвинулся.

Ограничить блок справа - html-текст, который находится в конце вырезаемого блока.

 Пример

Для примера возьмем вот такой код, нам нужно вырезать артикул товара

артикул расположен между тегами <td> и </td> , но таких тегов на странице много, соответственно нам нужно сначала вырезать блок текста, который начинается с артикула</td> и заканчивается тегом </tr>, получаем такие настройки:

Регулярное выражение - можно использовать регулярные выражения для получения текста со страницы. В этом случае для скорости работы желательно сначала вырезать блок текста с помощью предыдущих двух параметров, а уже затем получать из него значение с помощью регулярного выражения. Регулярным выражением можно получить сразу несколько значений, поэтому нужно заполнить еще дополнительные колонки:

Кол-во - если поставить 0, то будут сохранены все значения, полученные регулярным выражением, если другое число - то указанное количество (например 3). Полученные значения записываются в строку. Разделитель значений по умолчанию точка с запятой. Если нужен какой-то другой разделитель, то он указывается в колонке “Объединить”.

Шаблон - здесь указывается шаблон строки, в который подставляется значение, полученное регулярным выражением. Например следующий шаблон https://site.ru/catalog[[value]]

формирует ссылку из ее части, полученной регулярным выражением, полученное значение подставляется вместо [[value]]. Если нужно значение без изменений, то оставляйте поле пустым.

Получение характеристик

Для записи характеристик желательно добавить пользовательское поле с типом Текст, но можно использовать и поле Полное описание (info).

В настройках поля нужно задать параметры, которыми будет получен полный блок текста, содержащий характеристики.

В колонке Шаблон указать OTH->QN

В колонке Дополнительно ввести настройки парсинга названия и значения характеристики из блока текста.

Пример характеристик в коде страницы:

В Дополнительно указывается 10 строк настроек:

1. Начало блока кода страницы из которого вырезается название характеристики

2. Конец блока кода страницы из которого вырезается название характеристики

3. Код перед названием характеристики

4. Код после названия характеристики

5. Начало блока кода страницы из которого вырезается значение характеристики

6. Конец блока кода страницы из которого вырезается значение характеристики

7. Код перед значением характеристики

8. Код после значения характеристики

9. Код перед названием характеристики, если не нашло название характеристики настройками 3 и 4

10. Код после названием характеристики, если не нашло название характеристики настройками 3 и 4

Настройки 9 и 10 нужны для добавления 2х вариантов получения названия характеристики.

В моем примере 1 и 2 строки можно оставить пустыми, так как для получения названия характеристики не нужно вырезать какой-то блок текста, а достаточно ввести только границы в которых название характеристики

Для получения значения характеристики нужно ввести границы текста, так как внутри находится еще ссылка на похожие товары по характеристике.

Само значение после этого из текста можно получить между символами ><

В случае, если характеристика товара содержит много значений с посторонним текстом, для извлечения можно использовать регулярное выражение.

Пример:

Строку 7 нужно начать со слова “REGEXP “ - с пробелом между словом и регулярным выражением.

В строке 8 можно ввести любой текст или пусто.

Результат:

Множественные значения записываются через запятую.

Колонка Дополнительно

В этой колонке может быть следующие параметры:

1. Настройки парсинга характеристик из текста

2. Тег “UPFIRST” - в полученном результате первая буква будет сделана заглавной

3. Тег “FROMRIGHT” - при поиске информации ограниченной настройками слева и справа сначала будет найден текст который справа, и потом от этой позиции найден текст слева, первое его вхождение перед найденным справа текстом.

4. Тег “REMURL“ - из текста, полученного парсером, удаляются следующие теги: <a>, <img>, <iframe> и все что между тегами

Колонка Замены

В этой колонке можно настройки для замены одного текста на другой в полученном парсером значении.

Окно настроек открывается кнопкой если поставить курсор в ячейку.

В настройках указывается номер по порядку, в котором выполняются замены (обязательно), текст который нужно заменить и на что его заменить.

Колонка Шаблон

В этой колонке можно задать какой-то шаблон, по которому формируется итоговое значение поля. В шаблоне можно использовать следующие теги:

[[value]] - в это место шаблона подставляется значение, которое получено парсером. Например, по каким-то причинам вы не можете парсером получить целиком текст ссылки, а только часть ссылки, без адреса сайта (например, “/category/product1.html”) в этом случае полную ссылку можно сформировать по такому шаблону: https://testsite.ru[[value]]

Колонка Папка для файлов

Здесь указывается путь к папке в которую будут скачиваться файлы (фото) по ссылкам, полученным в результате парсинга поля. Если путь не указать, то файлы скачиваться не будут, а только сохраняться ссылки. Если сайт вас не банит, то лучше не скачивать фото парсером, а скачивать их через программу Quad.X заданием Обработка фото и описаний - так не придется скачиваться фото на все товары, которые парсятся, а будут скачаны только те, у которых, например, еще нет фото, или по каким-то другим условиям.

Пример указания настройки:

[SUB]g:\Quad Solutions\files\5_ image\pars\pars523

Как видно из примера, путь указывается к папке Quad Solutions\files\5_ image\pars - она у вас создана по умолчанию, в этой папке нужно добавить подпапку, в которую сохраняются файлы, подпапка должна обязательно называться по следующему правилу:

1. начало названия - слово site

2. в конце названия - ИД прайса, в который сохраняются результаты

В моем примере это site523

Если такая папка еще не создана, то она добавится автоматически.

После выполнения парсинга в папке появятся фотки, разбитые на подпапки

название подпапки - первые 4 цифры из ИД товара в парсере

В названии файла после qs_file_ идет так же ИД товара в парсере. В программе это ИД можно увидеть в поле ID Site в прайсе, куда парсилось.

Это поле вы выбирали здесь:

Чтобы фото присвоились товарам нужно во вкладке Загрузка прайсов указать приоритет для прайса, из которого нужно брать фото.

Если вы скачали фото этой настройкой, то значение приоритета должно заканчиваться цифрой 9 (девять), чтобы программа заново не качала фото, а брала его из папки.

Колонка Объединить

Бывают случаи, когда вам в одно поле, например Описание, нужно сохранить несколько блоков текста со страницы парсинга, или если по каким-то тегам на странице нет информации, то попробовать найти по другим тегам - для этого используется настройка в колонке Объединить.

  • No labels