Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

Table of Contents

...

После знака | нужно добавить код из текста страницы, который однозначно означает, что товар находится в требуемом наличии, указанном с помощью ИД перед знаком |

1|button>Купить
3|button>Заказать

Если указанного варианта текста не найдено на странице, то товар станет Нет в наличии

Можно наоборот, задать только текст для нет в наличии, например

2|class=”NotAvailable”

В этом случае, если найдет такой текст, то товар будет Нет в наличии, если не найден - в наличии.

...

Если нужно товар, который парсится, добавлять в группу, то указывается поле category , создать можно только категорию одним уровнем, т.е. дерево категорий не создается. Можно получить полный путь категорий через регулярное выражение и сохранить его используя разделитель, например в виде “Родитель1 / Родетель2/ Категория”

Настройка парсинга поля

Добавление поля

Нажмите кнопку “Добавить”, если по-умолчанию не добавлены нужные вам поля.

...

Пример настроек:

...

Колонка Акт. - если не установлен флаг, то поле не парсится, т.е. можно временно отключить поле, если это нужно по каким-то причинам.

...

Шаблон - здесь указывается шаблон строки, в который подставляется значение, полученное регулярным выражением. Например следующий шаблон https://site.ru/catalog[[value]]

формирует ссылку из ее части, полученной регулярным выражением, полученное значение подставляется вместо [[value]]. Если нужно значение без изменений, то оставляйте поле пустым.

Expand
titleПример использования регулярных выражений
Code Block
languagehtml
<div class="new model">
	<p>12345<br/>7890M<p/>
</div>

например есть такой код страницы, из которого вам нужно получить 7890M

при этом 12345 - меняющееся значение, на каждой странице разная

здесь можно ограничить блок тегами class="new model"> и </div>

и задать следующее регулярное выражение

<p>.+?<br/>(.+?)<p/>

в нем встречается текст .+? - он означает, что в этом месте может быть любой текст

а так же то же самое, только в скобках (.+?) - это означает то же любой текст, но при этом его нужно сохранить в качестве значения, полученного регулярным выражением.

...

Колонку “Значение 1” можно так же использовать для того, чтобы парсер заново не парсил товары, которые были обработаны ранее и получили уже Значение 1. Для этого нужно в настройках парсера поставить эту птичку:

...

Колонка Замены

В этой колонке можно настройки для замены одного текста на другой в полученном парсером значении.

...

В настройках указывается номер по порядку, в котором выполняются замены (обязательно), текст который нужно заменить и на что его заменить.

Колонка Шаблон

В этой колонке можно задать какой-то шаблон, по которому формируется итоговое значение поля. В шаблоне можно использовать следующие теги:

[[value]] - в это место шаблона подставляется значение, которое получено парсером. Например, по каким-то причинам вы не можете парсером получить целиком текст ссылки, а только часть ссылки, без адреса сайта (например, “/category/product1.html”) в этом случае полную ссылку можно сформировать по такому шаблону: https://testsite.ru[[value]]

...

Колонка Папка для файлов

Здесь указывается путь к папке в которую будут скачиваться файлы (фото) по ссылкам, полученным в результате парсинга поля. Если путь не указать, то файлы скачиваться не будут, а только сохраняться ссылки. Если сайт вас не банит, то лучше не скачивать фото парсером, а скачивать их через программу Quad.X заданием Обработка фото и описаний - так не придется скачиваться фото на все товары, которые парсятся, а будут скачаны только те, у которых, например, еще нет фото, или по каким-то другим условиям.

...

Если вы скачали фото этой настройкой, то значение приоритета должно заканчиваться цифрой 9 (девять), чтобы программа заново не качала фото, а брала его из папки.

Колонка Объединить

Бывают случаи, когда вам в одно поле, например Описание, нужно сохранить несколько блоков текста со страницы парсинга, или если по каким-то тегам на странице нет информации, то попробовать найти по другим тегам - для этого используется настройка в колонке Объединить.

Колонка Дополнительно

В этой колонке может быть следующие параметры:

Настройки парсинга характеристик из текста

Тег “UPFIRST” - в полученном результате первая буква будет сделана заглавной

Тег “FROMRIGHT” - при поиске информации ограниченной настройками слева и справа сначала будет найден текст который справа, и потом от этой позиции найден текст слева, первое его вхождение перед найденным справа текстом.

Тег “REMURL“ - из текста, полученного парсером, удаляются следующие теги: <a>, <img>, <iframe> и все что между тегами

Получение характеристик

Для записи характеристик желательно добавить пользовательское поле с типом Текст, но можно использовать и поле Полное описание (info).

...

Множественные значения записываются через запятую.

Колонка Дополнительно

В этой колонке может быть следующие параметры:

1. Настройки парсинга характеристик из текста

2. Тег “UPFIRST” - в полученном результате первая буква будет сделана заглавной

3. Тег “FROMRIGHT” - при поиске информации ограниченной настройками слева и справа сначала будет найден текст который справа, и потом от этой позиции найден текст слева, первое его вхождение перед найденным справа текстом.4. Тег “REMURL“ - из текста, полученного парсером, удаляются следующие теги: <a>, <img>, <iframe> и все что между тегами

Как тестировать парсер?

1. После настройки парсинга