Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

Table of Contents

Настройки получения информации

...

После знака | нужно добавить код из текста страницы, который однозначно означает, что товар находится в требуемом наличии, указанном с помощью ИД перед знаком |

1|button>Купить
3|button>Заказать

Если указанного варианта текста не найдено на странице, то товар станет Нет в наличии

Можно наоборот, задать только текст для нет в наличии, например

2|class=”NotAvailable”

В этом случае, если найдет такой текст, то товар будет Нет в наличии, если не найден - в наличии.

...

MAINPAGE - такой тег означает, что нужно вернуться на начальную страницу, чтобы спарсить информацию для всех полей, которые идут следом за этим. Используется вместе с тегом GOTO в случае, когда с главной страницы нужно перейти на несколько дополнительных по разным ссылкам, которые есть в исходном коде главной страницы.

Пример использования:

...

Теги для получения информации в поле

...

Шаблон - здесь указывается шаблон строки, в который подставляется значение, полученное регулярным выражением. Например следующий шаблон https://site.ru/catalog[[value]]

формирует ссылку из ее части, полученной регулярным выражением, полученное значение подставляется вместо [[value]]. Если нужно значение без изменений, то оставляйте поле пустым.

Expand
titleПример использования регулярных выражений
Code Block
languagehtml
<div class="new model">
	<p>12345<br/>7890M<p/>
</div>

например есть такой код страницы, из которого вам нужно получить 7890M

при этом 12345 - меняющееся значение, на каждой странице разная

здесь можно ограничить блок тегами class="new model"> и </div>

и задать следующее регулярное выражение

<p>.+?<br/>(.+?)<p/>

в нем встречается текст .+? - он означает, что в этом месте может быть любой текст

а так же то же самое, только в скобках (.+?) - это означает то же любой текст, но при этом его нужно сохранить в качестве значения, полученного регулярным выражением.

...

Как видно из примера, путь указывается к папке Quad Solutions\files\5_ image\pars - она у вас создана по умолчанию, в этой папке нужно добавить подпапку, в которую сохраняются файлы, подпапка должна обязательно называться по следующему правилу:

начало названия - слово

...

site

в конце названия -

...

ИД прайса, в который сохраняются результаты

...

Если вы скачали фото этой настройкой, то значение приоритета должно заканчиваться цифрой 9 (девять), чтобы программа заново не качала фото, а брала его из папки.

...

В начале настройки должен присутствовать тег [SUB] который означает что в настройке указан путь к папке, в которой будут созданы подпапки исходя из ИД товара.

Note

Если указать просто путь к папке, без [SUB], то все файлы будут сохранены в эту папку, без подпапок

Бывают случаи, когда вам в одно поле, например Описание, нужно сохранить несколько блоков текста со страницы парсинга, или если по каким-то тегам на странице нет информации, то попробовать найти по другим тегам - для этого используется настройка в колонке Объединитьв ссылке на фото не указано расширение файла или оно указано как webp, т.е. на сжатое изображение, которая программа при обработке “разжимает” в обычный файл. В этом случае вы можете указать парсеру, чтобы он заменял расширение на jpg или png, т.е. на то, в каком формате скачивается фото или в какой формат оно преобразуется. Для этого нужно указать дополнительно теги [PNG] или [JPG].

Например, ссылка на ваше фото выглядит так https://www.signeda.lt/photo/500x500/44413/PAD11062AL-8W0821171B-posparnis.webp

После выполнения действия Обработка фото и описаний в папку ready вы видите, что появились файлы в формате PNG (можно посмотреть в исходном тексте файла, открыв его в блокноте, или каким-то другим способом). В этом случае в настройке нужно указать:

[SUB][PNG]D:\Quad Solutions\files\5_ image\pars\pars507

и фото при скачивании сохранится с расширением .png вместо .webp

...

Note

Если у файла не указано расширение в ссылке и вы не указали явно с помощью тега, какое расширение присваивать, то файл сохраняется с расширением .jpg

Если вам нужно скачать парсером фото, то рекомендуем поле добавлять этой кнопкой:

...

В этом случае настройки папки добавятся автоматически. Если вы не хотите сразу скачивать фото, а только сохранить ссылки на них, то нужно очистить после добавления колонку “Папку для файлов”.

Колонка Объединить

Бывают случаи, когда вам в одно поле, например Описание, нужно сохранить несколько блоков текста со страницы парсинга, или если по каким-то тегам на странице нет информации, то попробовать найти по другим тегам - для этого используется настройка в колонке Объединить.

Вы можете задать несколько одинаковых полей для парсинга, а в колонку Объединить указать символ или текст, который будет вставлен между несколькими результатами. Например <br /> - такой html-тег означает перенос строки между объединяемым текстом.

Если указать в эту настройку тег NOCAT, то информация в этих полях не будет объединяться, а каждое последующее значение, если оно найдено, заменит предыдущее. Это можно использовать в случае, когда на странице значение для поля может выводиться в разных карточках товара разными тегами. В этом случае будет записано в поле последнее найденное значение, если такое есть на странице парсинга.

Колонка Дополнительно

В этой колонке может быть следующие параметры:

...

Тег “FROMRIGHT” - при поиске информации ограниченной настройками слева и справа сначала будет найден текст который справа, и потом от этой позиции найден текст слева, первое его вхождение перед найденным справа текстом.

...

Тег “BLOCKRIGHT” - при получение информации ограниченной настройками блока слева и справа сначала будет найден текст который справа, и потом от этой позиции найден текст слева, первое его вхождение перед найденным справа текстом.

...

Тег “REMURL“ - из текста, полученного парсером, удаляются следующие теги: <a>, <img>, <iframe> и все что между тегами

...