Table of Contents |
---|
Настройки получения информации
...
После знака | нужно добавить код из текста страницы, который однозначно означает, что товар находится в требуемом наличии, указанном с помощью ИД перед знаком |
1|button>Купить
3|button>Заказать
Если указанного варианта текста не найдено на странице, то товар станет Нет в наличии
Можно наоборот, задать только текст для нет в наличии, например
2|class=”NotAvailable”
В этом случае, если найдет такой текст, то товар будет Нет в наличии, если не найден - в наличии.
...
MAINPAGE - такой тег означает, что нужно вернуться на начальную страницу, чтобы спарсить информацию для всех полей, которые идут следом за этим. Используется вместе с тегом GOTO в случае, когда с главной страницы нужно перейти на несколько дополнительных по разным ссылкам, которые есть в исходном коде главной страницы.
Пример использования:
...
Теги для получения информации в поле
...
Шаблон - здесь указывается шаблон строки, в который подставляется значение, полученное регулярным выражением. Например следующий шаблон https://site.ru/catalog[[value]]
формирует ссылку из ее части, полученной регулярным выражением, полученное значение подставляется вместо [[value]]. Если нужно значение без изменений, то оставляйте поле пустым.
Expand | |||||
---|---|---|---|---|---|
| |||||
например есть такой код страницы, из которого вам нужно получить при этом здесь можно ограничить блок тегами и задать следующее регулярное выражение <p>.+?<br/>(.+?)<p/> в нем встречается текст .+? - он означает, что в этом месте может быть любой текст а так же то же самое, только в скобках (.+?) - это означает то же любой текст, но при этом его нужно сохранить в качестве значения, полученного регулярным выражением. |
...
Как видно из примера, путь указывается к папке Quad Solutions\files\5_ image\pars
- она у вас создана по умолчанию, в этой папке нужно добавить подпапку, в которую сохраняются файлы, подпапка должна обязательно называться по следующему правилу:
начало названия - слово
...
site
в конце названия -
...
ИД прайса, в который сохраняются результаты
...
Если вы скачали фото этой настройкой, то значение приоритета должно заканчиваться цифрой 9 (девять), чтобы программа заново не качала фото, а брала его из папки.
...
В начале настройки должен присутствовать тег [SUB] который означает что в настройке указан путь к папке, в которой будут созданы подпапки исходя из ИД товара.
Note |
---|
Если указать просто путь к папке, без [SUB], то все файлы будут сохранены в эту папку, без подпапок |
Бывают случаи, когда вам в одно поле, например Описание, нужно сохранить несколько блоков текста со страницы парсинга, или если по каким-то тегам на странице нет информации, то попробовать найти по другим тегам - для этого используется настройка в колонке Объединитьв ссылке на фото не указано расширение файла или оно указано как webp, т.е. на сжатое изображение, которая программа при обработке “разжимает” в обычный файл. В этом случае вы можете указать парсеру, чтобы он заменял расширение на jpg или png, т.е. на то, в каком формате скачивается фото или в какой формат оно преобразуется. Для этого нужно указать дополнительно теги [PNG] или [JPG].
Например, ссылка на ваше фото выглядит так https://www.signeda.lt/photo/500x500/44413/PAD11062AL-8W0821171B-posparnis.webp
После выполнения действия Обработка фото и описаний в папку ready вы видите, что появились файлы в формате PNG (можно посмотреть в исходном тексте файла, открыв его в блокноте, или каким-то другим способом). В этом случае в настройке нужно указать:
[SUB][PNG]D:\Quad Solutions\files\5_ image\pars\pars507
и фото при скачивании сохранится с расширением .png вместо .webp
...
Note |
---|
Если у файла не указано расширение в ссылке и вы не указали явно с помощью тега, какое расширение присваивать, то файл сохраняется с расширением .jpg |
Если вам нужно скачать парсером фото, то рекомендуем поле добавлять этой кнопкой:
...
В этом случае настройки папки добавятся автоматически. Если вы не хотите сразу скачивать фото, а только сохранить ссылки на них, то нужно очистить после добавления колонку “Папку для файлов”.
Колонка Объединить
Бывают случаи, когда вам в одно поле, например Описание, нужно сохранить несколько блоков текста со страницы парсинга, или если по каким-то тегам на странице нет информации, то попробовать найти по другим тегам - для этого используется настройка в колонке Объединить.
Вы можете задать несколько одинаковых полей для парсинга, а в колонку Объединить указать символ или текст, который будет вставлен между несколькими результатами. Например <br /> - такой html-тег означает перенос строки между объединяемым текстом.
Если указать в эту настройку тег NOCAT, то информация в этих полях не будет объединяться, а каждое последующее значение, если оно найдено, заменит предыдущее. Это можно использовать в случае, когда на странице значение для поля может выводиться в разных карточках товара разными тегами. В этом случае будет записано в поле последнее найденное значение, если такое есть на странице парсинга.
Колонка Дополнительно
В этой колонке может быть следующие параметры:
...
Тег “FROMRIGHT” - при поиске информации ограниченной настройками слева и справа сначала будет найден текст который справа, и потом от этой позиции найден текст слева, первое его вхождение перед найденным справа текстом.
...
Тег “BLOCKRIGHT” - при получение информации ограниченной настройками блока слева и справа сначала будет найден текст который справа, и потом от этой позиции найден текст слева, первое его вхождение перед найденным справа текстом.
...
Тег “REMURL“ - из текста, полученного парсером, удаляются следующие теги: <a>, <img>, <iframe> и все что между тегами
...