Quad.Wiki

Skip to end of metadata
Go to start of metadata

You are viewing an old version of this page. View the current version.

Compare with Current View Page History

« Previous Version 6 Next »

Данный парсер настраивается в случае, когда вам нужно собрать с сайта-источника ссылки на группы товаров, для последующего парсинга товаров из этих групп.

Парсер применяется в случае, когда этих групп много и нельзя их добавить вручную. Нужно сначала попытаться найти на этом сайте какую-то ссылку, по которой бы отображались все товары. Например “Каталог” - в этом случае нужно будет для парсера товаров по группам указать только одну ссылку, а не отдельно ссылки на каждую группу.

Пример задачи

Нужно спарсить только 2 раздела с сайта

При этом, при переходе в раздел не отображаются товары, а отображаются только подгруппы товаров. И уже при переходе в подгруппу видны сами товары.

Т.е. чтобы собрать ссылки на товары сначала нужно собрать ссылки на группы товаров, в которых они находятся.

Настройка парсера

Настройка парсера ссылок на группы осуществляется во вкладке Настройки / 3. Категории / Парсер ссылок на категории

Для сбора ссылок нужно сначала выделить блок на странице, в котором отображаются эти ссылки. Для этого используются настройки “Начало блока ссылок” и “Конец блока ссылок”, т.е. со страницы сайта нужно получить вот эту часть:

Смотрим в исходном коде, с каких тегов начинается блок

и добавляем их в Начало блока ссылок, в примере это <div class="listing categories-list

при этом нужно открыть полный текст страницы и проверить, что такой текст встречается только в одном месте, или же встречается первым на странице для нужного для парсинга блока.

Конец блока ссылок - текст, которым заканчивается блок с ссылками, его можно оставить пустым, в этом случае извлечение ссылок на группы товаров будет из всего текста до конца страницы, начиная с текста “Начало блока ссылок”

Начало блока 1 ссылки - текст HTML, начиная с которого начинается блок одной ссылки

Конец блока 1 ссылки - текст, которым заканчивается блок одной ссылки

Важно чтобы текст начала и конца встречался только в начале и в конце блока, в котором содержится название группы товаров и ссылка на нее. Нельзя чтобы этот текст встречался еще внутри блока.

При наведении на нужный блок можно нажать Edit as HTML, чтобы увидеть текст всего блока и, по возможности, из этого текста выбрать начало и конец.

Дальше идут настройки получения названия группы и ссылки на нее. Для получения этих значений можно сначала определить блок, в рамках которого парсер будет искать нужный текст, а затем уже сами значения. Если не определен блок для ссылки или названия, то ссылка или название ищется в рамках всего блока для 1 ссылки.

В примере для названия группы сразу отделяется блок, который начинается с тегов “Блок от” и “Блок до”, а затем уже выделяется название, которое находится между текстом > и < в пределах полученного блока текста.

В примере для ссылки используется весь блок текста для 1 ссылки, из которого выделяется текст между тегами href=” и

Добавить в начало URL - текст, который добавляется к тексту ссылки, полученному предыдущими настройками. Т.е. на странице товара может быть только часть ссылки, без указания домена сайта, например, “/instrument/” , а чтобы программа перешла по этой ссылке нужно добавить и сам домен, чтобы получилось, например, https://site.ru/instrument/ , т.е. добавить в начало текста ссылки “https://site.ru

Добавить в конец URL - здесь указывается текст, который будет добавлен в конец ссылки, чтобы получилась ссылка для перемещения между страницами группы товаров. Т.е. например, при переходе на третью страницу, ссылка сайта выглядит как https://site.ru/instrument/page3/ - в этом случае в конец https://site.ru/instrument/ нужно добавить текст page3/ , а чтобы программа прошла все ссылки, то нужно номер страницы заменить на {N} - вместо этого значения программа будет подставлять номер страницы, при работе парсера по группам товаров.

Бывают случаи, когда для страниц в категории есть страницы https://site.ru/instrument/page3/, https://site.ru/instrument/page4/ и т.д., но нет страницы https://site.ru/instrument/page1/ , т.е. самой первой страницы группы товаров, вместо нее возможен переход только на страницу https://site.ru/instrument/ - в таком случае нужно поставить птичку “Дублировать ссылку без добавления в конец текста” и указать номер страницы, с которой будет начинать работать ссылка перехода по страницам, т.е. в которой есть тег {N}

Страницы поиска - здесь указывается список ссылок на страницы, с которых будут парсить ссылки на группы, т.е., как правило, это список ссылок на вышестоящие группы, которые находятся на уровень выше, чем группы товаров, список которых нужно получить. Каждая ссылка указывается с новой строки.

Если на одной страницы нужные ссылки выводятся в одном виде, а на второй странице - в другом, то нужно настраивать 2 отдельных парсера. Во втором парсере нужно настроить только парсер ссылок на категории товаров и указать ID главного парсера, куда будут сохранены ссылки.

В результате работы парсера будут получены ссылки на группы товаров, которые можно использовать для парсера товаров по категориям.

Для проверки настроек парсера можно использовать кнопку Тест. Будет произведен парсинг страницы по ссылке, введенной рядом, результаты будут отображены в виде текстовой информации.

Если все ок, должны быть видны строки “добавлено”

Если поставить птичку Fiddler, то при тесте будет использоваться эта программа.

  • No labels