Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

Используемые термины

Парсер - настроенный модуль, который собирает информацию с какого-либо сайта

Сайт-источник - сайт с которого осуществляется парсинг (сбор) информации.

Группа товара - группа на сайте источнике, если уровней групп несколько, то это может называться деревом групп.

...

Код страницы - исходный код HTML страницы сайта (карточки товара или группы товаров), который можно посмотреть, например, через браузер Chrome (в меню правой кнопки мыши на странице сайта). Можно просмотреть как код рядом с каким-то элементом страницы, так и код целиком страницы.

...

HTML-теги - текст, с помощью которого размечается страница сайта, часть исходного кода страницы.

...

Fiddler - бесплатная программа, с помощью которой можно отслеживать, какие запросы отправляет парсер и какие результаты возвращает сайт. https://www.telerik.com/fiddler

Виды парсеров

Программа позволяет делать парсеры в следующем виде:

1. Парсер карточек товаров по ссылкам. Ссылки могут быть загружены из следующих источников:

1.a прайс поставщика, если он в прайсе вместе с товаром дает еще ссылку на карточку сайта, откуда нужно спарсить информацию

1.б файл sitemap.xml сайта, откуда нужно парсить

1.в добавлены вручную в Excel файл и загружены в программу в виде прайса

1.г получены с помощью парсера по категориям сайта

1.д получены при помощи поиска на сайте по названию или артикулу (для этого, как правило, нужен прайс поставщика, в котором есть артикулы или названия, такие же как на сайте, или же по вашим артикулам на сайте-источнике должны находиться однозначно правильные товары).

2. Парсер информации из групп товаров на сайте-источнике