Используемые термины
Парсер - настроенный модуль, который собирает информацию с какого-либо сайта
Сайт-источник - сайт с которого осуществляется парсинг (сбор) информации.
Группа товара - группа на сайте источнике, если уровней групп несколько, то это может называться деревом групп.
Код страницы - исходный код HTML страницы сайта (карточки товара или группы товаров), который можно посмотреть, например, через браузер Chrome (в меню правой кнопки мыши на странице сайта). Можно просмотреть как код рядом с каким-то элементом страницы, так и код целиком страницы.
HTML-теги - текст, с помощью которого размечается страница сайта, часть исходного кода страницы.
Fiddler - бесплатная программа, с помощью которой можно отслеживать, какие запросы отправляет парсер и какие результаты возвращает сайт. https://www.telerik.com/fiddler
Виды парсеров
Программа позволяет делать парсеры в следующем виде:
1. Парсер карточек товаров по ссылкам. Ссылки могут быть загружены из следующих источников:
1.a прайс поставщика, если он в прайсе вместе с товаром дает еще ссылку на карточку сайта, откуда нужно спарсить информацию
1.б файл sitemap.xml сайта, откуда нужно парсить
1.в добавлены вручную в Excel файл и загружены в программу в виде прайса
1.г получены с помощью парсера по категориям сайта
1.д получены при помощи поиска на сайте по названию или артикулу (для этого, как правило, нужен прайс поставщика, в котором есть артикулы или названия, такие же как на сайте, или же по вашим артикулам на сайте-источнике должны находиться однозначно правильные товары).
2. Парсер информации из групп товаров на сайте-источнике