Quad.Wiki

Skip to end of metadata
Go to start of metadata

You are viewing an old version of this page. View the current version.

Compare with Current View Page History

« Previous Version 5 Next »

Используемые термины

Парсер - настроенный модуль, который собирает информацию с какого-либо сайта

Сайт-источник - сайт с которого осуществляется парсинг (сбор) информации.

Группа товара - группа на сайте источнике, если уровней групп несколько, то это может называться деревом групп.

Код страницы - исходный код HTML страницы сайта (карточки товара или группы товаров), который можно посмотреть, например, через браузер Chrome (в меню правой кнопки мыши на странице сайта). Можно просмотреть как код рядом с каким-то элементом страницы, так и код целиком страницы.

Чтобы просмотреть код конкретного элемента, нужно кликать мышкой именно на нем и выбирать “Просмотреть код”

HTML-теги - текст, с помощью которого размечается страница сайта, часть исходного кода страницы.

Fiddler - бесплатная программа, с помощью которой можно отслеживать, какие запросы отправляет парсер и какие результаты возвращает сайт. https://www.telerik.com/fiddler

Товар с модификациями - товары на сайте-источнике, в карточке которых можно выбрать цвет, размер и другие параметры, в зависимости от которых может менять цена, наличие, описание и фото товаров. При этом нет отдельной ссылки на конкретную модификацию товара, с заданными параметрами. Если есть отличающаяся ссылка на каждую модификацию, то это можно считать как обычный товар.

Виды парсеров

Модуль универсального парсинга, встроенный в программу, позволяет парсить “обычные” сайты интернет-магазинов, которые реализованы в “общепринятом” виде. Т.е. где есть группы товаров и отдельные карточки товаров, которые можно открыть по ссылке, при этом не может быть одинаковой ссылки на разные товары. Универсальным парсером нельзя спарсить товары, которые имеют модификации, при этом на модификацию товара нет отдельной ссылки. Чтобы спарсить такие сайты нужен будет программист.

Программа позволяет делать парсеры в следующем виде:

1. Парсер карточек товаров по ссылкам.

Для работы такого парсера нужны ссылки на карточки товаров. Ссылки могут быть получены в том числе самим парсером. Парсер заходит в каждую карточку товара и собирает из нее информацию, которую вы настроили.

Ссылки могут быть загружены из следующих источников:

1.a прайс поставщика, если он в прайсе вместе с товаром дает еще ссылку на карточку сайта, откуда нужно спарсить информацию

1.б файл sitemap.xml сайта, откуда нужно парсить

1.в добавлены вручную в Excel файл и загружены в программу в виде прайса

1.г получены с помощью парсера по категориям сайта

1.д получены при помощи поиска на сайте по названию или артикулу (для этого, как правило, нужен прайс поставщика, в котором есть артикулы или названия, такие же как на сайте, или же по вашим артикулам на сайте-источнике должны находиться однозначно правильные товары).

2. Парсер информации из групп товаров на сайте-источнике

Данный вид парсера применяется в случае, когда достаточно информации со страницы группы товаров. Например, если вас интересуют только цены и остатки товаров и не нужны описания.

Так же такой парсер настраивается, если необходимо собрать ссылки на товары, по которым затем будет запущен парсер по ссылкам и получена уже информация из карточек товаров.

3. Парсер ссылок на группы

  • No labels