...
Товар с модификациями - товары на сайте-источнике, в карточке которых можно выбрать цвет, размер и другие параметры, в зависимости от которых может менять цена, наличие, описание и фото товаров. При этом нет отдельной ссылки на конкретную модификацию товара, с заданными параметрами. Если есть отличающаяся ссылка на каждую модификацию, то это можно считать как обычный товар.
Proxy - прокси-сервер (https://ru.wikipedia.org/wiki/Прокси-сервер) , простыми словами, это специальные сервера в сети интернет, которые используются для скрытия вашего IP-адреса, чтобы владельцы сайтов-источников не могли вас заблокировать. Они, как правило, платные. Можно найти и бесплатные, но в 99% случаев они очень медленные или работают всего пару часов. Если парсить планируете много и разных сайтов, вам нужно купить пакет из 1000+ прокси, страна прокси желательно РФ, если планируете парсинг белорусских или российских сайтов. Или Украина, если нужно парсить украинские сайты.
Можно так же купить пакеты индивидуальных Прокси (которые выделяются только вам, они работают быстрее), если не собираетесь парсить какие-то крупные сайты с серьезной защитой от парсинга. Индивидуальных прокси достаточно 10-20 штук.
Виды парсеров
Модуль универсального парсинга, встроенный в программу, позволяет парсить “обычные” сайты интернет-магазинов, которые реализованы в “общепринятом” виде. Т.е. где есть группы товаров и отдельные карточки товаров, которые можно открыть по ссылке, при этом не может быть одинаковой ссылки на разные товары. Универсальным парсером нельзя спарсить товары, которые имеют модификации, при этом на модификацию товара нет отдельной ссылки. Чтобы спарсить такие сайты нужен будет программист.
...
Если вам нужна только часть товаров с сайта, но при этом вы парсите весь сайт, “про запас”, то нужно понимать, что на сайте-источнике со временем могут исправляться характеристики, добавляться в карточку товара новые, более качественные, фото, дополняться описания, и если вы какие-то товары будете добавлять только через месяц, то вам все равно придется заново парсить сайт, чтобы получить актуальную информацию.