Coder Social home page Coder Social logo

s-koksharova / wildsearch-crawler Goto Github PK

View Code? Open in Web Editor NEW

This project forked from wondersell/wildsearch-crawler

0.0 0.0 0.0 150 KB

Инструмент сбора данных о разделах, товарах и позициях товаров в разделах Wildberries и других российских маркетплейсов

Python 100.00%

wildsearch-crawler's Introduction

WildSearch crawler

Инструмент сбора данных о разделах, товарах и позициях товаров из российских маркетплейсов.

На данный момент в том или ином виде поддерживаются следующие площадки:

Установка

Установка скрапера pip install -r requirements.txt

Общие возможности

Все скраперы имеют возможность отправлять POST HTTP коллбэк на указанный адрес после завершения работы. Для отправки коллбэка нужно передать следующие параметры:

  • -a callback_url="https://website.domain/" – URL для передачи вебхука
  • -a callback_params="param1=value1&param2=value2 – urlencoded строка со списком параметров, которые будут отправлены в теле POST запроса коллбэка

Скраперы для Wildberries

wb – универсальный скрапер Wildberries

Скрапер называется wb, запускается в следующих режимах:

  • Без параметров – обход начинается с карты разделов сайта и заканчивается только когда будет собрано всё.
  • Анализ категории: scrapy crawl wb -o artifacts/wb.json -a category_url="https://www.wildberries.ru/catalog/zhenshchinam/odezhda/vodolazki"
  • Анализ товара со всеми вариациями scrapy crawl wb -o artifacts/wb.json -a good_url="https://www.wildberries.ru/catalog/8685970/detail.aspx"

В обоих случаях он сохранит результаты в файл artifacts/wb.json благодаря опции -o.

Помимо возможности задать конкретный товар и конкретный раздел, парсер принимает следующий набор опций (ключ -a нужно ставить каждый раз перед каждой опцией):

  • -a skip_images=true – не сохраняет изображения товаров
  • -a skip_variants=true – сохраняет только родительский товар, но не дочерние
  • -a allow_dupes=true – отключает фильтр дупликатов страниц, чтобы сохранять каждый встреченный товар, даже если он уже был скачан
  • -a skip_details=true – проходится только по каталогу, не заходя в карточки товаров. Выгрузка получается сокращенная (только позиции)

wb_categories – скрапер активных категорий Wildberries

Скрапер называется wb_categories и осуществляет сбор доступных на карте сайта категорий. Запускается без параметров.

wb_brands – скрапер брендов Wildberries

Скрапер называется wb_brands и осуществляет сбор доступных на маркетплейсе брендов. Запускается без параметров.

Скраперы для Ozon

ozon – универсальный скрапер Ozon

Скрапер называется ozon, запускается в следующих режимах:

  • Анализ категории: scrapy crawl ozon -o artifacts/ozon.json -a category_url="https://www.ozon.ru/category/aksessuary-dlya-audiotehniki-15607/"
  • Анализ товара со всеми вариациями scrapy crawl ozon -o artifacts/ozon.json -a good_url="https://www.ozon.ru/context/detail/id/151480118/"

В обоих случаях он сохранит результаты в файл artifacts/ozon.json благодаря опции -o.

ozon_brands – скрапер брендов Ozon

Скрапер называется ozon_brands и осуществляет сбор доступных на маркетплейсе бренов. Запускается без параметров. Может потребовать подбора юзерагента, скорости парсинга и актуальных в данный момент CSS классов для корректной работы.

Скраперы для Productcenter

productcenter_producers – скрапер производителей выставки "Производство России"

Скрапер называется productcenter_producers и выгружает только данные о производителях. Запускается в следующих режимах:

  • Без параметров – обход начинается с меню главной страницы (обходятся только пункты второго уровня)
  • Анализ категории scrapy crawl productcenter_producers -a category_url="https://productcenter.ru/producers/catalog-optichieskiie-pribory-44"
  • Анализ страницы производителя scrapy crawl productcenter_producers -a producer_url="https://productcenter.ru/producers/21613/miteus"

Для скрапера доступен следующий набор опций:

  • -a only_region=r-"moskovskaia-obl-191" – автоматически отфильтрует всех производителей по региону, подствавив его в URL. Нужный регион можно узнать, посмотрев на URL выдачи производителей данного региона
  • -office_coords="55.751999,37.617734" – автоматически вычислит расстояние от адреса производство до указанной точки и подставит в выгрузку. Координаты лучше брать из Яндекс.Карт

Заключение

Скраперы поддерживаются ребятами из Wondersell. Хотите познакомиться? Пишите на [email protected]

wildsearch-crawler's People

Contributors

hemantic avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.