Datacol — универсальный парсер различной информации в Интернете | Сайтовед

Что умеет datacol

Для начала расскажу вкратце, что же умеет этот SEO продукт Datacol. Если вы экономите свой личный бюджет, то покупать подобные универсальные программные продукты — неплохой вариант. Вам достаточно все лишь изменить различные опции этой десктопной программы, написанной на C#, скомбинировать их нужным вам образом и создать новые профили настроек, чтобы получить:

  • Парсер контента по списку URL;
  • Парсер выдачи поисковиков;
  • Парсер SEO параметров сайтов с различных сервисов для их проверки;
  • Парсер Яндекс Маркета;
  • Парсер email;
  • Чекер индексации сайтов;
  • Парсер объявлений;
  • Парсер интернет магазинов;
  • Парсер внешних и/или внутренних ссылок с сайта;
  • Парсер прокси адресов;
  • Парсер, позволяющий проверять позицию сайта по определенным запросам в поисковике;
  • Парсер музыки, парсер картинок и других всевозможных файлов;
  • Парсер форумов на любых движках;
  • Парсер результатов работы Javascript.
  • И МНОГОЕ ДРУГОЕ!!!

D5plugin_loadwithpostdata — плагин загрузки страницы с выполнением post и get запросов | datacol

Конфигурация плагина задается в настройках кампании (к которой подключен плагин) на вкладке Загрузка->Базовые->Плагин.

В конфигурации задаются следующие параметры:

Обязательные параметры:

  • post — строка POST запроса, которую будет использовать плагин. Если оставить пустой — будет использован GET запрос.
  • regex — если исходный код страницы будет соответствовать данному регулярному выражению, то никакие запросы больше делаться не будут (может быть пустой).

Опциональные (не обязательные параметры). Используются различные их комбинации, для получения нужной вариации запроса(ов):

  • postURL — если при выполнении запроса его необходимо направлять на другую страницу (как это бывает при получении телефонов, авторизации), то URL этой страницы необходимо указать здесь. При пустом значении запрос будет направлен на ту страницу, к которой применяется плагин.
  • charset — иногда необходимо вручную указать кодировку страницы.
  • cookies — принимает значения 1 или 0, при 1 обработка запросов будет проходить с сохранением куков, что требуется в большинстве случаев. По умолчанию — 1.
  • request_type — при значении данного параметра ajax данные, полученные при запросе, будут добавлены к исходному коду страницы. В ином случае исходный код будет заменен на тот, который мы получим в результате запроса. Например, при получении телефона зачастую необходим тип запроса ajax, при авторизации же — наоборот, нужен код авторизованной страницы.
Похожее:  Как настроить Алису от Яндекса на компьютере или ноутбуке: команды для голосового управления на ПК

Все параметры имеют тип string.

ВНИМАНИЕ: для самостоятельной настройки плагина требуются базовые знания о http запросах и умение пользоваться соответствующими инструментами (такими как Fiddler).

Пример базовой строки конфигурации при подключении плагина к демо настройке парсера объявлений, подходящей для большинства авторизаций.

1) Грузим страницу базовым загрузчиком.

2) Если код соответствует регулярному выражению, заданному в теге regex — возвращаем код страницы, в конце дописав “Запрос обработан без использования пост запроса ввиду соответствия регулярному выражению”.

3) Делаем запрос либо по базовому URL страницы, либо по URL, заданному в postURL .

4) Данный запрос будет выполнен либо в GET либо в POST формате, в зависимости от значения post.

5) Если request_type имеет значение ajax, то добавляем данные, полученные в предыдущем запросе, к основному исходному коду страницы в тегах . Эти данные вы впоследствии можете использовать в настройке кампании.

6) В ином же случае мы делаем повторный запрос на базовую страницу, используя куки (если не указано иначе). Последняя логика подходит для большинства авторизаций, когда после авторизации необходимо еще вернутся на страницу товара.

7) Возвращаем полученный исходный код.

Достоинства и недостатки парсера сайтов datacol

Достоинства:

  • решение большого количества задач;
  • сравнительно небольшая цена (учитывая то, что цены на аналоги на порядок выше, а справляются они только с одной задачей);
  • различные форматы экспорта;
  • экономия времени.

Недостатки:

  • не всегда подобранные Xpath работают правильно (поэтому вы тратите дополнительное время, чтобы самостоятельно доработать выражение);
  • сложно разобраться в справке.

Если недостатки в виде сложной настройки вас все таки отпугнули, рекомендую обратить внимания на новые продукты от разработчиков:

Скидки на datacol

А хотите приобрести программу Datacol со скидкой в 15%? Вам для этого делать ничего сложного не придется, всего лишь написать мне по электронной почте или через форму обратной связи — и я вам скажу код, с помощью которого вы получите скидку в 15% на программу Datacol.

Мой блог находят по следующим фразам

Стоимость  datacol

В общем,  как я уже говорил, Datacol — программа универсальная, что хотите, то она вам и спарсит, нужно лишь настроить программу, выставить нужные опции и дождаться нужного вам результата. На мой взгляд — это удобно тем, что все совмещено в одной программе, и если разобраться — то этот парсер выполнит для вас различные, даже самые сложные функции.

Урок №1. парсинг товаров интернет-магазина | datacol

В этом видео я покажу пример настройки кампании Datacol, которая поможет вам быстро собрать информацию о товарах с интернет магазина. В дальнейшем вы сможете использовать выгруженные данные для наполнения собственного сайта.

Просмотрев это видео вы узнаете как создать компанию парсинга нужного вам магазина всего за 10 минут. Мастер создания компании и инструменты автоматической настройки помогут справится даже без знаний языков программирования или основ html. Воспроизвести настройку, продемонстрированную на видео, можно на данном сайте.

В этом видео я покажу пример настройки кампании Datacol, которая поможет вам быстро спарсить информацию о товарах с интернет магазина. В будущем вы сможете использовать выгруженные данные для наполнения собственного магазина. Итак запускаем мастер создания новой кампании.

Вводим название кампании.

Задаем входные данные. Чаще всего это ссылки на каталог или категории сайта, информацию с которого мы собираем. Заметим, что Datacol начинает обход сайта в поиске нужных данных именно с этих ссылок .

На следующем шаге мы показываем Datacol, как добраться от начальной категории до конкретных товаров. Программа как и обычный пользователь ищет интересующие ее данные, переходя по ссылкам на сайте. Соответственно, нам нужно проложить для Datacol маршрут , который приведет от исходной категории до каждого конкретного товара.

Для этого мы будем использовать Xpath выражения. Xpath выражения — это адреса различных частей вебдокумента. Благодаря им Datacol находит нужные ссылки и данные. Для быстрого подбора Xpath выражений мы запускаем Datacol Picker.

Теперь нам нужно определиться по каким ссылкам Datacol должен будет проследовать, чтобы добраться до полной информации о каждом конкретном товаре. Естественно, в первую очередь, это ссылки на товары.

Чтобы подобрать Xpath для сбора всех этих ссылок, просто кликаем по одной из них левой кнопкой мышки. Моментально в блоке Подбор Xpath появляется подобранное Xpath выражение. Оно автоматически сохраняется в список Варианты Xpath. Именно этот список будет использоваться при работе программы. Справа, в блоке ссылки, можно увидеть набор ссылок, которые соберет Datacol используя текущий Xpath.

Хорошо, теперь Datacol знает как найти ссылки на товары. Но так мы соберем товары только с первой страницы каталога. Поэтому нам нужно показать Datacol как переходить на другие страницы выдачи товаров.

Отметим, что ссылки на другие страницы каталога (даже визуально) расположены совершенно иным образом, чем ссылки на товары. Поэтому для них мы подбираем отдельное Xpath выражение. Для этого добавим новый вариант Xpath.

Теперь кликаем на одну из ссылок и Datacol Picker опять же автоматически подбирает нужный Xpath.

Вот так просто, всего в несколько кликов мыши, мы настроили проход Datacol по сайту. Осталось нажать кнопку Сохранить, чтобы подобранные Xpath выражения сохранились в конфигурации нашей новой кампании.

Теперь, когда Datacol знает как добраться до нужных данных, ему необходимо пояснить что именно требуется собирать. Для начала задаем перечень полей данных, которые мы хотим сохранять.

Для поиска полей данных мы также задаем Xpath выражения. Для этого снова запускаем Picker.

Перед началом настройки сбора данных мы переходим на одну из страниц с товаром, то есть туда, где находятся интересующие нас данные.

Обратите внимание, когда Picker открыт в режиме подбора Xpath для поля данных, в нем присутствует блок Поле данных. В этом блоке отображается название поля, которое сейчас настраивается.

Итак, нам нужно подобрать Xpath выражение для сбора наименования товара. Для этого кликаем на наименовании левой кнопкой мышки. В блоке Подбор Xpath сразу же появляется подобранное Xpath выражение, которое автоматически сохраняется в список варианты Xpath. При нажатии кнопки Сохранить или при переходе к настройке следующего поля данных этот список будет автоматически сохранен в конфигурации текущей кампании Datacol. Заметим, что наименование товара автоматически выделяется красной рамкой. Правильноcть подбора Xpath подтверждает исходный Html код найденного блока. Он отображается в поле “Найденные соответствия”.

По аналогии с наименованием товара можно подобрать Xpath выражения для сохранения остальных полей данных.

Для поля фото лучше использовать специальную опцию контекстного меню.

В ряде случаев сохранение изображений имеет свою специфику.

Когда мы дошли до последнего поля данных, остается нажать кнопку Сохранить. Таким образом мы завершили настройку сбора данных. Теперь закрываем мастер и переходим к тестированию.

Нажимаем кнопку “Запуск”.

Через некоторое время мы видим как начинают появляться результаты.

После завершении работы кампании все выгруженные данные будут сохранены в Excel файл. По умолчанию он генерируется в папке Мои документы.

Название файла соответствует названию новой кампании.

Заметим, что формат сохранения собранной информации можно переопределить. Об этом мы расскажем в последующих видео.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *