Как организована работа с данными в Mediascope | GeekBrains – образовательный портал

Что происходит у нас в ит

Три основных источника информации можно увидеть на примере одного из средств массовой информации (телевидения):

С большой высоты картина выглядит прямолинейно:

Свежая концептуальная основа была создана компанией Mediascope. Команда разработчиков насчитывает 200 человек

Изображение слишком мало для размещения увеличенной диаграммы процедуры сбора и обработки данных.

В целом, для классификации информационных потоков можно использовать группы процессов и ИТ-систем:

Каналы измерения (входы),
Процесс мониторинга радиоволн,
Процесс управления панелями в Panel Management System (PMS),
Мастер-производство в собственной платформе Big Data Platform,
Процесс доставки данных клиентам – Delivery,
DataLab – рабочее пространство для самостоятельного анализа данных клиентами,
Управление каталогом и мастер-данными,
Процессы проведения определенных опросов – установка счетчиков, регистрация рекламных кампаний, трансляция трекинговых роликов и т.д.

Краткое введение в системные группы без углубления в специфику

Основное производство данных в собственной big data platform

Платформа основана на кластерах Hadoop, которые следуют схеме “снежинки” подхода Билла Инмона, и использует условно нормализованную корпоративную модель данных для создания промежуточных и конечных витрин.

Озеро данных используется для объединения всех входящих данных из различных источников, которые затем последовательно интегрируются в каждый этап корпоративной модели данных. Работа разбивается на преобразования, которые запускает контекст Spark. Управление и выполнение так называемых прямых ациклических графов, или рабочих сетей, осуществляется Apache Airflow.

Airflow переводит описания конфигурации из специального формата перед созданием DAG, чтобы конфигурация трубопровода могла быть понятна и изменена людьми, отличными от программистов.

В настоящее время у нас активно 700 преобразований в 70 группах DAG, в каждую таблицу вводится уникальный набор параметров.

Блок-схема для самой маленькой DAG выглядит следующим образом:

Каждая операция, заполняющая ячейку, приводит к преобразованию со своим уникальным набором параметров. Входные потоки и логические параметры алгоритма обычно описываются от 10 до 20 параметрами преобразования.

Те же принципы применимы к данным измерений в Интернете и на мобильных устройствах, но при этом возникает значительная нагрузка на объем данных. Мы ежедневно получаем и обрабатываем более 11 миллиардов записей от счетчиков.

В мобильных измерениях также существует цепочка сбор-распознавание-очистка. Вместо составления карт используются сложные алгоритмы очистки.

В дополнение к вышеупомянутому мы также используем S3 и собственные Java-сервисы с базой данных. В настоящее время используется Apache Flink.

Функции основного производства данных

Производственная платформа имеет дополнительные функции, кроме картографирования.

Как называются основные функции производства?

Взвешивание: переход от деятельности измерительной панели (совокупности наших респондентов) к данным генеральной совокупности. Наши социологи-аналитики, математики и бизнес-архитекторы знают, как это работает 🙂
Расчет социально-демографических атрибутов: исходные параметры респондентов постоянно обновляются: меняется возраст, уровень дохода, уровень образования и другие параметры, определяющие страту населения, которую представляет респондент. Каждый день подсчитывается выборка фактических данных.
Валидация респондентов и формирование выборки участников на сегодня: респонденты могут не попасть в сегодняшний снимок данных по различным причинам. Причин может быть сколько угодно: отказ оборудования, отпуск или отключенный доступ к микрофону на смартфоне. Иногда респонденты засыпают перед телевизором или не соблюдают правила измерения, и это отражается в данных. Процесс валидации отфильтровывает выбросы, используя математические (например, робастную валидацию) и эвристические методы. Параллельно коллеги по процессу управления панелью работают с этими респондентами, чтобы решить технические и поведенческие проблемы или исключить из панели систематически недействительного респондента.
Слияние – самая сложная, капризная и загадочная процедура с точки зрения программиста. Дело в том, что по историческим, методологическим и техническим причинам существует несколько панелей: для одних респондентов мы измеряем просмотр телевизора, для других – интернет-активность, для третьих – активность на мобильных устройствах. До определенного момента это было нормально. Но затем стало очевидно, что доля медиапотребления в интернете становится все более заметной, часто достигая или даже превышая в некоторых возрастных группах потребление телевидения. Очевидно, что если вы даете рекламе охват 60% на телевидении и 70% в интернете, вы получаете 130%. Более того, некоторые респонденты видели рекламу в обоих СМИ. Слияние – это процедура, которая позволяет нам приписать деятельность одной панели другой. Сегодня наши математики, методисты и менеджеры по продуктам разрабатывают новый кросс-медийный продукт, основанный на все большем совпадении телевизионных, мобильных и настольных интернет-панелей.
Калибровка – Поскольку многие данные проходят через сложные математические преобразования и статистически обоснованную эвристику, результаты могут иметь смещение по отношению к фактическим данным. Например, общее использование ресурса может быть завышено или занижено по сравнению с собственными счетчиками ресурса. Для исправления этих несоответствий используется процедура калибровки. Есть такая же сложная математика, которую наши математики пока даже не берутся развивать 🙂
Производство индексов и формирование выходного экрана – здесь все понятно, но тоже интересно. Мы должны рассчитать необходимые нашим клиентам разрезы, виды и т.д.
Производство проекта Brand Pulse – это отдельное производство данных о предпочтениях российских потребителей.

Аналитические приложения

Данные используются этими программами, службами и сервисами. Они подразделяются на три основных типа.

Отчеты, загрузка, публикация.
BI-аналитика. В качестве аналитической базы мы используем ClickHouse. Это место, где выполняются быстрые запросы, где копируются витрины для быстрого отображения данных.
Исследование и моделирование. Это точка, через которую специалисты по анализу данных смотрят на данные. У нас есть внутренние и внешние специалисты. Последние – это сотрудники наших клиентов, которые также могут присылать свои данные.

Архитектура

С архитектурной точки зрения платформа выглядит примерно так. На слайде будет разница. Вот как описанная мной идея реализуется на практике.

Что примечательного в этом тексте?

Ле с

Возможно ли использовать mediascope на устройствах с android?

Пользовательский интерфейс Mediascope, по сути, является веб-интерфейсом. Для Mediascope не существует приложения для Android.

Возможно ли устанавливать mediascope на компьютер с ос windows?

Существует веб-интерфейс для системы Mediascope.

Есть ли у mediascope демонстрационная или бесплатная пробная версия?

Да, есть.

Инструменты работы с данными платформы

Для подключения к данным используются три метода. Через Spark – второй. для опытных пользователей, знакомых с Eppelin или Jupyter. Можно подключиться к хранилищу больших данных; Tableau, например, может создать приборную панель. После этого Hadoop можно использовать непосредственно как файлы. Со скоростью 10 минут на страницу это самый медленный доступ к ним в сети.

Zeppelin и Jupyter. Zeppelin находится здесь, потому что мы используем Spark в качестве среды преобразования данных. В целом, тенденция рынка такова: где есть Spark, там будет и Zeppelin. Если на работе много Python, то будет и Jupyter. Но в целом, они обе являются конкурирующими оболочками, поэтому обе подходят.
Датаграмма. Используется для работы людей, работающих на SQL и инженеров по данным. Они описывают запросы, строки преобразования данных, все преобразуется в код, и в процессе выполнения у нас работает Scala. В противном случае мы могли бы нанять больше разработчиков Scala для немедленного написания такого же кода. Но мы работаем с Datagram.
Confluence. Мы тщательно документируем и описываем каждый шаг, мы не ленимся.
Enterprise Architect. Мы используем его для высокоуровневой архитектуры. Вся модель данных сохраняется с самого начала.
Tableau, PowerBI (от последнего мы почти полностью отказались).

Как мы проводим исследования

В рамках некоторых проектов Медиаскоп предоставляется информация не только об объемах аудитории СМИ или количеству пользователей товаров/услуг, но и о социально-демографическом
профиле аудитории, который включает информацию о поле и возрасте аудитории, уровне образования, достатка, стиле жизни и т.д.

У разных групп населения потребительское поведение и предпочтения разные, ответы позволяют лучше понять респондентов и учесть их потребности и ожидания. По этой причине в анкетах
включены вопросы, косвенным образом касающиеся уровня достатка, а также владения личным автотранспортом и другим имуществом

Какие есть варианты оплаты за использование mediascope?

Для своих услуг Mediascope предоставляет следующие варианты оплаты: Бесплатно.

Какие существуют варианты установки mediascope?

Облако (SaaSO).

Какие языки поддерживает mediascope?

Русский.

Каналы измерения (input)

Самая запутанная и разнообразная коллекция систем в Mediascope. Хотя у нас есть множество технологий для измерения различных типов медиа и технических исправлений, мы также регулярно рассматриваем новые варианты.

Мы изучаем технологию нанесения аудиометок, которые могут быть обнаружены нашими техническими устройствами.

Каждый измерительный инструмент или часть программного обеспечения должны собирать данные определенным образом. В телевизионных исследованиях избегайте накопления огромного количества звука и наблюдения.

Тот же вопрос возникает при измерениях в мобильной связи и Интернете, но решение для каждого канала разное.

Эвристика применяется для проверки распознавания в различных условиях окружающей среды и оценки точности его вывода. Если алгоритм очистки содержит информацию для него, то очистка информации может происходить в канале измерения и при производстве основных данных.

Системы ввода являются интегрированными:

Каналы поступления данных

Мы используем Apache NiFi, орхистратор потоковых данных, который облегчает поиск и извлечение данных для каждой системы. Транспорт состоит из NiFi и платформы.

Концепция

Когда я пришел в Mediascope, перед нами была поставлена задача создать платформу для обработки данных, превосходящую предыдущие системы.

Данные собираются Mediascope из сотен источников, каждый из которых отличается по количеству и качеству. Одни записи добавляются миллионами каждый день, другие – раз в полгода. Свой вклад в данные вносят как внутренние источники, так и оборудование Mediascope.

Предыдущие подходы основывались на принципе туннеля, когда каждому источнику предоставлялся собственный канал и набор систем. Новая платформа должна решать следующие вопросы:

Сделать межмедийный анализ доступным для СМИ. Это одна из самых актуальных и в то же время самых сложных задач на сегодняшнем медиарынке. Для того чтобы, например, подсчитать, сколько раз человек видел ту или иную рекламу по телевизору, на телефоне или на компьютере, необходимо не только получить информацию из разных источников, но и свести ее в единое целое.
Работа с большими объемами данных. На рынке СМИ количество информации увеличилось, по одним оценкам на порядок, по другим – на два. А объем данных не только увеличился, но и продолжает расти.

Мы разработали новую платформу традиционным способом, используя не только мой опыт, но и все передовые стратегии. Нет, это не были новаторские решения, наоборот, все проверено и достаточно традиционно. Я оцениваю это на “пять с плюсом”.

Область больших данных все еще относительно нова. Ведущие стратегии еще слишком новы, что делает их ненадежными. Необходимо было создать высоконадежную платформу. В результате мы выбрали проверенные и самые современные технологии.

Мы создали единые точки входа и построили масштабируемую платформу. 70% успешных проектов имеют одни и те же фундаментальные идеи и концепции. Архитектурная сторона этой системы основана на каноническом подходе. Если вы понаблюдаете за тем, как он применяется в значительных компаниях (например, в BP), то, скорее всего, обнаружите нечто сопоставимое.

Наша теория заключается в том, что это касается всех.

Может ли mediascope быть установлена на мобильное устройство?

Для доступа к системе можно использовать веб-браузер на смартфоне. Для Mediascope отдельного приложения не существует.

Можно ли использовать mediascope без установки на собственные (частные) сервера, арендовать из публичного облака?

Да, вы можете использовать Mediascope из публичного облака.

На каких операционных системах можно использовать mediascope?

Использовать Mediascope можно на любом устройстве и в любой операционной системе с актуальным веб-браузером.

На каких пользователей нацелен и для кого подходит mediascope?

Для какой из следующих категорий пользователей – фрилансер, ИП, НПО и корпорация – Медиаскоп подходит больше всего?

Платформа big data

Hadoop – это сам кластер. В настоящее время в нем насчитывается более 50 узлов данных. Мы поднялись в облака. Теперь я несу его вместе с кластером, и, о да, мы используем SberCloud! Здесь есть несколько слоев. Они точно передают как логику Hadoop, так и обычное понимание данных.

Первичные данные – это информация как она есть, но уже уменьшенная до нашего формата. Мы используем формат файлов Parquet.
Интегрированные данные – это точка, в которой мы собрали всю информацию в единое представление, пометили ее нашими идентификаторами и связали вместе. С этой точки вы можете переходить от данных в одной системе к данным в другой системе.
Аналитические данные – это результаты расчетов, витрина данных, которая содержит некоторые производные или производные – для них существуют разные названия. Важно отметить, что мы не обязательно говорим об агрегатах, это могут быть и подробные записи.

Первичный доступ ограничен программистами и инженерами по обработке данных. Мы не можем показывать внутренним пользователям этот технический уровень. Другие уровни также доступны нашим клиентам, хотя и с ограничениями. Однако крайне важно, чтобы наш API начинался с унифицированного слоя данных. Эта структура была создана для того, чтобы ее можно было кому-то показать.

Поддерживает ли mediascope русский язык?

Mediascope поддерживает русский язык.

Поддерживается ли в mediascope английский язык?

Нет. Компания Mediascope не поддерживает английский язык.

Подойдёт ли mediascope для малого бизнеса?

Да, Mediascope может быть эффективно использован малым бизнесом, микропредприятиями и стартапами.

Поставщики данных

У нас всегда есть доступ как к внутренним, так и к внешним источникам данных. Мы можем более тщательно проверять данные, если заметим, что они плохого качества. Мы принимаем информацию из внешних источников как есть. В связи с этим нам нужно уметь работать с различными материалами.

Потребители данных

Эти приложения рассматривают платформу глазами аналитических приложений, а не видят ее непосредственно.

Предполагает ли mediascope серверный вариант установки (или на частное облако)?

Ответ: нет, Mediascope нельзя установить на серверах компании.

Процесс мониторинга

Средства массовой информации не все одинаковы; каждое из них обладает уникальными свойствами.

Действительно интересным аспектом Интернета является возможность для некоторых клипов (фрагментов шоу или сериалов) задерживаться до появления оригинала, а затем перепощивать его. И теперь нам приходится использовать технологии распознавания аудио и видео для поиска дублированного контента.

В нашей работе контент индексируется с помощью сложных алгоритмов, а затем распознается с помощью машинного обучения. В течение короткого периода времени сам контент хранится в активном (переходящем к распознаванию) разделе библиотеки под контролем бизнес-правил и алгоритмов.

Какие технологии и типы систем используются в настоящее время для мониторинга?

Располагает ли mediascope программным интерфейсом приложения (api)?

Нет, mediascopet не имеет интерфейса API.

Сервисы

Схема сервисов:

Лучший сайт знакомств в Интернете

Служба обогащения данных – это инструмент для автоматического заполнения данных на основе правил.
Служба контроля качества данных по понятным причинам является священной коровой. В этой области есть промышленные решения, есть кустарные. Это вечная тема для обсуждения, что лучше использовать здесь.
Услуги мониторинга. Вы должны постоянно знать, что происходит в цепях и все ли работает правильно.
Услуги по выполнению моделей. Специалисты по анализу данных пишут модели на языке Python. По сути, они получают данные на вход и выдают ответы на выходе. Нам нужно, чтобы эти разработки были встроены в процесс, как картридж: их можно вставлять, вынимать или менять по мере необходимости. Кроме того, эти модели не должны приводить к сбою всего процесса, если специалист по анализу данных что-то упустил. Поэтому эта услуга чрезвычайно важна.
Сервис потока данных. Почти все наши данные сейчас находятся в виде пакетов. Но есть источники, которые могут предоставлять потоковые данные. Поэтому мы переносим часть наших вычислений на потоковую передачу. И мы даже ведем переговоры о том, чтобы предложить некоторым потребителям потоковый анализ. Это называется аналитикой в режиме близком к реальному времени, то есть не в реальном, а в близком к реальному времени.
Служба управления потоками данных: оркестровка потоков данных.

Существует ли бесплатная версия mediascope?

Да, вы можете свободно использовать программное обеспечение Mediascope в любых целях.

Существует ли дистрибутив mediascope под операционные системы семейства linux?

В отличие от веб-интерфейса, система Mediascope может использоваться на любой операционной системе, если на ней установлен браузер.

Требования к дата-специалистам

Для руководителей проектов доступна PMBoK – книга со стандартизированными требованиями к управлению проектами. Существует публикация под названием DAMA для специалистов по работе с данными. выбор ролей, доступных для использования при работе с данными.

Менеджер данных – это общее название для специалистов по обработке данных.
Инженер по данным – это разработчик. И имеет те же требования, что и разработчики.
Data scientist: решает нетривиальные задачи, часто используя сложные математические алгоритмы, и обычно вырабатывает некий алгоритм.
Аналитик данных – это специалист с самыми высокими требованиями. Он или она должны понимать все, знать структуру данных и уметь хорошо ориентироваться в них, понимать, когда данные обновляются, каково качество данных. Если у кого-то есть сомнения, они идут к нему или к ней.
Архитектор данных: отвечает за структуру и то, как будут организованы данные.
Владелец данных: это не специальность, а функция. Он/она отвечает за исходную систему. Владелец данных обычно не из ИТ, а из бизнес-подразделения.
Владелец данных – это специалист, который обычно может вносить коррективы в данные, вручную исправлять ошибки и проверять данные. Обычно к ним предъявляются минимальные требования.
Специалист по безопасности: понятная роль. Человек на этой должности должен уметь делать все, как и аналитик данных.

Новички должны быть знакомы с SL. Я начинаю интервью с вопроса. Поскольку качество образования в разных странах сильно различается, я обычно фокусируюсь на университетах. В резюме можно упомянуть о возможности дополнительного обучения и о том, стоит ли брать на себя временные и денежные обязательства.

Курсы GeekBrains дают вам возможность за полтора года освоить востребованную профессию в области науки о данных. После обучения вы сможете работать в качестве специалиста по Data Scientist, Machine Learning или NLP.

На курсах GeekBrains студенты за полтора года освоят востребованную профессию аналитика больших данных.

Управление справочниками и мастер-данными

Управление справочными данными позволяет управлять значительным количеством параметров, установочных данных и каталогов. Это необходимо для того, чтобы бизнес-математикам и аналитикам данных не приходилось просматривать километры конфигурационных файлов в репозиториях Gitlab для загрузки справочных данных.

Примечательно, что мы вычисляем демографические признаки и синтетический признак отчетности с помощью машины правил Drools от RDM.

Это краткое изложение наших процедур, трудностей и открытий служит введением к ряду статей, в которых более подробно рассказывается о некоторых наших системах.

Отзывы mediascope — 25 отзывов о компании — (россия, строение 1, ул. двинцев, 12, москва, 127018)

Улица Двинцева, 12, строение 1 Москва (127018) – местонахождение предприятия MEDIASCOPE, по данным 25 отзывов.

Средний рейтинг компании 3,4 баллов из 5.
Рейтинг компании низкий. За счет обработки негативных отзывов и мотивации довольных клиентов оставлять рекомендацию, можно увеличить рейтинг компании. Согласно исследованиям рекламного агентства Go Fish Digital, организации теряют от 22% клиентов за счет негативного рейтинга в интернете.

Информация о предприятии была собрана на сайте между 12/20/2022 и 8/15/2020 с помощью Google Maps, Yandex Maps и других ресурсов.

За последние 30 дней о предприятии не было опубликовано ни одного отзыва. Побудить клиентов оставлять отзывы можно с помощью системы поощрений, скидок и рассылок по SMS. Вероятность того, что клиент снова воспользуется услугой, повышается, если он напишет положительный отзыв.

Процент ответов на отзывы – 0%.
Представителям компании MEDIASCOPE нужно отвечать на отзывы клиентов, так как не найдено ни одного отзыва с ответом. По исследованиям, 86% пользователей изучают отзывы о компании перед покупкой и для 89% из них имеет значение то, как компания реагирует на отзывы.

Похожее: настройка moscow wifi free