Мы ищем в проект Аналитика данных/исследователя, который на базе разрабатываемого в ELK-stack хранилище мог бы провести исследование, предложить свои гипотезы и проработать некоторые имеющиеся гипотезы по машинному обучению.
Данные:
В режиме приближенному к реальному времени, собираются данные из соц.сетей, форумов, телеграм-каналов и прочих источников данные по определенным темам.
Структура данных примерно следующая:
- источник
- автор
- текст сообщения
- дата/время
- локация
- тональность сообщения (определяется автоматически)
- категория (определяется автоматически)
- прочие поля.
Данные хранятся в ELK-stack хранилище.
В качестве инструмента визуализации пока используется Kibana. Если вдруг в процессе работы будут предложения по смене инструмента за разумные деньги и соответствующей аргументацией, то команда всегда готова их рассмотреть.
Задачи:
Есть необходимость использования инструментов ML для анализа данных.
1. В качестве первых вводных есть несколько гипотез, по которым надо дать обратную связь:
- можно ли это реализовать с текущим набором данных;
- можно ли это реализовать с имеющимися в Kibana преднастроенными шаблонами/алгоритмами;
- на сколько эти гипотезы "адекватные" или полезные.
2. На основе имеющихся данных предложить свои гипотезы.
3. Реализовать утвержденные алгоритмы (с помощью Kibana или других инструментов типа Python, R и т.д.).
Ориентировочное время работы над проектом ~ 1 месяц
Требования
- образование или эквивалент не ниже уровня магистра топ-30 ВУЗов США/МФТИ/МГУ/ РЭШ со специализацией по статистике/математике/науке о данных/экономике
- портфолио реализованных проектов в сфере анализа данных.