Нужен специалист по Big Data, ML, NLP, RAG
1. Цель
Создать инструмент анализа больших массивов текстовых данных (переписки на сайте знакомств) с целью определения ключевых психологических характеристик клиентов.
2. Краткое описание задачи
Есть пару сотен больших файлов (несколько сотен листов в каждом файле, может быть до десяток тысяч сообщений на лист), содержащие переписку клиентов.
Нужно проанализировать эти данные с точки зрения ряда психологических показателей.
Планируется использовать подход RAG (Retrieval-Augmented Generation) и векторные базы данных для эффективного поиска и анализа.
3. Требования к специалисту
Big Data: понимание работы с большими объёмами данных (Spark/Hadoop или аналоги).
NLP / ML:
Опыт обработки текста (предобработка, токенизация, очистка) и применения ML-моделей.
Знание современных методов анализа текста (sentiment, topic modeling, классификация).
Vector Databases / RAG:
Практика работы с Pinecone, Milvus, Weaviate (или аналогами) и эмбеддинговыми моделями.
Способность построить пайплайн Retrieval-Augmented Generation (генерация эмбеддингов, поиск по схожести, интеграция LLM).
Дополнительно:
Умение документировать решения, пояснять выбор инструментов.
Навыки DevOps (Docker/Kubernetes) приветствуются.
4. Ожидаемые задачи
Подготовка данных: чтение, очистка, структурирование переписки.
Формирование эмбеддингов: настройка моделей (BERT, Sentence-BERT, OpenAI Embeddings и пр.).
Использование векторной БД: загрузка эмбеддингов, поиск релевантных фрагментов.
RAG-аналитика: интеграция с языковой моделью для извлечения ключевых характеристик поведения клиентов.
Оценка психологических критериев: настройка/создание моделей, позволяющих выделять нужные аспекты. (есть готовый список критериев по которым нужно будет оценивать клиентов)
5. Ключевые навыки и технологии
Язык: Python (pandas, scikit-learn, PySpark, HuggingFace Transformers или другие.).
Инфраструктура: знание облачных сервисов (AWS, GCP, Azureили другие) или локальных кластеров Big Data.
Векторные базы: Pinecone, Milvus, Weaviate или FAISS или другие.
NLP-библиотеки: spaCy, NLTK, а также инструменты для лемматизации и очистки.
ML-пайплайн: знание MLOps-инструментов (Airflow, MLflow, Docker или другие).
-
2 дня4493 UAH2 дня4493 UAH
Здравствуйте, есть опыт работы с Big Data, даже однажды участвовала в конкурсе Kaggle по анализу данных и получила там призовое место. С Kubernetes, различными методами машинного обучения, библиотеками Python, также знакома не понаслышке, был опыт решения практических задач. Жду сообщения в приват.
Актуальные фриланс-проекты в категории AI и машинное обучение
Разработка Telegram-конвейера в n8n: Авто-генерация контента, монтаж, создание описаний и автопублик
10 000 UAH
1. Цель Разработать автоматическую систему на базе локальногоn8n (Mac M4)иTelegram-бота. Бот принимает медиафайлы и тезисы, а ИИ сам генерирует сценарий, уникальноеописаниеподкаждоевидео, озвучивает ролики моим голосом, монтирует их и публикует в соцсети. 2. Задачи исполнителя… AI и машинное обучение, Консультирование по AI ∙ 10 часов 45 минут назад ∙ 16 ставок |
Telegram-бот для автоматического собеседования ветеринарных врачей с интеграцией OpenAI
1000 UAH
Цель: максимально автоматизировать первичный отбор кандидатов без участия работодателя. 1. Кандидат переходит по ссылке на Telegram-бота и начинает собеседование командой /start. 2. Бот последовательно задаёт 18 заранее заданных вопросов. 3. Ответы принимаются только в виде… AI и машинное обучение, Разработка ботов ∙ 17 часов 24 минуты назад ∙ 71 ставка |
AI автоматизация рекламы - FACEBOOK ADS
6739 UAH
Всем привет! Ищем специалистов, которые сейчас эффективно автоматизировали управление / запуск и аналитику Facebook рекламы через AI Claude / GPT / GEMINI Нужно оперативно настроить автоматизацию / запуск / выгрузки / аналитику напишите ваш опыт, будем рады оплатить… AI и машинное обучение, Автоматизация управления предприятием ∙ 2 дня 10 часов назад ∙ 26 ставок |
Создать офлайн-II, который анализирует инженерную информациюСоздать офлайн-II, который анализирует инженерную документацию в текстовом виде, PDF-файлах и табличных форматах. Ассистент должен уметь извлекать ключевые требования, выявлять ошибки, сравнивать версии документов и помогать инженеру в проектной работе. AI и машинное обучение ∙ 3 дня 17 часов назад ∙ 16 ставок |
Генерации и сегментации базы данных водителей и транспортных компаний США
7777 UAH
Описание проекта Мы — американская компания в сфере HR / transportation recruitment. Нам нужен специалист, который с помощью искусственного интеллекта и доступных data-инструментов сможет собрать, обогатить и сегментировать базу данных для дальнейшей работы нашей команды. Что… AI и машинное обучение ∙ 5 дней 13 часов назад ∙ 19 ставок |