Ищу разработчика для создания парсера/бота, который будет регулярно собирать новые публичные материалы с нескольких китайских сайтов и публиковать их в Telegram-канал с нужными тегами.

Источники:

https://movie.douban.com/explore
https://you.ctrip.com/travels/china110000/t3-g24
https://36kr.com/p/2073507233567108
https://m.36kr.com/user/5328220
https://36kr.com/search/articles/%E8%90%A5%E9%94%80

Что нужно сделать:

Проверить техническую возможность парсинга каждого сайта.
Собирать новые публикации/материалы: заголовок, ссылку, дату, автора/источник, краткий текст/описание, изображения при возможности.
Автоматически присваивать теги по источнику и теме.
Исключать дубли, чтобы один и тот же материал не публиковался повторно.
Публиковать материалы в Telegram-канал через бота.
Сделать простую настройку частоты проверки источников.
Желательно предусмотреть логирование ошибок и простую инструкцию по запуску.

Важно:

Нужна аккуратная работа с сайтами: без агрессивного парсинга, с задержками между запросами.
Если сайт защищён от автоматического сбора данных, нужно не пытаться «ломать» защиту, а описать ограничения и предложить легальный/стабильный вариант.
Предпочтительно: Python, Playwright/Selenium/BeautifulSoup/Scrapy, SQLite/PostgreSQL, Docker.
Нужен человек с опытом парсинга динамических сайтов и интеграции с Telegram Bot API.

Что хочу получить на выходе:

Рабочий скрипт/мини-сервис.
Конфигурационный файл со списком источников, тегами и частотой проверки.
Базу/файл для хранения уже опубликованных материалов.
Инструкцию по установке и запуску.
Тестовую публикацию в Telegram-канал.
Краткое описание ограничений по каждому сайту.

В отклике, пожалуйста, напишите:

Какой стек предлагаете использовать.
Был ли опыт с китайскими сайтами/Douban/Ctrip/36Kr.
Как будете решать проблему динамической загрузки страниц.
Сколько времени займёт MVP.
Примерную стоимость.
Пример похожего проекта, если есть.

Ставки 4

Пожалуйста выберите

Stanislav Odyntsov

11 0

Проекты 11
Оценка 5.0
Рейтинг 1 973

Бюджет: 250 USD Срок: 7 дней

Здравствуйте, Андрей! Парсинг + автопостинг в Telegram — моя тема, и я уже глянул ваши источники:
— Douban (movie.douban.com/explore) и Ctrip (you.ctrip.com/travels) подгружают контент через JavaScript — возьму Playwright (headless-браузер), а не «лёгкий» BeautifulSoup.
— 36Kr (статьи/поиск/профиль) отдаёт данные структурнее, там парсинг легче и быстрее.

Что сделаю:
• по каждому материалу: заголовок, ссылка, дата, автор/источник, краткий текст, картинки (где доступны);
• авто-теги по источнику + по теме (из текста);
• дедупликация через базу (SQLite) — один материал не уйдёт дважды;
• автопостинг в ваш Telegram-канал через бота по расписанию;
• конфиг (источники/теги/частота), задержки и логирование под специфику китайских сайтов (режут частые запросы) — без обхода защит, только публичные данные.

Предлагаю старт с MVP по 2-3 источникам (за несколько дней проверю реальную доступность и отдам рабочий бот), потом доберу остальные.

Вопросы: публиковать сразу при находке или через модерацию? Нужен ли перевод/сокращение китайского текста перед постингом? Теги только по источнику или и по темам внутри текста?

$250 за рабочий MVP (2-3 источника + бот + дедуп + деплой), дальше по источникам — договоримся. Готов начать сразу.

Максим О.

5 0

Проекты 5
Оценка 4.9
Рейтинг 756

Бюджет: 2000 USD Срок: 7 дней

Привет, я работал над парсером новостей для медиа-агрегатора — собирали статьи из 12 источников, ~500 публикаций/день, автопостинг в Telegram с тегами и дедубликацией.

Что касается вашего проекта: некоторые из указанных сайтов (например, Douban и Ctrip) используют динамическую загрузку через JavaScript — готовы ли вы к варианту с Playwright вместо легкого BeautifulSoup, если сайт этого требует?

Предлагаю связаться, я бесплатно проконсультирую вас с технической стороны и составим план разработки + расскажу о моей команде!

Ihor Symchuk

11 0

Проекты 11
Оценка 5.0
Рейтинг 1 788

Бюджет: 15000 USD Срок: 7 дней

Добрый день! Мы имеем опыт в разработке парсеров на Python с обходом защиты и интеграцией с Telegram API. Реализуем это через библиотеку Playwright для динамического контента и асинхронную отправку сообщений в канал. Настроим стабильную работу скрипта на сервере с учетом специфики китайских ресурсов.

Maksym Potashov

Победившая ставка

6 2

Проекты 6
Оценка 3.9
Рейтинг 788

Бюджет: 150 USD Срок: 7 дней

Я бы начал с проверки каждого источника отдельно: Douban, Ctrip и 36Kr могут по-разному отдавать страницы, поэтому сначала определю, где хватит обычного парсинга, а где нужна обработка динамической загрузки. Для MVP взял бы Python, Playwright/BeautifulSoup, SQLite, Telegram Bot API и Docker, чтобы все можно было нормально запустить на сервере. Дубликаты будут храниться в базе, частота проверки и теги будут в конфиге.
С китайскими сайтами работал, там часто головная боль не в самом парсинге, а в том, что часть данных подгружается отдельно или сайт может резать частые запросы. Поэтому сразу закладываю задержки, логирование и краткое описание ограничений по каждому сайту, без обхода защит.
MVP по 2-3 источникам можно собрать за несколько дней, полную версию по всем источникам после проверки доступности. По бюджету точнее скажу после быстрого технического обзора сайтов.
Подскажите, публикация в Telegram должна идти сразу после нахождения материала или через модерацию? Теги нужны только по источнику или еще по темам внутри текста? И нужно ли переводить/сокращать китайский текст перед публикацией?

Andrei Mox
Бишкек, Кыргызстан

Проектов 3
Оценка 4.5
Рейтинг 641

Парсер китайских сайтов

Отзыв заказчика о сотрудничестве с Maksym Potashov

Парсер китайских сайтов

5.0

Andrei Mox

Отзыв фрилансера о сотрудничестве с Andrei Mox

Парсер китайских сайтов

5.0

Maksym Potashov

Stanislav Odyntsov

Максим О.

Ihor Symchuk

Maksym Potashov

Ставки пока отсутствуют

Актуальные фриланс-проекты в категории Парсинг данных

Парсинг

Платформа отслеживания опасных отходов с проверкой цепочки ответственности

Интернет-магазин игрушек на WordPress

Парсинг баз данных

Необходимо спарсить базу мастеров по кератиновому выравниванию волос, с номерами телефонов.