Парсер китайских сайтов
6738 UAHНужен Python-разработчик для парсинга китайских сайтов и автопубликации материалов в Telegram
Описание задачи:
Ищу разработчика для создания парсера/бота, который будет регулярно собирать новые публичные материалы с нескольких китайских сайтов и публиковать их в Telegram-канал с нужными тегами.
Источники:
- https://movie.douban.com/explore
- https://you.ctrip.com/travels/china110000/t3-g24
- https://36kr.com/p/2073507233567108
- https://m.36kr.com/user/5328220
- https://36kr.com/search/articles/%E8%90%A5%E9%94%80
Что нужно сделать:
- Проверить техническую возможность парсинга каждого сайта.
- Собирать новые публикации/материалы: заголовок, ссылку, дату, автора/источник, краткий текст/описание, изображения при возможности.
- Автоматически присваивать теги по источнику и теме.
- Исключать дубли, чтобы один и тот же материал не публиковался повторно.
- Публиковать материалы в Telegram-канал через бота.
- Сделать простую настройку частоты проверки источников.
- Желательно предусмотреть логирование ошибок и простую инструкцию по запуску.
Важно:
- Нужна аккуратная работа с сайтами: без агрессивного парсинга, с задержками между запросами.
- Если сайт защищён от автоматического сбора данных, нужно не пытаться «ломать» защиту, а описать ограничения и предложить легальный/стабильный вариант.
- Предпочтительно: Python, Playwright/Selenium/BeautifulSoup/Scrapy, SQLite/PostgreSQL, Docker.
- Нужен человек с опытом парсинга динамических сайтов и интеграции с Telegram Bot API.
Что хочу получить на выходе:
- Рабочий скрипт/мини-сервис.
- Конфигурационный файл со списком источников, тегами и частотой проверки.
- Базу/файл для хранения уже опубликованных материалов.
- Инструкцию по установке и запуску.
- Тестовую публикацию в Telegram-канал.
- Краткое описание ограничений по каждому сайту.
В отклике, пожалуйста, напишите:
- Какой стек предлагаете использовать.
- Был ли опыт с китайскими сайтами/Douban/Ctrip/36Kr.
- Как будете решать проблему динамической загрузки страниц.
- Сколько времени займёт MVP.
- Примерную стоимость.
- Пример похожего проекта, если есть.
-
7 дней89 846 UAH7 дней89 846 UAH
Привет, я работал над парсером новостей для медиа-агрегатора — собирали статьи из 12 источников, ~500 публикаций/день, автопостинг в Telegram с тегами и дедубликацией.
Что касается вашего проекта: некоторые из указанных сайтов (например, Douban и Ctrip) используют динамическую загрузку через JavaScript — готовы ли вы к варианту с Playwright вместо легкого BeautifulSoup, если сайт этого требует?
Предлагаю связаться, я бесплатно проконсультирую вас с технической стороны и составим план разработки + расскажу о моей команде!
-
7 дней11 231 UAH
626 1 0 7 дней11 231 UAHЗдравствуйте, Андрей! Парсинг + автопостинг в Telegram — моя тема, и я уже глянул ваши источники:
— Douban (movie.douban.com/explore) и Ctrip (you.ctrip.com/travels) подгружают контент через JavaScript — возьму Playwright (headless-браузер), а не «лёгкий» BeautifulSoup.
— 36Kr (статьи/поиск/профиль) отдаёт данные структурнее, там парсинг легче и быстрее.
Что сделаю:
• по каждому материалу: заголовок, ссылка, дата, автор/источник, краткий текст, картинки (где доступны);
• авто-теги по источнику + по теме (из текста);
• дедупликация через базу (SQLite) — один материал не уйдёт дважды;
• автопостинг в ваш Telegram-канал через бота по расписанию;
… • конфиг (источники/теги/частота), задержки и логирование под специфику китайских сайтов (режут частые запросы) — без обхода защит, только публичные данные.
Предлагаю старт с MVP по 2-3 источникам (за несколько дней проверю реальную доступность и отдам рабочий бот), потом доберу остальные.
Вопросы: публиковать сразу при находке или через модерацию? Нужен ли перевод/сокращение китайского текста перед постингом? Теги только по источнику или и по темам внутри текста?
$250 за рабочий MVP (2-3 источника + бот + дедуп + деплой), дальше по источникам — договоримся. Готов начать сразу.
-
7 дней673 844 UAH
1510 10 0 7 дней673 844 UAHДобрый день! Мы имеем опыт в разработке парсеров на Python с обходом защиты и интеграцией с Telegram API. Реализуем это через библиотеку Playwright для динамического контента и асинхронную отправку сообщений в канал. Настроим стабильную работу скрипта на сервере с учетом специфики китайских ресурсов.
-
Победившая ставка7 дней6738 UAH
508 4 2 Победившая ставка7 дней6738 UAHЯ бы начал с проверки каждого источника отдельно: Douban, Ctrip и 36Kr могут по-разному отдавать страницы, поэтому сначала определю, где хватит обычного парсинга, а где нужна обработка динамической загрузки. Для MVP взял бы Python, Playwright/BeautifulSoup, SQLite, Telegram Bot API и Docker, чтобы все можно было нормально запустить на сервере. Дубликаты будут храниться в базе, частота проверки и теги будут в конфиге.
С китайскими сайтами работал, там часто головная боль не в самом парсинге, а в том, что часть данных подгружается отдельно или сайт может резать частые запросы. Поэтому сразу закладываю задержки, логирование и краткое описание ограничений по каждому сайту, без обхода защит.
MVP по 2-3 источникам можно собрать за несколько дней, полную версию по всем источникам после проверки доступности. По бюджету точнее скажу после быстрого технического обзора сайтов.
Подскажите, публикация в Telegram должна идти сразу после нахождения материала или через модерацию? Теги нужны только по источнику или еще по темам внутри текста? И нужно ли переводить/сокращать китайский текст перед публикацией?