Switch to English?
Yes
Переключитись на українську?
Так
Переключиться на русскую?
Да
Przełączyć się na polską?
Tak
Разместите свой проект бесплатно и начните получать предложения от фрилансеров-исполнителей уже спустя минуты после публикации!

Парсер китайских сайтов

6738 UAH

  1. 673
     5  0

    7 дней89 846 UAH

    Привет, я работал над парсером новостей для медиа-агрегатора — собирали статьи из 12 источников, ~500 публикаций/день, автопостинг в Telegram с тегами и дедубликацией.

    Что касается вашего проекта: некоторые из указанных сайтов (например, Douban и Ctrip) используют динамическую загрузку через JavaScript — готовы ли вы к варианту с Playwright вместо легкого BeautifulSoup, если сайт этого требует?

    Предлагаю связаться, я бесплатно проконсультирую вас с технической стороны и составим план разработки + расскажу о моей команде!

  2. 626    1  0
    7 дней11 231 UAH

    Здравствуйте, Андрей! Парсинг + автопостинг в Telegram — моя тема, и я уже глянул ваши источники:
    — Douban (movie.douban.com/explore) и Ctrip (you.ctrip.com/travels) подгружают контент через JavaScript — возьму Playwright (headless-браузер), а не «лёгкий» BeautifulSoup.
    — 36Kr (статьи/поиск/профиль) отдаёт данные структурнее, там парсинг легче и быстрее.

    Что сделаю:
    • по каждому материалу: заголовок, ссылка, дата, автор/источник, краткий текст, картинки (где доступны);
    • авто-теги по источнику + по теме (из текста);
    • дедупликация через базу (SQLite) — один материал не уйдёт дважды;
    • автопостинг в ваш Telegram-канал через бота по расписанию;
    • конфиг (источники/теги/частота), задержки и логирование под специфику китайских сайтов (режут частые запросы) — без обхода защит, только публичные данные.

    Предлагаю старт с MVP по 2-3 источникам (за несколько дней проверю реальную доступность и отдам рабочий бот), потом доберу остальные.

    Вопросы: публиковать сразу при находке или через модерацию? Нужен ли перевод/сокращение китайского текста перед постингом? Теги только по источнику или и по темам внутри текста?

    $250 за рабочий MVP (2-3 источника + бот + дедуп + деплой), дальше по источникам — договоримся. Готов начать сразу.

  3. 1510    10  0
    7 дней673 844 UAH

    Добрый день! Мы имеем опыт в разработке парсеров на Python с обходом защиты и интеграцией с Telegram API. Реализуем это через библиотеку Playwright для динамического контента и асинхронную отправку сообщений в канал. Настроим стабильную работу скрипта на сервере с учетом специфики китайских ресурсов.

  4. 508    4  2
    Победившая ставка7 дней6738 UAH

    Я бы начал с проверки каждого источника отдельно: Douban, Ctrip и 36Kr могут по-разному отдавать страницы, поэтому сначала определю, где хватит обычного парсинга, а где нужна обработка динамической загрузки. Для MVP взял бы Python, Playwright/BeautifulSoup, SQLite, Telegram Bot API и Docker, чтобы все можно было нормально запустить на сервере. Дубликаты будут храниться в базе, частота проверки и теги будут в конфиге.
    С китайскими сайтами работал, там часто головная боль не в самом парсинге, а в том, что часть данных подгружается отдельно или сайт может резать частые запросы. Поэтому сразу закладываю задержки, логирование и краткое описание ограничений по каждому сайту, без обхода защит.
    MVP по 2-3 источникам можно собрать за несколько дней, полную версию по всем источникам после проверки доступности. По бюджету точнее скажу после быстрого технического обзора сайтов.
    Подскажите, публикация в Telegram должна идти сразу после нахождения материала или через модерацию? Теги нужны только по источнику или еще по темам внутри текста? И нужно ли переводить/сокращать китайский текст перед публикацией?


Заказчик
Andrei Mox
Кыргызстан Бишкек  2  0
Проект опубликован
9 часов 19 минут назад
65 просмотров
Метки