Парсер html страниц с сохранением ссылок в файлы (C or C++)
30 000 UAHНадо пропарсить базу html страниц и записать найденные ссылки в текстовые файлы
Объемы данных большие - около 1,5 миллиарда страниц.
Пробовали hbase, cassandra, postgres, mongo для хранения данных...
Схема работы:
- в несколько потоков парсим хтмл страницы
- найденные ссылки распределяем по доменам (в памяти)
в формате
адрес, где найдена ссылка\tанкорный текст\tссылка
пример:
есть у нас страница google.com/firends на ней ссылки на microsoft.com ( anchor = The best friend) и на apple.com/about_us мы пишем в два массива
первый - hash(microsoft.com)
microsoft.com, The best friend, google.com/firends
второй - hash(apple.com)
apple.com, Friend #2, google.com/firends
- после того как в памяти накопилось более XXGb данных - пишем все на диски.
по поводу записи на диск:
1. дисков 14 штук - по ним надо писать данные в несколько потоков (один на каждый диск)
2. в папке должно быть максимум 1000 файлов-доменов
3. при выгрузке данных из памяти, если такой файл существует - добавляем данные в конец файла
Пример:
нашли ссылки в HTML коде страницы на домен www.google.com
путь к данным для домена google.com будет d00/3f9/ac7/66aa6/d5, где d5 это имя файла и в нем уже список страниц ссылок
путь создается из хэша для домена google.com - d003f9ac766aa6d5 (crc64)
ОС Ubuntu linux
файловая система ext4
Язык программирования C или C++
Пишите конкретные вопросы, сроки разработки и вашу почасовую ставку
шаблонные ответы не рассматриваются
-
288 10 0 Есть несколько вопросов. После уточнения смогу назвать сроки т стоимость. Заранее благодарен.
-
За какое время должно все спарсить?
-
Актуальные фриланс-проекты в категории C и C++
Консультация и аудит текущего проекта на Odoo 19 Community EditionИщем Odoo разработчика — соло-разработчика с опытом разработки на Odoo 19 Community Edition, в том числе с использованием Claude Code. Нам нужен специалист, который успешно реализовал проекты в Odoo и имеет практический опыт разработки с использованием Claude Code. Важно:… C и C++, Javascript и Typescript ∙ 2 дня 16 часов назад ∙ 7 ставок |
Создание или доработки прошивки и логики под три автономных LoRa-станций на базе ESP32.
5000 UAH
создание или доработки прошивки и логики под три автономных LoRa-станций на базе ESP32. Устройства должны поднимать Wi-Fi точку доступа, отдавать локальный сайт через браузер (HTTP), принимать текст и изображения в радиусе 5-10 км(плюс минус), сохранять данные (желательно на… C и C++, C# ∙ 2 дня 18 часов назад ∙ 3 ставки |
Разработка ПО для Arduino (RF-модули 3–7.5 ГГц, автоматическое сканирование частот)Необходимо разработать систему на Arduino для автоматического поиска активного аналогового видеосигнала и автоматической настройки передатчика на обнаруженную частоту.Планируется использование трех отдельных приемно-передающих модулей: 3000–4200 МГц; 4900–6000 МГц; 6100–7500… C и C++, Встраиваемые системы и микроконтроллеры ∙ 3 дня 16 часов назад ∙ 4 ставки |
Чёрная Украина (RP-проект на базе MTA)
51 355 UAH
|
Инженер по инфраструктуре резидентных проксиМы строим сеть резидентных прокси с нуля — полностью собственную, без сторонних поставщиков. Нам нужен один исключительный сетевой инженер для создания всей технической базы. Что вы будете строить: - Android SDK для фонового использования, который направляет прокси-трафик через… C и C++, DevOps ∙ 9 дней 12 часов назад ∙ 15 ставок |