Парсер html страниц с сохранением ссылок в файлы (C or C++)
30 000 UAHНадо пропарсить базу html страниц и записать найденные ссылки в текстовые файлы
Объемы данных большие - около 1,5 миллиарда страниц.
Пробовали hbase, cassandra, postgres, mongo для хранения данных...
Схема работы:
- в несколько потоков парсим хтмл страницы
- найденные ссылки распределяем по доменам (в памяти)
в формате
адрес, где найдена ссылка\tанкорный текст\tссылка
пример:
есть у нас страница google.com/firends на ней ссылки на microsoft.com ( anchor = The best friend) и на apple.com/about_us мы пишем в два массива
первый - hash(microsoft.com)
microsoft.com, The best friend, google.com/firends
второй - hash(apple.com)
apple.com, Friend #2, google.com/firends
- после того как в памяти накопилось более XXGb данных - пишем все на диски.
по поводу записи на диск:
1. дисков 14 штук - по ним надо писать данные в несколько потоков (один на каждый диск)
2. в папке должно быть максимум 1000 файлов-доменов
3. при выгрузке данных из памяти, если такой файл существует - добавляем данные в конец файла
Пример:
нашли ссылки в HTML коде страницы на домен www.google.com
путь к данным для домена google.com будет d00/3f9/ac7/66aa6/d5, где d5 это имя файла и в нем уже список страниц ссылок
путь создается из хэша для домена google.com - d003f9ac766aa6d5 (crc64)
ОС Ubuntu linux
файловая система ext4
Язык программирования C или C++
Пишите конкретные вопросы, сроки разработки и вашу почасовую ставку
шаблонные ответы не рассматриваются
-
288 10 0 Есть несколько вопросов. После уточнения смогу назвать сроки т стоимость. Заранее благодарен.
-
За какое время должно все спарсить?
-
Актуальні фриланс-проєкти в категорії C та C++
Порівняльний аналіз ефективності кастомного ПЗ (v2.2-field) та еталонного ПЗ (Meshtastic v2.x)
1000 UAH
Порівняльний аналіз ефективності кастомного ПЗ (v2.2-field) та еталонного ПЗ (Meshtastic v2.x) на ідентичній апаратній платформі (ESP32 + SX1268, 2W) за критеріями дальності, пропускної спроможності, стабільності лінка та енергоспоживання. Провести тести з вимірюваннями з… C та C++, C# ∙ 2 дні 16 годин тому ∙ 2 ставки |
Консультація та аудит поточного проєкту на Odoo 19 Community EditionШукаємо Odoo Developer — соло-розробника з досвідом розробки на Odoo 19 Community Edition, у тому числі за допомогою Claude Code. Нам потрібен спеціаліст, який має успішно реалізовані проєкти в Odoo та практичний досвід розробки з використанням Claude Code. Важливо: розглядаємо… C та C++, Javascript та Typescript ∙ 5 днів 17 годин тому ∙ 7 ставок |
Розробка ПЗ для Arduino (RF-модулі 3–7.5 ГГц, автоматичне сканування частот)Потрібно розробити систему на Arduino для автоматичного пошуку активного аналогового відеосигналу та автоматичного налаштування передавача на виявлену частоту.Планується використання трьох окремих приймально-передавальних модулів: 3000–4200 МГц; 4900–6000 МГц; 6100–7500… C та C++, Вбудовані системи та мікроконтролери ∙ 6 днів 17 годин тому ∙ 4 ставки |
Чорна Україна (RP-проект на базі MTA)
51 835 UAH
|
Інженер інфраструктури резидентних проксіМи будуємо мережу резидентних проксі з нуля — повністю власну, без сторонніх постачальників. Нам потрібен один винятковий мережевий інженер, щоб побудувати всю технічну основу. Що ви будете будувати: - Android фоновий SDK, який маршрутизує проксі-трафік через пристрої… C та C++, DevOps ∙ 12 днів 14 годин тому ∙ 15 ставок |