Парсер html страниц с сохранением ссылок в файлы (C or C++)
668 USDНадо пропарсить базу html страниц и записать найденные ссылки в текстовые файлы
Объемы данных большие - около 1,5 миллиарда страниц.
Пробовали hbase, cassandra, postgres, mongo для хранения данных...
Схема работы:
- в несколько потоков парсим хтмл страницы
- найденные ссылки распределяем по доменам (в памяти)
в формате
адрес, где найдена ссылка\tанкорный текст\tссылка
пример:
есть у нас страница google.com/firends на ней ссылки на microsoft.com ( anchor = The best friend) и на apple.com/about_us мы пишем в два массива
первый - hash(microsoft.com)
microsoft.com, The best friend, google.com/firends
второй - hash(apple.com)
apple.com, Friend #2, google.com/firends
- после того как в памяти накопилось более XXGb данных - пишем все на диски.
по поводу записи на диск:
1. дисков 14 штук - по ним надо писать данные в несколько потоков (один на каждый диск)
2. в папке должно быть максимум 1000 файлов-доменов
3. при выгрузке данных из памяти, если такой файл существует - добавляем данные в конец файла
Пример:
нашли ссылки в HTML коде страницы на домен www.google.com
путь к данным для домена google.com будет d00/3f9/ac7/66aa6/d5, где d5 это имя файла и в нем уже список страниц ссылок
путь создается из хэша для домена google.com - d003f9ac766aa6d5 (crc64)
ОС Ubuntu linux
файловая система ext4
Язык программирования C или C++
Пишите конкретные вопросы, сроки разработки и вашу почасовую ставку
шаблонные ответы не рассматриваются
-
288 10 0 Есть несколько вопросов. После уточнения смогу назвать сроки т стоимость. Заранее благодарен.
-
За какое время должно все спарсить?
-
Current freelance projects in the category C & C++
Comparative analysis of the effectiveness of custom software (v2.2-field) and reference software (Meshtastic v2.x)
22 USD
Comparative analysis of the effectiveness of custom software (v2.2-field) and reference software (Meshtastic v2.x) on the identical hardware platform (ESP32 + SX1268, 2W) based on the criteria of range, throughput, link stability, and power consumption. Conduct tests with… C & C++, C# ∙ 2 days 10 hours back ∙ 2 proposals |
Consultation and audit of the current project on Odoo 19 Community EditionWe are looking for an Odoo Developer — a solo developer with experience in Odoo 19 Community Edition, including using Claude Code. We need a specialist who has successfully implemented projects in Odoo and practical experience in development using Claude Code. Important: we only… C & C++, Javascript and Typescript ∙ 5 days 11 hours back ∙ 7 proposals |
Software development for Arduino (RF modules 3–7.5 GHz, automatic frequency scanning)It is necessary to develop a system on Arduino for the automatic search of active analog video signals and the automatic tuning of the transmitter to the detected frequency.It is planned to use three separate transceiver modules: 3000–4200 MHz; 4900–6000 MHz; 6100–7500… C & C++, Embedded Systems & Microcontrollers ∙ 6 days 12 hours back ∙ 4 proposals |
Black Ukraine (RP-project on base MTA)
1154 USD
|
Residential Proxy Infrastructure EngineerWe're building a residential proxy network from scratch — fully owned, no third-party suppliers. We need one exceptional network engineer to build the entire technical foundation. What you'll build: - Android background SDK that routes proxy traffic through user devices… C & C++, DevOps ∙ 12 days 8 hours back ∙ 15 proposals |