Парсер html страниц с сохранением ссылок в файлы (C or C++)
2478 PLNНадо пропарсить базу html страниц и записать найденные ссылки в текстовые файлы
Объемы данных большие - около 1,5 миллиарда страниц.
Пробовали hbase, cassandra, postgres, mongo для хранения данных...
Схема работы:
- в несколько потоков парсим хтмл страницы
- найденные ссылки распределяем по доменам (в памяти)
в формате
адрес, где найдена ссылка\tанкорный текст\tссылка
пример:
есть у нас страница google.com/firends на ней ссылки на microsoft.com ( anchor = The best friend) и на apple.com/about_us мы пишем в два массива
первый - hash(microsoft.com)
microsoft.com, The best friend, google.com/firends
второй - hash(apple.com)
apple.com, Friend #2, google.com/firends
- после того как в памяти накопилось более XXGb данных - пишем все на диски.
по поводу записи на диск:
1. дисков 14 штук - по ним надо писать данные в несколько потоков (один на каждый диск)
2. в папке должно быть максимум 1000 файлов-доменов
3. при выгрузке данных из памяти, если такой файл существует - добавляем данные в конец файла
Пример:
нашли ссылки в HTML коде страницы на домен www.google.com
путь к данным для домена google.com будет d00/3f9/ac7/66aa6/d5, где d5 это имя файла и в нем уже список страниц ссылок
путь создается из хэша для домена google.com - d003f9ac766aa6d5 (crc64)
ОС Ubuntu linux
файловая система ext4
Язык программирования C или C++
Пишите конкретные вопросы, сроки разработки и вашу почасовую ставку
шаблонные ответы не рассматриваются
-
288 10 0 Есть несколько вопросов. После уточнения смогу назвать сроки т стоимость. Заранее благодарен.
-
За какое время должно все спарсить?
-
Aktualne zlecenia dla freelancerów w kategorii C i C++
Porównawcza analiza efektywności oprogramowania dostosowanego (v2.2-field) i oprogramowania referencyjnego (Meshtastic v2.x)
83 PLN
Porównawcza analiza efektywności oprogramowania dostosowanego (v2.2-field) i oprogramowania referencyjnego (Meshtastic v2.x) na identycznej platformie sprzętowej (ESP32 + SX1268, 2W) według kryteriów zasięgu, przepustowości, stabilności łącza i zużycia energii. Przeprowadzić… C i C++, C# ∙ 13 godzin 14 minut temu ∙ 2 oferty |
Konsultacja i audyt bieżącego projektu na Odoo 19 Community EditionSzukamy programisty Odoo — samodzielnego dewelopera z doświadczeniem w pracy z Odoo 19 Community Edition, w tym z wykorzystaniem Claude Code. Potrzebujemy specjalisty, który ma zrealizowane projekty w Odoo oraz praktyczne doświadczenie w programowaniu z użyciem Claude Code.… C i C++, Javascript & Typescript ∙ 3 dni 14 godzin temu ∙ 7 ofert |
Rozwój oprogramowania dla Arduino (moduły RF 3–7,5 GHz, automatyczne skanowanie częstotliwości)Należy opracować system na Arduino do automatycznego wyszukiwania aktywnego analogowego sygnału wideo oraz automatycznego dostosowywania nadajnika do wykrytej częstotliwości.Planowane jest wykorzystanie trzech oddzielnych modułów odbiorczo-nadajnych: 3000–4200 MHz; 4900–6000… C i C++, Systemy wbudowane i mikrokontrolery ∙ 4 dni 15 godzin temu ∙ 4 oferty |
Czarna Ukraina (projekt RP na bazie MTA)
4242 PLN
|
Inżynier infrastruktury proxy mieszkalnychBudujemy sieć proxy dla użytkowników od podstaw — w pełni własną, bez dostawców zewnętrznych. Potrzebujemy jednego wyjątkowego inżyniera sieci, który zbuduje całą podstawę techniczną. Co zbudujesz: - SDK w tle dla Androida, które kieruje ruch proxy przez urządzenia użytkowników… C i C++, DevOps ∙ 10 dni 11 godzin temu ∙ 15 ofert |