Разместите свой проект бесплатно и начните получать предложения от фрилансеров-исполнителей уже спустя минуты после публикации!
30000 ₴

Парсер html страниц с сохранением ссылок в файлы (C or C++)

истекло время актуальности


Надо пропарсить базу html страниц и записать найденные ссылки в текстовые файлы

Объемы данных большие -  около 1,5 миллиарда страниц.


Пробовали hbase, cassandra, postgres, mongo для хранения данных...


Схема работы:

- в несколько потоков парсим хтмл страницы

- найденные ссылки распределяем по доменам (в памяти)

  в формате

  адрес, где найдена ссылка\tанкорный текст\tссылка



пример:

есть у нас страница google.com/firends на ней ссылки   на  microsoft.com  ( anchor = The best friend) и  на  apple.com/about_us мы  пишем в два массива


первый  - hash(microsoft.com)


microsoft.com,  The best friend, google.com/firends


второй  - hash(apple.com)

apple.com, Friend #2, google.com/firends



- после того как в памяти накопилось более  XXGb данных - пишем все на диски.


по поводу записи на диск:

1. дисков 14 штук -  по ним надо писать данные в несколько потоков (один на каждый диск)

2. в папке должно быть максимум 1000 файлов-доменов

3. при выгрузке данных из памяти, если такой файл существует - добавляем данные в конец файла


Пример:

нашли ссылки в HTML коде страницы на домен www.google.com


путь к данным для домена google.com  будет d00/3f9/ac7/66aa6/d5, где d5 это имя файла и в нем уже список страниц ссылок


путь создается из хэша для домена google.com  - d003f9ac766aa6d5  (crc64)




ОС Ubuntu linux

файловая система ext4


Язык программирования C или C++


Пишите конкретные вопросы, сроки разработки и вашу почасовую ставку


шаблонные ответы не рассматриваются



  1.  фрилансер больше не работает на сервисе
  2. 1 день1000 ₴
    Евгений С.
     446  проверен   10   0

    Есть несколько вопросов. После уточнения смогу назвать сроки т стоимость. Заранее благодарен.

    Украина Запорожье | 4 октября 2016 |
  3. 10 дней10000 ₽
    Игорь Сидоров
     241 

    Могу сделать, но есть вопросы.

    Россия Санкт-Петербург | 5 октября 2016 |
  1. 1 день500 ₴
    Юрий Бевзенко
     195 

    Добрый день!

    Я представляю компанию Prof-it наша web-студия занимается разработкой проектов с нуля под ключ. Мы делаем такие проекты как у Вас. Опыт в этом направлении колоссальный! Впринципе ничего сложного в Вашем проекте не вижу. Есть еще вопросы по поводу проекта.
    Давайте более детально обсудим?

    Украина Киев | 4 октября 2016 |
  2. 4 дня200 ₴
    Дмитрий Макаров
     162   2   1

    Срок разработки 4 дня.
    Почасовая ставка - 7 долларов в час.

    Украина Киев | 4 октября 2016 |

Заказчик
Валерий Власюк
Украина Запорожье  3   0
Проект опубликован
4 октября 2016
115 просмотров
Местоположение исполнителя
Украина Украина
Качество описания проекта
0
0
100%