Парсинг метаданных сайтов
Здравствуйте.
Есть большой список сайтов.
Нужно парсить из них метаданные для обучения NLP моделей с целью определения нишы.
Данные, такие как:
top menu:
topics
categories
author name
| Meta Data (Meta Tag) |
| Categories |
| Auhtor Information |
| Headings and Subheadings |
| Blog Post Titles |
| Publication Date |
| Content Structure |
| About Us Page |
| Archives |
| HTML Tags |
| Structured Data Markup |
| Website Navigation |
| Footer Text |
| <html lang=""> |
| RSS feed |
| main-navigation__item menu |
| Advertising |
и другую релевантную информацию для нашей цели.
Сохранение в Монго БД в облаке.
Работа под Убунту 22.04
Комментарии и инструкции на английском.
Контроль версий через Гитхаб
-
151 Привет! Готов помочь с парсингом метаданных с большого списка сайтов для обучения NLP моделей и определения нишы. Однако, из-за отсутствия конкретных сайтов и деталей о структуре данных, сложно дать точную оценку проекта.
С учетом моего опыта веб-разработки и работы с Python и различными базами данных, я разработаю эффективный парсер для извлечения данных, таких как темы, категории и имена авторов из веб-сайтов.
Давайте обсудим дополнительные детали и требования для более точной оценки и успешной реализации проекта. Буду рад сотрудничеству!
-
194 Привет!
Как фуллстек разработчик с опытом в Python (Flask, Django) и базами данных (MySQL, PostgreSQL, MongoDB), заинтересовал ваш проект по парсингу метаданных с большого списка сайтов для обучения NLP моделей и сохранения в облачную MongoDB. Понимаю, что для точной оценки проекта необходимо уточнить детали, такие как объем данных, структура и распределение сайтов. Готов обсудить проект и оптимальные решения для его реализации. Буду работать под Ubuntu 22.04, контролируя версии через GitHub. Инструкции и комментарии предоставлю на английском. Давайте свяжемся и начнем работу над проектом!
-
294 3 1 Большой опыт парсинга. Django, Flask и FastAPI
Работа с любыми базами данных (mySQL, PostgreSQL, Oracle, MongoDB) и типами файлов.
Квалифицирован BS, Selenium and RestAPI.
Чистый код соответствует всем инструкциям PEP8.
Конечная стоимость и сроки зависят от количества и структуры сайтов, которые нужно парсить.
-
266 Добрый день. Я Senior WEB developer с опытом в отрасли с 1998 года. Ваше задание в целом понятно, но нельзя ли дать конкретику? К примеру это множество сайтов одинаковой структуры? "Footer text" всегда в одном месте или есть признак его нахождения? То же самое о навигации, к примеру и другом. Это разовая операция или вы хотите в своем проекте это сервисом? Что в стеке технологий проекта сейчас? Не могли бы вы дать ответы на вопросы?
-
Який конкретно список сайтів? Скільки там сайтів і які вони по структурі/складності. Які саме сторінки на цих сайтах парсити і де там шукати вказані дані? Ціна строки сильно буде залежити від всіх цих даних.
-
Задача в дійсності не є складною - треба робити раз за разом пошук по сторінкам сайту на наявні значення, знаходити їх і записувати. Підходів до вирішення такої задачі є масса, стронг джуніор розробник справиться.
Питання тільки в тому, що на фрілансханті дуже мало толкових людей залишилось (навіть джунів). Осталися в більшості "самоучки", які дуже хочуть гроші, а знань відповідних немають. Решта - або на війні, або закордоном.
Олександр, шукайте на upwork або fiver. На останньому десь ніби бачив вже готові парсери для вашої задачі.
-
Актуальные фриланс-проекты в категории Javascript и Typescript
Поддержка и развитие сайта клининговой компании
906 UAH
Ищу веб-разработчика / веб-мастера для долгосрочной поддержки и развития сайта клининговой компании. Сайт: https://donely.ca О проекте DoneLy Home Services — компания по предоставлению услуг уборки в Канаде, которая активно развивается и расширяет географию работы. Ищу… Javascript и Typescript, Веб-программирование ∙ 5 часов 45 минут назад ∙ 43 ставки |
Разработка сайта по ТЗ на FramerНеобходимо сделать сайт по этим параметрам, что в ТЗ https://docs.google.com/document/d/1ODO2C9Krb4AaMiJz9wfbNzWlAyA2FwCCHL8r0biajUY/edit?usp=sharing Назовите реальный рейд на основе этого дизайна HTML и CSS верстка, Javascript и Typescript ∙ 1 день 6 часов назад ∙ 26 ставок |
Разработка интерактивной карты Palworld для сайтаНеобходимо разработать интерактивную карту Palworld по примеру: https://palworld.gg/map Нам нужна не просто статическая картинка, а полноценная интерактивная карта, где пользователь может смотреть локации, включать / выключать категории объектов, искать нужные точки и… HTML и CSS верстка, Javascript и Typescript ∙ 2 дня 21 час назад ∙ 32 ставки |
Разработка платформы AM Mobility (автосервис, парковка, страхование, аренда автомобилей)
257 282 UAH
Ищем команду или опытного Full Stack разработчика для создания MVP платформы AM Mobility. AM Mobility — это единая цифровая экосистема для автомобилистов, объединяющая в одном приложении и веб-платформе: парковку; автосервис; шиномонтаж; автомойку; аренду автомобилей;… Javascript и Typescript, Веб-программирование ∙ 8 дней 4 часа назад ∙ 119 ставок |
Gsap анимации
1000 UAH
Добрый день. Нужно внести правки в текущем проекте. Нужен специалист, который хорошо работает на gsap/lenis Нужно сделать анимацию карточек. Подробное ТЗ здесь: https://www.figma.com/design/5bLEJudN5LPpB9ZSoJa2Eb/Untitled?m=auto&t=qwyluUctL1lrMNvh-6 Нужно… Javascript и Typescript, Веб-программирование ∙ 8 дней 9 часов назад ∙ 21 ставка |