Проекты_Tfidf
Tfidf к разным книгам.Вам не разрешается использовать текстовые пакеты обработки
И следует рассчитать Tfidf с Pandas/Numpy.Вы будете использовать проект Гутенберг для
В этой цели.Проект Гутенберг (Https: //Www.Gutenberg.Org/) представляет собой коллекцию более 70 000 бесплатных электронных книг.
Доступны в разных форматах.Различные типы файлов каждой книги предоставляются, но вы будете использовать
Файл .Txt для этого проекта.Однако, вы можете пересмотреть файлы Html5 для получения
Представьте себе представление о содержании книг.В этом проекте вы будете распределить ряд документов, чтобы вывести термины, а затем использовать те, которые
Срок для расчета Tfidf.Вы будете использовать рейтинг Tfidf для изучения документов, анализа
Они сравнивают их и извлекают новую информацию о них.Вы свободны выбирать то, что
Тип анализа, который вы хотите сделать на документах с использованием Tfidf.Рекомендуем Вам использовать
Ваша креативность и выберите путь, который вас интересует больше всего.Вот два примера того, что
Тип анализа, который вы можете сделать:
• Сравнивать книги с различными темами.Э. Г Выберите 2 книги по биологии и 2 книги
На закон, и сравнить их ключевые слова
• сравнивать главы в рамках длительной книги, чтобы показать прогрессирование предмета.Э. Г Выберите
Некоторые биографические книги и отделяют главы, затем сравнивают содержание
Главы
Пожалуйста, обратите внимание, что общий размер файлов, которые вы используете, не должен быть меньше 250 КБ.Так
Пожалуйста, ознакомьтесь, если книги, на которых вы работаете, слишком длинные или слишком короткие.На основе ваших результатов и анализа вы напишете технический отчет.Язык из
Доклад важен, потому что он предназначен для чтения кем-то, кто знаком с
Данные, но их глубокого понимания не хватает.Подумайте о нем как о докладе, который вы передаете своему
Шеф или директор на работе по науке данных.Так что вы должны включить точный резюме основного
Точки отчета в начале.Для этого проекта вам необходимо выполнить набор необходимых общих задач.Вы поощряете -
Старый, чтобы превышать эти требования и экспериментировать с различными идеями.1 Парсинг
Пройдите через текстовый файл каждой книги, извлечь сырую версию документа, где вещи
Такие как библиографическая информация, таблица содержимого, лицензии, дивиденды и т.д.Их удаляютСкачать все слова и удалить все точки с помощью команд Regex.разделить
Слова и хранить их в списке.Этот процесс называется токенизацией.Опционально: Вы можете
Исследуйте о голосовании и лемматизации, и используйте их также, если вы заинтересованы.Если вы
Нужен пакет для голосования или Lemmatization, вы свободны использовать его, но реализация
От Tfidf должно быть с Пандами.Используя Токенизированный список, создайте таблицу Word-Документа в виде Пандской базы данных.Помните, что если вы анализируете главы, каждая глава будет отдельным документом.Вы будете использовать эту таблицу и функции Pandas для выполнения следующих требований.Расскажите о любых проблемах, с которыми вы столкнулись для этой задачи, и о том, как вы их решили.Было форматирование
Книга о вызове?2 Векторизация
Для каждого документа создайте вектор частоты слова.Другими словами, вычислить TF (t, D) =
F (t, D) / T'∈D f (t', D) для каждого термина t и документа D ∈ D. постарайтесь сортировать эти значения и исследовать ваш
Изобретение .Можете ли вы извлечь какую-либо информацию из этих значений?Для каждого термина вычислить частоту обратного документа или ИДФ (т, Д) = лог (Н/1+Нт).Сортируйте эти значения и исследуйте свои результаты.Можно ли извлечь любую информацию из
Эти ценности?3 ТФ-ИДФ
Расчет стоимости Tfidf (t, D, D) = TF (t, D) · Tfidf (t, D) где N является числом Doc-
Умен и NT - это количество документов, содержащих термин t, для каждого термина и
Документальная пара.Посмотрите на самые высокие значения для каждого документа.Какой вид заключения
Можете ли вы избавиться от этих ценностей?Исследуйте свои выводы.Попробуйте объяснить результаты и
Используйте визуализации и таблицы, как вы видите, что они подходят.4 разведки (открыто и завершено)
Каковы другие преимущества Tfidf?Как вы можете построить на своих результатах, чтобы извлечь больше
Информацию ?Вы можете ответить на некоторые из этих вопросов, или предложить свое:
Посмотрите на некоторые другие главы и книги из проекта Гутенберга, которые вы думаете, что могут
Свяжитесь с выбранными вами книгами.Попробуйте сравнить их с первоначальными документами.может
Вы используете Tfidf, чтобы рассчитать, насколько похожи разные документы?Вы можете использовать это для размещения
Документы в разных группах?Попробуйте исследовать и использовать методы N-Gram Tfidf.Как
Отличаются ли результаты Bigram или Trigram от 1-Gram Tfidf?
-
4303 93 1 3 Здравствуйте
Мое имя Таир
Я разработчик Python
Я инженер машинного обучения
Я выполнил много задач на другой платформе.
Я готова к началу
-
1544 18 1 Здравствуйте
Спасибо за ваше предложение.
Я рад помочь вам и предложить свое решение для вашего проекта.
Если вы готовы, мы можем обсудить детали.
-
Good evening.
Deadlines, stack, more details?
Regards, Sergey
-
Актуальные фриланс-проекты в категории Python
Разработка программного обеспечения с ИИНеобходимо разработать программное обеспечение для автоматического обнаружения, захвата и сопровождения объекта с помощью видеокамеры и поворотного механизма.Исходные данные: Видеокамера с оптикой. Поворотное устройство по двум осям (азимут/угол места). Сервоприводы с… AI и машинное обучение, Python ∙ 11 часов 26 минут назад ∙ 11 ставок |
ТЗ НА ДОПРАЦЮВАНИЕ AI-БОТА ГЕНЕРАЦИИ ЛИЧНЫХ ПЕСЕНТЗ НА ДОПРАЦЮВАННЯ AI-БОТА ГЕНЕРАЦІЇ ПЕРСОНАЛЬНИХ ПІСЕНЬГОЛОВНА ЦІЛЬ Створити стабільний преміальний продукт, який: генерує максимально якісні персональні пісні; не вигадує факти про клієнта; працює стабільно під навантаженням; легко масштабується; дозволяє аналізувати та… Python, Разработка ботов ∙ 12 часов 31 минута назад ∙ 27 ставок |
Специалист по Excel / автоматизации процессов (Excel + желательно программирование)Ищем специалиста с ПРОДВИНУТЫМИ знаниями Excel для оптимизации существующего файла и автоматизации процессов. Будет большим преимуществом, если вы также имеете навыки программирования / VBA / Power Query / Power Automate или опыт создания сложной логики в Excel. Задачи проекта… Python, Базы данных и SQL ∙ 15 часов 30 минут назад ∙ 31 ставка |
Автоматизация процессоів через API и PhytonНиже описал текущий процесс и то, к какому результату хотелось бы прийти. Также прикладіваю файлы реалтного процесса чтобы лучше понять как он выглядит в ревльности Текущий процесс Сейчас весь процесс выполняется вручную: загрузка/выгрузка файлов, перенос данных между… AI и машинное обучение, Python ∙ 16 часов 31 минута назад ∙ 39 ставок |
Необходимо создать бота в ТГ для оплаты подписки.
2000 UAH
Необходимо создать бота в телеграме, где пользователь сможет оформить подписку на доступ к веб-камерам, которые находятся во дворе. Организовать в боте оплату двух видов подписок (на месяц и на один день). Бот должен автоматически проверять оплату и после выдавать ссылку-доступа. Python, Разработка ботов ∙ 1 день 5 часов назад ∙ 77 ставок |