Проекти_Tfidf
ТФІДФ до різних книг.Вам не дозволяється використовувати текстові упаковки
І потрібно розраховувати Tfidf з Pandas/Numpy.Про це йдеться в проекті «Гутенберг».
Цей ціль .Project Gutenberg (Https: //Www.Gutenberg.Org/) - це колекція понад 70 000 безкоштовних електронних книг, які
Доступно в різних форматах.Додано кілька типів файлів кожної книги, але ви будете використовувати
Завантажити файл .Txt для цього проекту.Однак, ви можете переглянути файли HTML5 для отримання
Ідея про зміст книг.У цьому проекті ви будете розділяти ряд документів, щоб витягти терміни, а потім використовувати ті, що
Терміни для розрахунку Tfidf.Ви будете використовувати рейтинги Tfidf, щоб дослідити документи, аналізувати
Їх порівнюйте і витягуйте нову інформацію про них.Ви вільні вибирати те, що
Тип аналізу, який ви хочете зробити на документах, використовуючи Tfidf.Рекомендуємо Вам використовувати
Ваша творчість і вибрати шлях, який вас найбільше цікавить.Ось два приклади того, що
Тип аналізу, який ви можете зробити:
• порівнювати книги з різними предметами.І. Г Виберіть 2 книги з біології та 2 книги з біології
На законі, і порівняти їх ключові слова
• Порівняйте розділи в довгій книзі, щоб показати прогрес предмета.І. Г Вибір
Деякі біографічні книги і розділяють розділи, а потім порівнюють зміст
Розділи
Будь ласка, зверніть увагу на те, що загальний розмір файлів, які ви використовуєте, не повинен бути меншим за 250 КБ.Так
Будь ласка, перевірте, чи є книги, на яких ви працюєте, занадто довгими або занадто короткими.На основі ваших результатів та аналізу ви напишете технічний звіт.Мова про
Доповідь важлива тому, що її має намір прочитати хтось, хто знайомий з
Інформація, але про неї немає глибокого розуміння.Зверніть увагу на це як на доповідь, яку ви передаєте своїм
Шеф або керівник на роботі в галузі інформаційних наук.Тому ви повинні включити точний резюме основного
Точки доповіді на її початку.Для цього проекту вам необхідно виконати набір необхідних загальних завдань.Ви заохочуєте –
Старий, щоб перевищити ці вимоги і експериментувати з різними ідеями.1 Партія
Перейти через текстовий файл кожної книги, витягнути сирову версію документа, де речі
Бібліографічна інформація, таблиця контенту, ліцензії, дивіденди і т.д.Вони були видалені.Знизити всі слова і видалити всі знаки пунктування за допомогою команд Regex.Розподіл
Слів і зберігати їх в списку.Цей процес називається токенізацією.Вибір: Ви можете
Досліджуйте про голосування і лематизацію, а також використовуйте їх, якщо вам цікаво.Якщо ти
Потрібна упаковка для голосування або Lemmatization, ви вільні використовувати її, але реалізація
З ТФІДФ має бути з Пандами.Використовуючи Токенізований список, створюйте таблицю Word-Документ у вигляді Пандської бази даних.Зверніть увагу, що якщо ви аналізуєте розділи, кожна глава буде окремим документом.Ви будете використовувати цю таблицю та функції Pandas для завершення наступних вимог.Обговорюйте будь-які проблеми, з якими ви зіткнулися з цією задачею, і як ви їх вирішили.Був форматизований
Про книжку, що викликала?2 Векторизація
Для кожного документа створюйте віктор частоти слова.Іншими словами, розрахувати TF (t, D) =
F (t, D) / T'∈D f (t', D) для кожного терміну t і документа D ∈ D. спробуйте розпоряджати ці значення і досліджувати ваш
ЗнайдітьЧи можна витягувати будь-яку інформацію з цих цінностей?Для кожного терміну розрахуйте зворотну частоту документа або Ідф (t, D) = лог (N/1+Nt).Зортуйте ці значення і досліджуйте свої висновки.Ви можете отримати будь-яку інформацію з
Ці ці цінності?3 ТФ ІДФ
Розрахуйте значення Tfidf (t, D, D) = TF (t, D) · Tfidf (t, D), де N є числом Doc-
Умен і NT - це кількість документів, що містять термін t, для кожного терміну і
Документальна пара.Подивіться на найвищі показники для кожного документа.Що таке висновок
Чи можна виходити з цих цінностей?Знайдіть свої висновки.Спробуйте пояснити результати та
Використовуйте зображення та таблиці, як ви бачите, що підходять.4 випробування (відкрито завершено)
Які інші види використання Tfidf?Як ви можете побудувати на своїх результатах, щоб отримати більше
Інформація ?Ви можете відповісти на деякі з цих питань, або запропонувати свій власний:
Подивіться на деякі інші розділи та книги з проекту Гутенберга, які, на вашу думку, можуть
Зверніть увагу на ваші вибрані книги.Спробуйте порівняти їх з вашим початковим документом.Можна
Ви використовуєте Tfidf для обчислення того, наскільки схожі різні документи?Ви можете скористатися цим для розміщення
Документи в різних групах.Спробуйте досліджувати і використовувати методи N-Gram Tfidf.Як
Чи відрізняються результати Bigram або Trigram від результатів 1-Gram Tfidf?
-
4303 93 1 3 Здоров'я
Моє ім'я Таїр
Я є розробником Python
Я інженер машинного навчання
Я зробив багато завдань на іншій платформі.
Я готовий почати
-
1544 18 1 Привітання
Дякуємо за Ваш пропозицію.
Я радий допомогти вам і запропонувати своє рішення для вашого проекту.
Якщо ви готові, ми можемо обговорити деталі.
-
Good evening.
Deadlines, stack, more details?
Regards, Sergey
-
Актуальні фриланс-проєкти в категорії Python
Створення Human AI Assistant для Telegram-групп### 1.1. Ключова концепція системи Система повинна виконувати дві основні функції: #### 1. Аналіз клієнтської комунікації AI-асистент має автоматично аналізувати всю комунікацію в Telegram-групах та розуміти контекст спілкування. Зокрема система повинна: - визначати… AI та машинне навчання, Python ∙ 2 години 30 хвилин тому ∙ 15 ставок |
Чорна Україна (RP-проект на базі MTA)
51 525 UAH
|
Необхідно створити букмекерську контору! З ДОСВІДОМПотрібно розробити betting-платформу / букмекерський продукт на базі готового шаблону. Основне завдання — адаптувати шаблон під повноцінну букмекерську контору: підключити парсинг спортивних подій і коефіцієнтів, реалізувати особистий кабінет користувача, баланс, ставки, історію… Python, Веб-програмування ∙ 3 години 6 хвилин тому ∙ 16 ставок |
Автоматизація розсилки повідомлень у чати TelegramПотрібно розсилати в телеграм чати повідомлення. Щоб не було банів. Чатів кілька сотень. Щоб налаштовувати періодичність і варіативність текстів. Python, Розробка ботів ∙ 3 години 17 хвилин тому ∙ 20 ставок |
Розробка програмного забезпечення з ШІПотрібно розробити програмне забезпечення для автоматичного виявлення, захоплення та супроводження об'єкта за допомогою відеокамери та поворотного механізму.Вихідні дані: Відеокамера з оптикою. Поворотний пристрій по двох осях (азимут/кут місця). Сервоприводи з керуванням через… AI та машинне навчання, Python ∙ 1 день 10 годин тому ∙ 16 ставок |