Projekt / TFIDF
Tfidf do różnych książek.Nie wolno używać pakietów przetwarzania tekstów
I należy obliczyć Tfidf z Pandas / Numpy.Będziesz korzystać z projektu Gutenberg
Tego celu .Projekt Gutenberg (Https: //Www.Gutenberg.Org/) to zbiór ponad 70 000 darmowych książek elektronicznych, które
Dostępne w różnych formach.Dostarczane są wiele typów plików dla każdej książki, ale będziesz
Archiwum .Txt dla tego projektu.Możesz jednak przeglądać pliki HTML5 do uzyskania
Zrozumienie zawartości książek.W tym projekcie będziesz Parse kilka dokumentów, aby wyciągnąć terminy, a następnie użyć tych
Terminy do obliczania Tfidf.Będziesz korzystać z wyników Tfidf do zbadania dokumentów, analizy
Porównaj je i wyciągnij o nich nowe informacje.Jesteś wolny do wyboru, co
Rodzaj analizy, którą chcesz wykonać na dokumentach za pomocą Tfidf.Polecamy, abyś używał
Twoją kreatywność i wybierz drogę, która cię najbardziej interesuje.Oto dwa przykłady tego
Rodzaj analizy, którą możesz wykonać:
• porównanie książek z różnymi tematami.E. G Wybierz 2 książki na temat biologii i 2 książki
Na prawo, i porównać ich słowa kluczowe
• Porównaj rozdziały w długiej książce, aby pokazać postęp przedmiotu.E. G Wybierz
Niektóre książki biografii i oddzielić rozdziały, a następnie porównać treść
Rozdziały
Proszę pamiętać, że ogólna wielkość plików, które używasz, nie powinna być mniejsza niż 250 KB.Tak więc
Proszę sprawdzić, czy książki, na których pracujesz, są zbyt długie lub zbyt krótkie.W oparciu o wyniki i analizę, będziesz napisać raport techniczny.Język z
Sprawozdanie jest ważne, ponieważ ma zostać przeczytane przez kogoś, kto zna
Dane, ale brak głębokiego zrozumienia.Pomyśl o tym jako o raporcie, który przekazujesz swojemu
Dyrektor lub szef pracy w dziedzinie nauk danych.Powinieneś dodać dokładne podsumowanie głównego
punktów sprawozdania na jego początku.Dla tego projektu, trzeba wykonać zestaw wymaganych ogólnych zadań.Jesteś zachęcony -
Wiek, aby przekroczyć te wymagania i eksperymentować z różnymi pomysłami.1 Parking
Przejdź przez plik tekstowy każdej książki, wyciągnij surową wersję dokumentu, w którym rzeczy
Takie jak informacje bibliograficzne, tabela treści, licencje, dywidendy itp.są usuniętePobierz wszystkie słowa i usunąć wszystkie znaky punktowe za pomocą poleceń Regex.Rozdrobnienie
Słowa i przechowywać je na liście.Proces ten nazywany jest tokenizacją.Opcjonalne: można
Badaj na temat stemming i Lemmatization, a także używaj ich, jeśli jesteś zainteresowany.Jeśli Ty
Potrzebujesz pakietu do głosowania lub Lemmatizacji, możesz go użyć, ale wdrożenie
Z Tfidf musi być z Pandami.Korzystając z listy tokenizowanej, utwórz tabelę dokumentów Word w postaci ramki danych Pandas.Pamiętaj, że jeśli analizujesz rozdziały, każdy rozdział będzie oddzielnym dokumentem.Użyjesz tej tabeli i funkcji Pandas, aby wypełnić następujące wymagania.Rozmawiaj o wszelkich problemach, z którymi się zmierzyłeś w związku z tym zadaniem i jak je rozwiązałeś.Był to formatowanie
Książka o wyzwanie?2 Vektoryzacja
Dla każdego dokumentu, utworzyć wektor częstotliwości słów.Innymi słowy, obliczyć TF (t, D) =
F (t, D) / T'∈D f (t', D) dla każdego terminu t i dokumentu D ∈ D. spróbuj wyrównać te wartości i zbadać
Znalezienia .Czy jesteś w stanie wyciągnąć informacje z tych wartości?Dla każdego terminu obliczyć częstotliwość odwrotnego dokumentu lub Idf (t, D) = log (N/1+Nt).Porównaj te wartości i odkryj swoje wyniki.Czy możesz wyciągnąć dowolne informacje z
Te wartości ?3 TF-IDF
Oblicz wartość Tfidf (t, D, D) = TF (t, D) · Tfidf (t, D) gdzie N jest liczbą Doc-
Uments i NT to liczba dokumentów zawierających termin t, dla każdego terminu i
Para dokumentów.Sprawdź najwyższe wartości dla każdego dokumentu.Jakiego rodzaju wniosek
Czy można się z tych wartości wyróżniać?Odkryj swoje odkrycia.Spróbuj wyjaśnić wyniki i
Wykorzystaj wizualizacje i tabele tak, jak widzisz, że pasuje.4 wycieczki (określone otwarcie)
Jakie są inne zastosowania Tfidf?Jak można zbudować na swoich wynikach, aby wyciągnąć więcej
Informacje ?Możesz odpowiedzieć na niektóre z tych pytań lub zaproponować własne:
Zobacz kilka innych rozdziałów i książek z projektu Gutenberg, które sądzisz, że mogą
Znajomość wybranych książek.Spróbuj porównać je z pierwotnymi dokumentami.może
Czy używasz Tfidf, aby obliczyć, jak podobne są różne dokumenty?Możesz użyć tego do umieszczania
Dokumenty w różnych grupach?Spróbuj badać i używać metod N-Gram Tfidf.Jak
Czy wyniki Bigram lub Trigram różnią się od wyników 1-Gram Tfidf?
-
4303 93 1 3 Pozdrawiam
Nazywam się Tair
Jestem deweloperem Python
Jestem inżynierem uczenia się maszynowego
Zrobiłem wiele zadań na innej platformie.
Jestem gotowa do rozpoczęcia
-
1544 18 1 Pozdrawiam .
Dziękuję za Twoją propozycję.
Cieszę się, że mogę Ci pomóc i zapewnić rozwiązanie dla Twojego projektu.
Jeśli jesteś gotowy, możemy omówić szczegóły.
-
Good evening.
Deadlines, stack, more details?
Regards, Sergey
-
Aktualne zlecenia dla freelancerów w kategorii Python
Rozwój oprogramowania z AIPotrzebne jest opracowanie oprogramowania do automatycznego wykrywania, śledzenia i towarzyszenia obiektowi za pomocą kamery wideo i mechanizmu obrotowego.Dane wyjściowe: Kamera wideo z optyką. Urządzenie obrotowe w dwóch osiach (azymut/kąt elewacji). Serwomotory z kontrolą… AI i uczenie maszynowe, Python ∙ 10 godzin 12 minut temu ∙ 10 ofert |
ZADANIE NA DOPRACOWANIE AI-BOTA GENERUJĄCEGO OSOBISTE PIOSENKIZADANIE NA DOPRACOWANIE AI-BOTA GENERACJI OSOBISTYCH PIOSENEKGŁÓWNY CELStworzyć stabilny produkt premium, który:generuje maksymalnie jakościowe osobiste piosenki;nie wymyśla faktów o kliencie;pracuje stabilnie pod obciążeniem;łatwo się skaluje;pozwala analizować i poprawiać… Python, Tworzenie chatbota ∙ 11 godzin 17 minut temu ∙ 27 ofert |
Specjalista ds. Excela / automatyzacji procesów (Excel + mile widziane programowanie)Szukamy specjalisty z ZAAWANSOWANYMI umiejętnościami Excel do optymalizacji istniejącego pliku i automatyzacji procesów. Wielką zaletą będzie, jeśli masz również umiejętności programowania / VBA / Power Query / Power Automate lub doświadczenie w tworzeniu złożonej logiki w… Python, Bazy danych i SQL ∙ 14 godzin 16 minut temu ∙ 31 ofert |
Automatyzacja procesów przez API i PythonaPoniżej opisałem aktualny proces i to, do jakiego wyniku chciałbym dojść. Dołączam również pliki rzeczywistego procesu, aby lepiej zrozumieć, jak on wygląda w rzeczywistości Aktualny proces Obecnie cały proces wykonywany jest ręcznie: ładowanie/wyładowanie plików,… AI i uczenie maszynowe, Python ∙ 15 godzin 17 minut temu ∙ 39 ofert |
Należy stworzyć bota w tg do płatności subskrypcyjnej.
164 PLN
Trzeba stworzyć bota w Telegramie, gdzie użytkownik będzie mógł wykupić subskrypcję na dostęp do kamer internetowych znajdujących się na podwórku. Organizować w bocie płatność dwóch rodzajów subskrypcji (na miesiąc i na jeden dzień). Bot powinien automatycznie sprawdzać płatność… Python, Tworzenie chatbota ∙ 1 dzień 4 godziny temu ∙ 76 ofert |