Автоматическое определение авторства текста
Програма буде заснована на методиці визначення авторства тексту. Схожа методика з великим ступенем вірогідності визначає справжнього автора за текстом. Методика не аналізує сюжет, фабулу і художні засоби. Програма проводить свої висновки на основі деякої оцінки відносної ентропії текстів. В оцінці відносної ентропії враховуються такі формальні характеристики текстів, як:
- число службових слів (прийменників, спілок і частинок);
- морфеми, що використовуються в словах (приставки, корені, суфікси, закінчення) і їх послідовності;
- складність використовуваних граматичних конструкцій;
- словник, що використовує автор.
Програмі необхідно виміряти всі ці параметри, щоб вони були зведені в таблиці, що містять змінні, які характеризують письменника. Для автора є своя таблиця у базі даних, яка є авторським еталоном.
При аналізі іншого тексту, відбувається побудова ще однієї таблиці за вхідним текстом. Після цього вхідна таблиця зіставляється з вихідної, і виводиться інтегральна величина для оцінки близькості даного тексту до вихідного. Така інтегральна величина називається відносної ентропією. Програма повідомить якою є відносна ентропія даного тексту. При аналізі тексту також не використовуватимуться власні імена.
З математичної точки зору завдання можна вирішити програмою, що полягає в наступному: подано текст Z невідомого походження; необхідно співвіднести його одному з текстів <!--[if !msEquation]--> <!--[endif]-->, ..., <!--[if !msEquation]--> <!--[endif]-->.
Підхід до вирішення задачі [16] полягає у побудові деякої оцінки відносної ентропії H(B|A) тексту B відносно тексту A. Потім послідовність Z співвідноситься з послідовністю <!--[if !msEquation]--> <!--[endif]--> яка має мінімальну відносну ентропію H(Z|<!--[if !msEquation]--> <!--[endif]-->).
Відносну ентропія є узагальненням поняття ентропії, що вводиться як до теорії ймовірності, так і до теорії інформації [9, 18]. Існує два підходи до визначення ентропії, що призводять до різних обчислювальних алгоритмів її оцінки.
Чисто інформаційне визначення ентропії через складність ввів А. Н. Колмогоров [9]: складністю послідовності літер A є довжина (в двійковому алфавіті) мінімальної програми, яка виводить A, а ентропія A - це її складність, поділена на довжину A в бітах.
Традиційне вірогіднісне визначення ентропії засновано на розгляді ланцюга Маркова n-го порядку на послідовності A, що виходить із ергодичного джерела [18]. Для досить довгих A гарна оцінка ентропії дається деякою функцією <!--[if !msEquation]--> <!--[endif]-->(A), що залежить тільки від частот вживання послідовної n+1 літери у тексті [18]. Аналогічно можна визначити функцію відносної ентропії <!--[if !msEquation]--> <!--[endif]-->(B|A).
Виходячи з результату отриманого Д. В. Хмельовим [16]: в рамках завдання визначення авторства достатньо обмежитись функцією <!--[if !msEquation]--> <!--[endif]-->(B|A), тобто, авторство тексту буде визначатися інформацією про частоту пар літер, що послідовно йдуть у тексті.
Спочатку обчислюються ентропії H(Z|<!--[if !msEquation]--> <!--[endif]-->), ..., H(Z|<!--[if !msEquation]--> <!--[endif]-->) тексту Z відносно текстів <!--[if !msEquation]--> <!--[endif]-->, ..., <!--[if !msEquation]--> <!--[endif]--> всіх авторів кількістю 6 з бази даних. А саме:
Розум і почуття (англ. Sense and Sensibility, 1811);
Гордість і упередження (англ. Pride and Prejudice, 1813);
Менсфілд парк (англ. Mansfield Park, 1814);
Емма (англ. Emma, 1816);
Аргументи розуму (англ. Persuasion, 1817);
Нортенгерське абатство (англ. Northanger Abbey, 1818).
Потім, за допомогою аналогічних ентропійних міркувань, відсікаються автори, які не мають відношення до тексту.
Для оптимізації роботи такої системи слова і словосполучення вихідного тексту можна розбивати на групи за частотою їх вживання, ознаками відповідності одного гнізда, однокореневі та ін., вибудовуючи відповідні залежності.
Навіть простий порівняльний аналіз таких частотних діаграм дозволить вирішити ряд завдань щодо ідентифікації авторства, націленості тексту на певний імператив та ін. Таким чином, частотний аналіз є першим ступенем інтелектуальної обробки і дослідження тексту.
Тобто, виходячи з цього перш за все необхідно порахувати такі кількісні характеристики як:
Довжина речень, тобто середнє число слів у реченні.
Довжина слів, тобто середня кількість складів у слові.
Загальна частота вживання службових слів - прийменників, спілок, частинок, тобто процентний вміст службових слів.
Частота вживання іменників, тобто їх процентний вміст.
Частота вживання дієслів, тобто їх процентний вміст.
Частота вживання прикметників (у відсотках).
Частота вживання прийменника «в» (у відсотках).
Частота вживання частки «не» (у відсотках).
Кількість службових слів у реченні, тобто середнє число спілок, прийменників і часток у реченні.
Отже, алгоритм матиме такий вигляд: на вхід програми буде подаватися декілька текстів. З цих текстів видаляються стоп-слова та знаки пунктуації, складається частотний словник слів текстів, що аналізуються, складається словник маркем для обраного автора, завантажується текст, для якого необхідно визначити чи є обраний письменник його автором, для цього тексту складається словник маркем й робиться висновок про авторство письменника.
Aktualne zlecenia dla freelancerów w kategorii Java
Dostosowanie ekranu ładowania i menu Minecraft 1.12.2 (Tech Survival)
75 PLN
Potrzebne jest dopracowanie gotowego klienta Minecraft 1.12.2 z modami oraz wdrożenie własnego projektu interfejsu w stylu technicznego przetrwania (Industrial / Tech Survival).Co trzeba zrobić1. Niestandardowy ekran ładowania modów Konieczne jest zastąpienie standardowego… Java, Tworzenie gier ∙ 3 dni 23 godziny temu ∙ 6 ofert |
Integracja modułów skanerów stomatologicznych w CRM
2275 PLN
Opracowaliśmy system CRM do współpracy z dentystami i laboratoriami. Należy zintegrować usługi iTero, sirona, medit i inne, aby pliki były automatycznie pobierane. AI i uczenie maszynowe, Java ∙ 4 dni temu ∙ 27 ofert |
Opracowanie prostych gier 2D (Wąż, Galaktyka itp.) na rynek Google PlayWitam! Szukam dewelopera (lub początkującego z dobrą podstawą), który będzie w stanie stworzyć kilka prostych klasycznych gier 2D na platformę mobilną Android z dalszą publikacją w Play Market.Na początek trzeba opracować jedną-dwie gry. Przykłady settingu i mechanik: klasyczna… Java, Tworzenie gier ∙ 6 dni 4 godziny temu ∙ 19 ofert |
Tworzenie aplikacjiChcę stworzyć aplikację mobilną do komunikacji, w aplikacji ma być audio, wideo rozmowa, tworzenie grupowych czatów, możliwość synchronizacji z kontaktami telefonu, ustawieniami konta: powiązanie przez e-mail, 2fa, numer telefonu, możliwość dostosowywania powiadomień aplikacji,… Java, Python ∙ 10 dni 21 godzin temu ∙ 41 ofert |