Randomly extract non-overlapping sets
Generate content for a word game. Input is data about relations (A-to-B strength). Output is distant relationships.
For example:
GOOD: apple, airplane, dog, house
BAD: banana, cherry, peach, strawberry.
You do NOT need to speak very much English. This is purely data.
I have two source files. A list of ranked relationships between words, and a separate list of words which may be in the first file. This is real English word data, similar to a thesaurus. https://www.powerthesaurus.org/
Task is to randomly output sets of lines from the 2nd file, which are NON-overlapping concepts.
An ideal algorithm would create a multidimensional mesh, and then randomly extract distant nodes. I don't know how to do that. i.e. output sets of words which are all distant in vector space. See: https://dzone.com/articles/introduction-to-word-vectors
A non-ideal algorithm would randomly pull lines from file 2, measure similarity to other output lines, if dissimilar, keep and remove from file 2. If a line in file 2 is similar to too many test lines, remove it and return to file 2. i.e. a "bag of coins", and you keep randomly testing/replacing coins so they are all different.
No word pair should be more than 0.3 similar; and the total similarity of all words between sets should be <0.5.
Preferred programming language is: ruby, perl, python.
Two input files:
A) relations.txt
#aaa [syn]: aab | aac; [syn-score]: 100.0 | 8.0;
#aab [syn]: aaa | aac; [syn-score]: 75.0 | 5.0;
#bbb [syn]: bba | bbc; [syn-score]: 50.0 | 4.3;
#bba [syn]: bbb | bbc; [syn-score]: 150.0 | 1.2;
#ccc [syn]: ccd | ccz; [syn-score]: 150.0 | 0.4;
... etc.
B) lists.txt
#aaa = aab | aac
#bbb = bbd | bba
#bba = bbd | bbx
#ccc = cca | ccz
#cca = ccd | cce
#ddd = dda | ddb
... etc.
The real file A is 300+ MB, with 855k lines.
The real file B is ~15k lines.
I will want to be able to set N, number of sets; and Y number of packs. N will typically be around 25 sets; and Y will likely be 1000 packs.
Output, with N=2:
#aaa = aab | aac
#cca = ccd | cce
#bbb = bbd | bba
#ddd = dda | ddb
#bba = bbd | bbx
#ccc = cca | ccz
Output, with N=3:
#aaa = aab | aac
#ccc = cca | ccz
#bba = bbd | bbx
#bbb = bbd | bba
#ddd = dda | ddb
#cca = ccd | cce
Актуальні фриланс-проєкти в категорії Веб-програмування
Лендинг для психологаЗадача. Створити "під ключ" та "запустити" лендинг для психолога з потенційною можливістю розширення (додавання меню та інших сторінок). Послідовні скріншоти приблизного бажаного дизайну в прикріплених файлах. Для цього спеціаліста… Веб-програмування ∙ 6 годин 3 хвилини тому ∙ 18 ставок |
Primatic - Перенос 3 сторінок з Figma в WordPress (Elementor)Привіт! Мене звуть Анна, я живу в Ізраїлі і управляю невеликою креативною студією. Працюю в основному з малим і середнім бізнесом і зараз шукаю фрилансера для довгострокового співробітництва. На даний момент є проект: потрібно перенести готовий дизайн з Figma в WordPress.… HTML та CSS верстання, Веб-програмування ∙ 7 годин 10 хвилин тому ∙ 27 ставок |
Шукаємо Frontend-розробника (React + Tailwind) для доопрацювання сайтуВсім привіт! Шукаємо толкового фронтендера, який допоможе нам закінчити сайт преміальної клініки пластичної хірургії. Ситуація така: сайт спроектований і зібраний за допомогою двох AI — логіку, структуру і код робили через нейромережі (Manus + Claude), стек вийшов React +… Веб-програмування, Дизайн сайтів ∙ 10 годин 47 хвилин тому ∙ 38 ставок |
Розробка 2 SEO-орієнтованих сайтів з продажу запчастин (квадроцикли та спецтехніка)Розробка двох спеціалізованих сайтів з продажу запчастинЗагальна інформація Потрібно розробити два спеціалізовані сайти: Запчастини для квадроциклів, UTV, SSV та іншої подібної техніки. Запчастини для спеціальної техніки. Існуючий сайт компанії: https://kiaparts.com.ua/ Нові… PHP, Веб-програмування ∙ 20 годин 34 хвилини тому ∙ 51 ставка |
Потрібен спеціаліст 1С (Управління торгівлею)
1000 UAH
Потрібен спеціаліст 1С (Управління торгівлею) Шукаємо досвідченого програміста 1С для невеликого проєкту з інтеграції. У нас інтернет-магазин і конфігурація 1С УТ. Потрібно налаштувати обмін даними між сайтом і 1С — щоб сайт міг отримувати з 1С актуальну інформацію (залишки,… Адміністрування систем та мереж, Веб-програмування ∙ 23 години 45 хвилин тому ∙ 12 ставок |