Потрібен спеціаліст з ШІ: розгортання швидкого локального голосового асистента (STT + локальна LLM + TTS)
Проект: Веб-панель для вихідних дзвінків з використанням ШІ з динамічною конфігурацією агента
Основна концепція: Розробити повнофункціональний веб-додаток для управління вихідними дзвінками, що працює на базі агента ШІ. Система базується на локальному LLM (Llama, Deepseek, Gemma) і повинна мати панель конфігурації для налаштування поведінки агента під час дзвінка (голос, мова, запит), модуль управління лідами та детальну аналітику дзвінків.
Ключові вимоги до якості: Низька затримка до 800 мс та природна, людська мова з відповідним темпом і паузами.
Основні модулі:
1. Панель конфігурації агента (веб-інтерфейс)
Дозволяє користувачам вибрати наступне перед дзвінком:
- Мови: EN, DE, ES, NL (визначає доступні голоси та точність транскрипції)
- Модель STT: Вибрати движок транскрипції (Deepgram / Cartesia / Gemini)
- Постачальник та модель TTS: Вибрати бекенд синтезу (Cartesia / Deepgram / ElevenLabs)
- Вибір голосу: Вибрати конкретний голос для визначення тону та стилю
- Тайм-аут мовчання: Встановити затримку перед повторним запитом/закінченням дзвінка (за замовчуванням 30 с)
- Режим першого повідомлення: Перемикатися між "Агент говорить першим" або "Чекати на користувача"
- Фоновий шум: Додати навколишній звук (офіс, кол-центр) для реалістичності
- Запит та контекст: Поле для користувацьких запитів LLM (повний потік розмови) - Підтримка завантаження прикладів діалогів для навчання з кількома прикладами + експорт для навчання/підживлення моделі
2. Управління лідами та дзвінками (веб-інтерфейс)
- Завантаження та видалення списків контактів (CSV або ручний ввід)
- Керування дзвінками в реальному часі в браузері: Почати, Пауза, Зупинити
- Автоматичний запис дзвінків, пов'язаний з кожним лідом
3. Звітність та аналітика
Дані за дзвінком включають:
- Згенероване ШІ резюме дзвінка
- Тривалість дзвінка
- Повний аудіозапис
- Перекладений транскрипт (англійський переклад розмови)
4. Інтеграції та телефонія
- ВебRTC дзвінки безпосередньо з браузера
- Інтеграція з зовнішніми SIP-каналами (IP&IP SIP BASED) та Asterisk
5. Технічні вимоги
- Затримка від кінця до кінця повинна бути 800 мс або менше
- Сповіщення в Telegram про початок, кінець дзвінка та доставку результатів
- Рекомендації щодо сервера та налаштування для досягнення цільових показників продуктивності
Бажаний стек технологій:
- Бекенд: Python (FastAPI / Django / Flask)
- Фронтенд: React, Vue або основний HTML/JS
- ШІ:
- Локальний LLM як основний двигун розуміння (Llama, Deepseek, Gemma) – розробник повинен вибрати та оптимізувати найбільш підходящу модель для швидкості та якості.
- Хмарні API для низькозатримуваного STT/TTS (Deepgram, Cartesia, Gemini, ElevenLabs) для забезпечення продуктивності.
Ідеальний кандидат:
Досвідчений розробник повного стеку з експертизою в організації складних голосових потоків та здатністю правильно вибирати найбільш оптимальні, швидкі та економічні моделі для кожного компонента (STT, локальний LLM, TTS) на основі конкретних випадків використання та вимог.
- Початок: якнайшвидше (ASAP)
- Фіксований бюджет: $1000 (можливе збільшення бюджету)
- Довгострокова співпраця:
Ми також розглядаємо кандидатів, які будуть доступні для платної підтримки та майбутніх покращень проекту після доставки початкового MVP.
Будь ласка, включіть у вашу пропозицію:
- Посилання або описи подібних минулих робіт (вихідні дзвінки, голосові боти)
Підтвердження того, що ви можете незалежно вибрати та обґрунтувати LLM + STT + TTS
Кінцевий термін, до якого ви можете надати працюючий потік з затримкою ≤ 800 мс
мови спілкування: UA RU EN
*Назви LLM, наведені тут, є лише прикладами з мого досвіду. Якщо ви знаєте кращі, швидші або дешевші рішення для цього завдання, не соромтеся їх пропонувати. Ми шукаємо мотивованого кандидата для довгострокової співпраці з відповідною фінансовою винагородою.
-
Бомба проект , складнощів мульйон .. Але 800 мс. затримки то мабуть дуже занадто -
11Лабс - затримка при синтезу не менше чим 200 мс. (по моїм тестам 1 сек)
СТТ - не менше 0.3 сек. причому не віспер - це точно .
ЛЛМ - 0.5 сек. плюс (невеличка моделька якась)
але зате - на цпу І 4-6 ЯДЕР НА один поток.
але ще ж якщо локальний ТТС- то живої мови не отримаете (можна але затримки зростуть в рази) -
нереальный проект, закройте пока вайбкодеры не пришли) вам же лучше будет, лапши навешают что все реально
-
ну - буде дуже цікаво побачити хочаб приблизний результат цього дійства
-
Актуальні фриланс-проєкти в категорії AI та машинне навчання
Технічний консультант з оптимізації заліза та аудиту стабільності пам'яті
53 812 UAH
Всім привіт! Шукаю спеціаліста з комп'ютерного заліза або системного інженера, який допоможе мені розібратися з нестабільною продуктивністю мого локального сервера. Я зібрав його для робочих завдань, але, схоже, моїх аматорських знань не вистачає, щоб витиснути з нього максимум.… AI та машинне навчання ∙ 7 годин 3 хвилини тому ∙ 5 ставок |
Автоматизація маркетингу через ШІшукаю людину (не бота), яка розбирається в AI агентах, вміє їх будувати. Під AI агентом я маю на увазі: обробка вхідних даних, запит на 1х ЛЛМ або подібну AI модель, потенційний запит MCP або подібного, потенційний запит RAG системи обробка вихідних даних І досвід має бути… AI та машинне навчання ∙ 8 годин 25 хвилин тому ∙ 18 ставок |
Створення ІІ-АгентаНеобхідно створити AI-агента, який буде виконувати функції професійного дизайнера упаковки для бренду спортивного харчування. Агент повинен допомагати в розробці нових дизайнів продукції, створенні маркувань та адаптації існуючих макетів під різні ринки та вимоги.Основні… AI та машинне навчання, AI у дизайні ∙ 9 годин 3 секунди тому ∙ 21 ставка |
«Автоматизація / Чат-боти» «Налаштування CRM»
5000 UAH
Шукаю технічного асистента / інтегратора для налаштування автоматизації в салоні краси. Налаштування чат-бота для салону краси (Інтеграція Instagram + Altegio/YCLIENTS + Wahelp) з навчанням Що маємо зараз: CRM-система: Altegio (YCLIENTS). Основний канал трафіку: Instagram Direct… AI та машинне навчання, Розробка ботів ∙ 1 день 5 годин тому ∙ 31 ставка |
Автоматизація створення вертикальних відео одного типу.На ютубі Footula shorts - питання чи можливо робити такі відео автоматично, або напів автоматично (без навочок в after effects), кожне з яких повинно бути унікальним та притримуватись стилістики референса (в ідеалі юзати текстури та айтеми з конкретного паку) AI та машинне навчання, AI у дизайні ∙ 1 день 5 годин тому ∙ 13 ставок |