Фриланс-проекты

Фриланс-проекты

Исправить ошибки в работе ИИ агента с векторной базой

AI и машинное обучение, Базы данных и SQL — неверно указаны категории?

5830 UAH

Проект переведен автоматически. Войдите или зарегистрируйтесь, чтобы увидеть оригинал

Привет.

Делаю приложение. Система построена таким образом: Пользователь задает запрос в чате приложения - Агент ИИ ищет информацию в БД и дает ответ. Если запрос пользователя выходит за рамки БД, тогда агент обращается к Gemini.

БД - Supabase. Туда загружены данные с двух государственных сайтов по API.

В бэкенде построен флоу в n8n (тот же агент). Он бегает по базе и дает ответы и комментарии.

В Supabase созданы таблицы с данными с 2 сайтов. Они объединены в 1 таблицу document_chunks

Проблема - Агент ИИ находит информацию только в 1 таблице, а данные второй как бы не видит. Даже если дать запрос и скопировать данные, которые нужно найти (мы знаем, что эти данные там есть), то агент не находит.
Также необходимо построить алгоритм для поиска для агента. База информации огромная, и я так понимаю, агент не знает, что является релевантным, а что нет. Не хватает системы "кластеров" поиска.

Обновление #1 от 24 января

Что касается различной метадаты. это не ошибка, а архитектурное решение. В одной таблице хранятся два принципиально разных типа документов:

Законодательство (Sejm) - имеет структуру "Статья/Параграф".

Судебные решения (SAOS) - имеют структуру "Номер дела/Суд". То, что в одних строках есть одни поля, а в других они NULL — это нормальная практика для смешанных баз данных. Это позволяет Агенту понимать, цитирует ли он закон или судебный приговор. Унифицировать их невозможно, так как это разные сущности.

Что касается «записываем одни векторы, ищем другие».

И для записи в базу (парсинг), и для поиска (агент) используется одна и та же модель — Google Gemini Embeddings.

Размерность вектора фиксирована — 768.

Если бы размеры отличались, база данных выдала бы ошибку транзакции еще на этапе записи или поиска, и система не работала бы вообще.

Что касается "поиска в несколько этапов" - а вот тут, наверное, согласен, так как других вариантов я не нашел, вероятно, нужно реализовать гибридный поиск

Векторы формирует модель Google Gemini Embeddings через API.

Технически это реализовано через ноду Google Gemini Embeddings в n8n, она отправляет текст на серверы Google, получает в ответ векторный массив embedding и передает его для записи в базу данных.

Входной запрос преобразуется в вектор с помощью модели Google Gemini.

В Supabase вызывается функция, которая сравнивает вектор запроса с векторами документов в базе.

Результаты сортируются по коэффициенту схожести (от наибольшего к наименьшему).

База возвращает установленное количество Top-K наиболее релевантных фрагментов текста, независимо от того, является ли это законом Sejm или судебным решением SAOS, которые затем передаются в контекст ИИ.

Физически в базе данные есть. Я проверил это через прямые запросы к базе данных — записи судебных решений SAOS загружены корректно.

Агент не видит этих решений в момент формирования ответа. ИИ-агент при поиске не может правильно сопоставить человеческий вопрос с юридическими текстами судебных решений. Он видит законы Sejm, но «пропускает» приговоры SAOS, и именно это главная проблема.

Вся логика и структура проекта реализованы стандартно в рамках вашего аккаунта Supabase (PostgreSQL). Ничего внешнего или скрытого там нет.

Функции поиска — это стандартные SQL-функции, они находятся непосредственно в схеме базы данных.

Размер вектора — этот параметр четко определен в типах данных колонок таблицы с документами.

Любой разработчик, имея доступ к базе, может получить эту информацию за минуту, просто просмотрев структуру Schema и список функций через SQL-запрос или интерфейс Supabase.

Строки, где sejm_id есть, а saos_id — NULL, это законодательные акты. Они приходят из базы польского Сейма. Поскольку это закон, у него есть номер в реестре Сейма, но он не является судебным решением, поэтому он не может иметь saos_id.

Строки, где saos_id есть, а sejm_id — NULL, это судебные решения из базы SAOS. У каждого приговора есть свой уникальный номер в системе судов. Но приговор — это не закон, Сейм его не принимал, поэтому он не имеет и не может иметь sejm_id.

Войдите или зарегистрируйтесь, чтобы увидеть оригинал

Ставки 5 Отклоненные 4

Yevhenii N.

0 0

Проекты -
Оценка -
Рейтинг 352

Бюджет: 990 PLN Срок: 2 дня

Добрый день,
Я проанализировал проблему с вашим AI-агентом и выявил основную причину — векторная конкуренция между двумя разными типами документов в одном пространстве. Документы Сейма (структурированные статьи) всегда выигрывают у решений SAOS (неструктурированный юридический текст) при стандартном векторном поиске.
Решение
Архитектура с двумя независимыми потоками поиска:

Классификатор запроса — определяет тип поиска (закон/прецедент/оба)
Параллельный поиск — отдельные запросы с оптимальной конфигурацией
Интеллектуальное объединение — слияние с перекрестной ссылкой (решения → законы)

Оптимизация затрат API
Текущая система: ~$0.20-$0.25/запрос
Новая система: ~$0.03-$0.04/запрос
Снижение: 85% (при 1000 запросов/мес = экономия ~800 PLN/мес)
Объем работ
Я выполню удаленно (9-10ч):
Анализ и технический план (2-3ч)
Функции SQL + конфигурация (2-2.5ч)
Классификатор запросов (2ч)
Основной рабочий процесс n8n (3-3.5ч)

Вы выполните самостоятельно (экономия ~4-5ч):

Миграция данных (готовый SQL-скрипт с инструкцией)
Импорт рабочего процесса + конфигурация учетных данных
Тестирование по контрольному списку
Тонкая настройка параметров

Вы получите: SQL-скрипты, JSON рабочего процесса n8n, пошаговые инструкции, контрольный список, поддержку в Telegram
Оценка
Стандартный расчет: 1000-1350 PLN (9-10ч × 25-30 EUR)
Предложение: 990 PLN
Скидка ~30% от стандартной ставки
По желанию: полное внедрение "под ключ" +200 PLN (отладка TeamViewer, расширенные тесты)

Если предложение устраивает, мы можем начать с анализа (2-3ч) — вы получите конкретный план и подтверждение осуществимости.
С уважением,
Евгений

Roman Z.

7 0

Проекты 7
Оценка 5.0
Рейтинг 1 562

Бюджет: 500 PLN Срок: 1 день

я вхожу в топ-5 разработчиков в категории «Искусственный интеллект и машинное обучение» среди ~2100 специалистов на платформе.
Гарантирую:
- Быстрое и качественное выполнение задания
- Четкое соблюдение дедлайнов
- Регулярная связь на протяжении всего процесса
Буду рад обсудить детали вашего проекта в личных сообщениях.
цена условная

Гліб У.

4 0

Проекты 4
Оценка 5.0
Рейтинг 1 518

Бюджет: 500 PLN Срок: 3 дня

Доброго дня. Подивився опис проблеми типовий кейс

Схоже, що частина даних або не проіндексована через embeddings, або просто не потрапляє в пошук. Плюс зараз у агента немає нормальної логіки відбору, тому він губиться у великій базі і не розуміє, де що шукати.

Я працював із Supabase, vector search і RAG-системами. Можу знайти, чому друга частина даних не знаходиться. Перебудувати логіку пошуку. Зробити так, щоб Gemini підключався тільки коли в БД реально немає відповіді. У результаті агент почне стабільно знаходити дані і відповідати адекватно.

Готовий подивитись на вашу поточну реалізацію і запропонувати рішення.

В списке не показаны ставки, скрытые заказчиком или фрилансером c профилем Plus, а также ставки, нарушающие правила

Jeo Vincent C.

4 2

Проекты 4
Оценка 4.6
Рейтинг 12 784

Бюджет: 5000 PLN Срок: 15 дней

Здравствуйте,

Я очень заинтересован в том, чтобы помочь улучшить возможности поиска вашего AI-агента и обеспечить надежное извлечение как законодательства Сейма, так и решений судов SAOS. У меня есть обширный опыт в создании и оптимизации бэкенд-систем с большими многосущностными базами данных, включая Supabase/PostgreSQL, и интеграции рабочих процессов поиска на основе векторов.

Я могу реализовать надежный гибридный алгоритм поиска, который учитывает несколько типов документов, улучшает рейтинг релевантности в больших наборах данных и вводит кластеризацию или извлечение с учетом сущностей, чтобы гарантировать, что AI-агент не пропустит ни один источник. Мне комфортно работать с рабочими процессами n8n, внедрять модели, такие как Google Gemini, и разрабатывать масштабируемые решения для высокообъемных структурированных данных.

Я уверен, что смогу улучшить логику поиска, повысить точность результатов и гарантировать, что AI-агент полностью использует ваш объединенный набор данных.

С наилучшими пожеланиями,
Джо Винсент Карретас

Symon Baikov

25 1

Проекты 26
Оценка 4.8
Рейтинг 4 552

Бюджет: 1000 PLN Срок: 5 дней

Здравствуйте, Максимилиан! Понимая вашу ситуацию, предлагаю интегративный подход для решения проблемы с АИ агентом. Сначала займусь детальным аудитом существующего флоу в n8n и структуры вашей базы Supabase. Опираясь на мой опыт в проектировании архитектур систем, быстро выявлю и решу проблему с поиском среди "document_chunks". Кроме того, разработаю оптимальный алгоритм кластеризации, который повысит точность и релевантность результатов агента. Настрою систему для бесперебойной и масштабируемой работы. Обсудим проект дальше?

Andrii Piatushka

46 0

Проекты 48
Оценка -
Рейтинг 2 155

Бюджет: 500 PLN Срок: 1 день

Добрый день. Без реального понимания что у вас там сделано, трудно сказать реальные сроки и стоимость. Пишите в ЛС, обсудим подробнее. Пока только предварительные вопросы.

Вы уверены, что у вас две таблицы? Или может у вас две БД? По картинке ни чего не понятно, кроме того что есть одна таблица. Что в этой таблице означает столбец chunk_index?

Какой размерности ембединги? Какие размеры чанков? Почему сапбейс а не специализированные решения?

Maximilian D
Warszawa, Польша

Проектов 31
Конкурсов 1
Оценка 4.9
Рейтинг 1 098