Автоматическая Генерация SFT Данных для LLM
Разработал скрипт для обработки кастомного текстового датасета (~400 записей) с использованием облегчённой языковой модели. Создал решение, запускаемое в Google Colab, для автоматической генерации нового CSV-датасета в формате «вопрос-ответ» на основе исходных данных для последующего обучения LLM.
Система способна анализировать каждый новый контекст, формировать релевантные вопросы и ответы в реальном времени и эффективно работать с большими объёмами данных.
Система способна анализировать каждый новый контекст, формировать релевантные вопросы и ответы в реальном времени и эффективно работать с большими объёмами данных.