Zlecenia dla freelancerów

Zlecenia dla freelancerów

Testowanie promptów dla agenta AI

AI i uczenie maszynowe, Tworzenie chatbota — podano nieprawidłowe kategorie?

84 PLN

Zlecenie jest tłumaczone automatycznie. Zaloguj się lub zarejestruj się, żeby zobaczyć oryginał

Mamy zrealizowaną platformę SaaS do podłączania menedżerów AI do Instagramu, Messengera i Telegramu (aby zamiast człowieka z klientami rozmawiał AI).

Używamy prompt_id (wiadomość dewelopera) od OpenAI jako promptu do komunikacji w czatach.

Kiedy prompt jest stworzony, należy testować dialogi dla różnych scenariuszy i produktów, zanim zostaną uruchomione w produkcji.

Obecnie testowanie odbywa się ręcznie - wprowadziliśmy zmiany w promptcie, przetestowaliśmy dialog 5-10 razy i to zajmuje dużo czasu, ponieważ po każdej poprawce trzeba testować scenariusze rozmów dla różnych typów produktów i w różnych sytuacjach.

Należy przemyśleć logikę i narzędzia, które można wykorzystać do automatyzowanego testowania dialogów (automatyzowanych rozmów) - jeśli klient pisze tak, AI odpowiada tak, jeśli prompt został zmieniony, jak zmieni się odpowiedź AI.

Również, aby AI samo proponowało, co zmienić w promptcie dla lepszej stabilności i przewidywalności odpowiedzi.

Piszcie, kto już realizował automatyczne testowanie dialogów między AI a klientami.

Oferty 22 Wycofane 1

Oleg Grigoryev

33 0

Budżet: 12000 UAH Termin: 5 dni

Możemy zacząć od pierwszego etapu - zaprojektować logikę autotestów dialogów i stworzyć działający prototyp na 10-20 scenariuszy. Budżet 1000 UAH na takie zadanie, według odczuć, nie pokryje nawet normalnego projektowania, ale można nie komplikować i zacząć od kompaktowego etapu za 12000 UAH na 5 dni =)

Podobne zadania mieliśmy w AI i automatyzacji
> https://business.ingello.com/vorfahr - logika AI, automatyzacja decyzji i kontrola jakości odpowiedzi
> https://business.ingello.com/fractal - procesy agenta, scenariusze, stabilność zachowania systemu
> https://systems-fl.ingello.com/ua - krótko o Ingello Systems dla giełdy

Budowałbym to jako testowe stanowisko - zestaw scenariuszy, wzorcowe oczekiwania, ocena odpowiedzi nie tylko według dokładnego tekstu, ale według treści, tonu, przestrzegania zasad, braku zakazanych obietnic i stabilności po zmianie prompt_id. Osobno można dodać AI-recenzenta, który porównuje stare i nowe odpowiedzi oraz sugeruje, co zmienić w promcie dla większej przewidywalności.

Od was potrzebne będą 3-5 rzeczywistych przykładów dialogów, aktualny prompt bez krytycznych tajemnic, typy produktów i zasady, które menedżer ma lub nie ma łamać. Dostęp do produkcji na pierwszym etapie nie jest potrzebny - wystarczy testowy klucz lub przykłady odpowiedzi.

Uściślę 2 rzeczy
> testy mają być uruchamiane przez OpenAI API bezpośrednio czy przez waszą platformę SaaS
> ważniejsze jest dla was znalezienie złych odpowiedzi po zmianie promtu czy automatyczne generowanie nowych scenariuszy do weryfikacji?

Maksym O.

5 0

Budżet: 1000 UAH Termin: 7 dni

Cześć, pracowałem nad automatyzacją testowania chatbotów dla platformy e-commerce z ponad 15 scenariuszami dialogów, co skróciło czas testowania o 80% i zwiększyło jakość odpowiedzi o 35%.

Ciekawe, jakie metryki używacie do oceny jakości odpowiedzi agenta AI i jak planujecie mierzyć efektywność po automatyzacji testowania?

Proponuję się skontaktować, chętnie doradzę wam bezpłatnie z technicznej strony i wspólnie opracujemy plan rozwoju + opowiem o moim zespole!

Kristina Y.

0 0

Zlecenia -
Ocena -
Ranking 153

Budżet: 1500 UAH Termin: 4 dni

Cześć.

Mogę pomóc w projektowaniu i wdrażaniu systemu automatyzacji testowania dialogów dla agentów AI (testowanie oparte na promptach).

Rozwiązanie może obejmować:

generację przypadków testowych (scenariusze klientów: sprzedaż, wsparcie, obiekcje itp.)
przeprowadzanie dialogów przez różne wersje prompt_id
porównanie odpowiedzi (testowanie regresji dla LLM)
evaluację stabilności/jakości odpowiedzi (wynik/kryteria)
logowanie zmian między wersjami promptu
automatyczną analizę: gdzie prompt "spadł" i co należy poprawić

Można również dodać moduł, który:

analizuje dialogi i proponuje ulepszenia promptu (pętla samodoskonalenia)

Mam doświadczenie z LLM, inżynierią promptów i automatyzacją testowania systemów dialogowych.

Mogę zaproponować architekturę MVP i ocenę po omówieniu bieżącej realizacji.

Daria Kratofil

0 0

Zlecenia -
Ocena -
Ranking 196

Budżet: 27000 UAH Termin: 10 dni

Mamy już prawie gotowe podobne rozwiązanie do automatycznego testowania dialogów menedżerów AI, które można szybko dostosować do waszej platformy SaaS i uruchomić pierwszy wynik, możemy teraz omówić to tutaj na giełdzie, jestem w kontakcie ))

Jeśli chodzi o budżet - 1000 UAH wydaje się zbyt mało na takie zadanie, proponowałbym ustalić pierwszy etap roboczy od 32000 UAH na 10 dni.

Zobaczcie, tutaj jest niuans - ważne jest testowanie nie tylko jednej odpowiedzi, ale stabilności scenariusza po każdej zmianie prompt_id.

Robilibyśmy to jako zestaw testów regresyjnych dialogów - symulator klienta, różne typy produktów, sytuacje negatywne, oczekiwane granice odpowiedzi, porównanie wersji prompt_id i raport o odchyleniach.

Osobno można dodać AI-recenzenta, który będzie szukał słabych punktów promptu i proponował zmiany dla lepszej stabilności i przewidywalności odpowiedzi.

Od was potrzebne są testowy dostęp do API lub stoiska, 5-10 rzeczywistych dialogów, przykłady produktów i kryteria niepożądanych odpowiedzi.

Uściślę 2 punkty - czy macie już API do uruchamiania dialogu z konkretnym prompt_id, i czy trzeba testować tylko odpowiedzi tekstowe, czy także przyciski, statusy, przekazywanie do operatora.

Podobne przykłady poniżej
- https://business.ingello.com/fractal - bliskie automatyzacji rozwoju i weryfikacji wyników AI
- https://business.ingello.com/vorfahr - SaaS z częścią AI i logiką produktową
- https://systems-fl.ingello.com/ua - nasz profil na FLH

Ogólnie dobrze jest zacząć od małego etapu - najpierw 5-7 scenariuszy, a potem rozszerzyć zestaw testów na nowe produkty i sytuacje.

Alina Voinytska

0 0

Zlecenia -
Ocena -
Ranking 457

Budżet: 5000 UAH Termin: 3 dni

Dzień dobry! Projekt jest bardzo interesujący i bliski naszemu kierunkowi: menedżerowie AI, inżynieria promptów, testowanie scenariuszy dialogowych oraz stabilizacja odpowiedzi AI przed uruchomieniem w produkcji. Możemy pomóc w przemyśleniu logiki automatyzowanego testowania dialogów dla Twoich prompt_id / wiadomości dewelopera. Oto możliwa struktura rozwiązania: — stworzenie zestawu testowych scenariuszy dla różnych produktów i typów klientów — automatyczne uruchamianie dialogów po zmianie promptu — porównanie odpowiedzi przed / po zmianie promptu — ocena odpowiedzi według kryteriów: dokładność, stabilność, zgodność z tonem, obecność potrzebnych danych, brak niepożądanych sformułowań — wykrywanie „zepsutych” scenariuszy po poprawkach — tworzenie raportu z wyników testów — rekomendacje AI dotyczące poprawy promptu dla bardziej stabilnych i przewidywalnych odpowiedzi. Taki system można budować jako framework QA / testowania regresyjnego promptów dla dialogów AI: z biblioteką scenariuszy, oczekiwanymi wynikami, oceną odpowiedzi oraz logami zmian dla każdej wersji promptu. Możemy omówić Twoją aktualną logikę testowania, typy produktów, scenariusze dialogów i zaproponować architekturę MVP dla automatyzowanego testowania menedżerów AI.

Valerii Holovatenko

0 0

Zlecenia -
Ocena -
Ranking 457

Budżet: 1100 UAH Termin: 3 dni

Wygląda na to, że już macie silną infrastrukturę AI SaaS, ale wąskim gardłem teraz jest testowanie regresji promptów po każdej zmianie. To typowy problem dla systemów wsparcia/sprzedaży AI, gdy nawet drobna poprawka w promptach dewelopera może łamać logikę dialogu lub zmieniać ton/kwalifikację przepływu.

Pracowałem z konsultantami AI dla Instagram Direct oraz zautomatyzowanymi lejkami przez Chatfuel + OpenAI + Make.com, gdzie ważne było zapewnienie stabilności odpowiedzi i przewidywalnego zachowania AI w różnych scenariuszach. Jednym z podejść roboczych tutaj jest zbudowanie zestawu przypadków testowych (rozmowy oparte na rolach) + automatyczne uruchamianie dialogów przez OpenAI API z oceną odpowiedzi według zdefiniowanych kryteriów: dopasowanie intencji, spójność CTA, obsługa sprzeciwów, zabronione odpowiedzi itd.

Można również wdrożyć warstwę przeglądu AI, gdzie oddzielny LLM analizuje odpowiedzi i proponuje zmiany w strukturze promptów dla bardziej stabilnego zachowania modelu po aktualizacjach.

To wygląda jak dobry przypadek do zbudowania wewnętrznego frameworku QA AI dla waszego SaaS, i jestem gotów pomóc w przemyśleniu architektury oraz realizacji takiego testowania.

Nikita Rumyantsev

5 1

Budżet: 9500 UAH Termin: 5 dni

Cześć!\nZadanie jest bardzo znane, ręcznie testować prompty, tutaj najlepiej wdrożyć autotesty przez LLM-as-a-Judge.\nJestem gotów zrealizować taki moduł dla twojego SaaS. Napisz w wiadomości prywatnej, omówimy szczegóły.

Maksym T.

1 0

Zlecenia -
Ocena -
Ranking 435

Budżet: 4500 UAH Termin: 10 dni

Cześć!

Realizowałem podobne: zautomatyzowane testowanie promptów przez Make.com — uruchamiany jest zestaw symulowanych dialogów po każdej zmianie prompt_id, wyniki są porównywane z wzorcowymi odpowiedziami.

Mogę zbudować system: testy przypadków według scenariuszy → automatyczne uruchamianie dialogów → analiza AI odchyleń → konkretne rekomendacje co zmienić w promcie.

Jestem gotów omówić architekturę i rozpocząć pracę.

Vitalii Karasov

1 0

Zlecenia -
Ocena -
Ranking 477

Budżet: 18000 UAH Termin: 10 dni

Dzień dobry! Logika pod Twoje zadanie:

Stos: Promptfoo (oparty na YAML, natywne testy A/B, porównanie wyników przed/po poprawce promptu) + DeepEval do metryk jakości (wiarygodność, trafność, kompletność rozmowy, przestrzeganie ról). Zestawy testowe - JSON z user_persona + kontekst + oczekiwane zachowanie + przypadki brzegowe. Przy zmianie prompt_id wszystkie scenariusze są uruchamiane automatycznie, różnice są podświetlane, regresje są widoczne od razu.

Do samopropozycji ulepszeń - oddzielny agent "krytyk" na Claude Sonnet 4.6, który czyta nieudane przypadki testowe i zwraca strukturalne sugestie w JSON ("dodać regułę o X do systemowego promptu — w 7/10 testów model mylił Y z Z"). Powiązanie sugestii z konkretnymi nieudanymi asercjami, nie ogólne rady.

Opcjonalnie: integracja z Twoim workflow prompt_id OpenAI przez API — wersjonowanie promptów i automatyczny rollback przy spadku metryk poniżej progu.

Tydzień temu zająłem 3. miejsce solo na AI Agent Olympics Hackathon Milan AI Week 2026 (731 zespołów, największe wydarzenie AI w Europie) - zbudowałem system adversarial multi-agent z wbudowanym eval-sharem. Inżynier AI na pełen etat 1+ rok. MSc Strategic PM, PRINCE2.

Cena: 18 000-25 000 zł w zależności od liczby przypadków testowych i typów produktów, 10-14 dni z dokumentacją.

Przypadki w profilu.

Artur Boiko

5 0

Budżet: 1000 UAH Termin: 1 dzień

Dzień dobry! 👋

Ciekawe zadanie — automatyzowane testowanie dialogów to coś, gdzie można naprawdę zaoszczędzić dziesiątki godzin tygodniowo.

Realizujemy system, który samodzielnie uruchamia scenariusze przez twój prompt, porównuje odpowiedzi przed/po zmianach i podświetla degradację. Oddzielny agent AI analizuje wyniki i proponuje konkretne poprawki w promptcie dla lepszej stabilności.

Szczegóły omówimy osobiście 🤝

Oleksandr Sliepyi

0 0

Zlecenia -
Ocena -
Ranking 205

Budżet: 1000 UAH Termin: 1 dzień

Cześć! Jesteśmy zespołem deweloperów z 4-letnim doświadczeniem w tworzeniu autonomicznych skryptów, botów i systemów przetwarzania informacji tekstowej. Jakość pracy agenta AI krytycznie zależy od precyzji formułowania promptów oraz przewidywalności jego zachowania w różnych warunkach. Weźmiemy na siebie pełne testowanie twojego systemu, sprawdzimy reakcję AI na nietypowe lub prowokacyjne zapytania użytkowników, a także dostosujemy logikę filtrowania danych wyjściowych. W razie potrzeby zautomatyzujemy proces oceny odpowiedzi za pomocą Pythona. Wynikiem naszej pracy będą w pełni zoptymalizowane, gotowe do produkcji prompty oraz szczegółowy raport o zachowaniu AI. Porozmawiajmy o zadaniu i bieżących rozwiązaniach architektonicznych w wiadomościach prywatnych!

Sergey Goncharuk

2 1

Zlecenia -
Ocena -
Ranking 315

Budżet: 1500 UAH Termin: 3 dni

Cześć, Aleksandrze!

Zadanie jest bardzo znane i aktualne. Ręczne testowanie promptów na różnych gałęziach dialogu dla SaaS to naprawdę wąskie gardło, które pochłania czas.

Proponuję wdrożenie zautomatyzowanego frameworka testowania na zasadzie "LLM-as-a-Judge" (AI-Oceniający) w Pythonie.

Jak to będzie działać technicznie:

Testy: Tworzymy plik JSON/CSV z wzorcowymi sytuacjami (na przykład: "Klient agresywnie pyta o cenę", "Klient prosi o zniżkę").

Automatyzacja (Skrypt): Mój skrypt w Pythonie przez API automatycznie "wrzuca" te repliki do waszego menedżera AI i zbiera jego odpowiedzi.

AI-Sędzia (Ocena i Rekomendacje): Zebrane odpowiedzi wysyłamy w osobnym wywołaniu API (OpenAI) z rygorystycznym systemowym promptem testera. Ten "AI-Sędzia" analizuje odpowiedź menedżera pod kątem zgodności z tonem głosu, braku halucynacji i wydaje log:
Ocena: 8/10. Błąd: bot dał zniżkę bez warunków. Rekomendacja: dodaj w wiadomości dla dewelopera zasadę "Nigdy nie dawaj zniżki jako pierwszy".

Dlaczego ja:
Mam głębokie doświadczenie w pracy z API sieci neuronowych (OpenAI, Groq). Mój obecny projekt komercyjny to skomplikowany bot Telegram, którego architektura oparta jest na wielopoziomowym inżynierii promptów, gdzie AI pełni rolę analityka i krytyka (analizuje teksty, proponuje ulepszenia).

Mogę napisać dla was taki skrypt w Pythonie do testowania, który będziecie mogli uruchamiać lokalnie lub na serwerze po każdej zmianie promptu.

Jestem gotów omówić szczegóły realizacji!

Illia Dunaiev

4 0

Budżet: 1000 UAH Termin: 2 dni

Cześć, Ołeksandrze, zróbmy to po kolei. Ostatnio dużo pracuję z AI i już realizowałem podobne zadania. Proponuję zrealizować to za pomocą pydanticAI. Jest tam osobny, już zrealizowany moduł do oceny promptów. Z możliwością automatycznej oceny i poprawy. Są też inne moduły do podobnych zadań, to deepeval i DSPy. Można to zrealizować przez nie. Logika budowy jest dość prosta: 1. Tworzymy pewien zestaw testowy (lub również zlecamy to AI) 2. Przeprowadzamy testowanie dla każdego zestawu 3. Sprawdzamy ważność wyniku (można dodać LLM-as-a-Judge) 4. Edytujemy prompt. 5. I tak iteracyjnie, aż nie przejdzie cykl kontroli na wymaganym poziomie. Zadanie jest zrozumiałe, doświadczenie jest. Będę zadowolony, mogąc z wami pracować!

Leonid Kharenko

0 0

Zlecenia -
Ocena -
Ranking 218

Budżet: 24999 UAH Termin: 10 dni

Witam. Zadanie jest zrozumiałe: trzeba zautomatyzować testowanie dialogów dla menedżerów AI po zmianach w prompt/developer message, aby szybko sprawdzać jakość odpowiedzi w różnych scenariuszach przed uruchomieniem w produkcji.

Mogę zaproponować system MVP do automatyzowanego testowania promptów:

— zestaw scenariuszy testowych dla różnych produktów i sytuacji;
— automatyczne uruchamianie dialogów przez OpenAI API;
— porównanie odpowiedzi przed/po zmianie promptu;
— ocena odpowiedzi według kryteriów: dokładność, zgodność z tonem, kompletność, stabilność, brak niepożądanych odpowiedzi;
— zapis wyników w tabeli lub bazie;
— krótki raport po każdym teście: co się poprawiło, co się pogorszyło, które odpowiedzi wymagają uwagi;
— możliwość uzyskania rekomendacji, co dokładnie zmienić w promptcie dla lepszej stabilności.

Realizację można zrobić jako osobny skrypt lub prosty wewnętrzny narzędzie. Dla MVP proponuję najpierw przeprowadzić testowanie na 5–10 scenariuszach, a następnie skalować pod różne typy produktów i dialogów.

Jestem gotów omówić waszą aktualną architekturę, format prompt_id/developer message, przykłady dialogów i pożądany format raportu.

Nick Osipov

41 4

Budżet: 1000 UAH Termin: 3 dni

Dzień dobry!

Rozumiem wyzwanie ręcznego testowania promptów AI dla Instagram/Messenger/Telegram. Mam doświadczenie w automatyzacji dialogów z OpenAI API oraz w opracowywaniu scenariuszy. Opracuję logikę i narzędzia do automatycznej weryfikacji odpowiedzi oraz optymalizacji promptów.

Napisz do mnie na priv, doprecyzujemy szczegóły.

Viktor Piven

18 3

Budżet: 1000 UAH Termin: 1 dzień

Witam. Mam doświadczenie w automatyzacji testowania dialogów poprzez symulację (Synthetic Users) oraz ocenę metryk (LLM-as-a-Judge). Aby nie budować systemu od podstaw, w takiej logice warto zintegrować gotowe narzędzia takie jak Promptfoo lub DeepEval.

Proponuję omówić wszystkie wymagania techniczne i scenariusze bardziej szczegółowo. To pozwoli na sformułowanie dokładnej oceny kosztów i terminów dla pełnej integracji rozwiązania w Twoim SaaS. Jestem gotów do dialogu.

Volodymyr S.

9 1

Budżet: 1000 UAH Termin: 3 dni

Cześć! Dokładnie zapoznałem się z twoim projektem i jestem gotów rozpocząć pracę. Gwarantuję wysoką jakość i terminowe wykonanie.

W liście nie są widoczne oferty ukryte przez zleceniodawcę lub freelancerów z profilem Plus, a także oferty, które naruszają regulamin

Aktualne zlecenia dla freelancerów w kategorii AI i uczenie maszynowe

Rozwój oprogramowania (ROS 2 / Nav2) dla autonomicznego robota 4x4: Widz komputerowy, asymetryczna nawigacja

11 ofert 2 sierpnia

Nie podano
Szukam dewelopera bota AI (ChatGPT/OpenAI)

AI consult 76 ofert 1 sierpnia

Nie podano
Integracja agenta AI w Manychat do obsługi przychodzących wiadomości

AI consult 47 ofert 31 lipca

Nie podano
Stworzyć system SEO oparty na n8n

Tworzenie chatbota 58 ofert 30 lipca

Nie podano
Rozwój AI Creative Studio (agenci AI)

Programowanie stron internetowych 58 ofert 30 lipca

747 PLN

Oleksandr Antipov
Kijów, Ukraina

Zleceń -
Ocena -
Ranking 85

Testowanie promptów dla agenta AI

Oleg Grigoryev

Maksym O.

Kristina Y.

Daria Kratofil

Alina Voinytska

Valerii Holovatenko

Nikita Rumyantsev

Maksym T.

Vitalii Karasov

Artur Boiko

Oleksandr Sliepyi

Sergey Goncharuk

Illia Dunaiev

Leonid Kharenko

Nick Osipov

Viktor Piven

Volodymyr S.

Aktualnie brak ofert

Oferty ukryte

Aktualne zlecenia dla freelancerów w kategorii AI i uczenie maszynowe

Rozwój oprogramowania (ROS 2 / Nav2) dla autonomicznego robota 4x4: Widz komputerowy, asymetryczna nawigacja

Szukam dewelopera bota AI (ChatGPT/OpenAI)

Integracja agenta AI w Manychat do obsługi przychodzących wiadomości

Stworzyć system SEO oparty na n8n

Rozwój AI Creative Studio (agenci AI)