Głosowy asystent AI na stronie: prosty prototyp

AI i uczenie maszynowe

Praca 2 z 4

Pomysł stworzenia głosowego #AI-asystenta, który rozumie język i odpowiada treściwie, powstał dość prosto. Wiele usług oferuje chatboty, ale często są ograniczone do tekstu lub formalnej komunikacji. Chciałbym zrobić tak, aby użytkownik mógł po prostu zacząć mówić do swojego komputera czy telefonu i otrzymać realne, przydatne odpowiedzi — bez zbędnych kliknięć i długiego oczekiwania.
Jak to działa:
Do rozpoznawania głosu użyłem standardowego Web Speech API, które obsługują nowoczesne przeglądarki. To pozwala po prostu nacisnąć przycisk i mówić, a przeglądarka rozpoznaje tekst i wysyła go dalej do przetwarzania.
Odpowiedzi są generowane za pomocą dużych modeli językowych (LLM), które działają przez API — to umożliwia uzyskanie wysokiej jakości i relewantnych odpowiedzi bez skomplikowanej lokalnej infrastruktury.

Dźwięk odpowiedzi jest odtwarzany za pomocą biblioteki ResponsiveVoice, która obecnie zapewnia najbardziej naturalne głosy dla interfejsu webowego. Chociaż na początku była próba — dodać wsparcie dla lokalnych głosów, na przykład RHVoice, ale brzmiały one mniej naturalnie.