Opracowałem system analizy wizualnej za pomocą Qwen2-VL, multimodalnego modelu sztucznej inteligencji od Alibaba przez Hugging Face. System przyjmuje obraz i pytanie tekstowe („Co jest nie tak z taktyką?”) i dostarcza głęboką analizę, łącząc widzenie komputerowe i przetwarzanie języka naturalnego.