Распознавание китайской речи на Python и Baidu API
Скрипт на входе получает аудио- или видео- файл содержащий китайскую разговорную речь.
Далее извлекает звуковую дорожку и распознает через официальный API китайского поискового гиганта Baidu.
Лимиты на длительность и технические требования к аудио обходятся различными манипуляциями с файлом.
В частности, существует предел на распознавание не более 1 минуты за запрос.
Дабы этого избежать, звуковая дорожка нарезается на куски до 60 секунд, с таким условием, чтобы в каждом были законченные предложения до точки.
Далее извлекает звуковую дорожку и распознает через официальный API китайского поискового гиганта Baidu.
Лимиты на длительность и технические требования к аудио обходятся различными манипуляциями с файлом.
В частности, существует предел на распознавание не более 1 минуты за запрос.
Дабы этого избежать, звуковая дорожка нарезается на куски до 60 секунд, с таким условием, чтобы в каждом были законченные предложения до точки.