Библиотека для извлечения слов (речь) из аудиопотока?

У меня есть аудиопоток, и я бы извлек из него слова (речь). Так, например, имея audio.wav, я получу 001.wav, 002.wav, 003.wav и т. д., где каждый XXX.wav — это одно слово.

Я ищу библиотеку или программу для этого - платформа не имеет значения, но я предпочитаю решение с открытым исходным кодом.

Заранее спасибо за помощь.


person greenoldman    schedule 05.07.2010    source источник


Ответы (1)


arrow_upward
2
arrow_downward

Nuance, компания, которая производит Dragon Naturally Speaking имеет ряд Комплекты для разработки программного обеспечения.

Набор Audio Mining соответствует вашим требованиям:

Dragon NaturallySpeaking SDK AudioMining — это набор инструментов для распознавания речи, не зависящий от говорящего, который позволяет индексировать 100% речевой информации в аудиофайлах. Технология использует высокоточное распознавание речи для преобразования аудиофайлов в текст XML с информацией о временных метках. Его можно интегрировать со стандартными продуктами текстового поиска, чтобы обеспечить быстрый доступ к определенному аудиоконтенту.

Преобразование речи в речь + метаданные — это, безусловно, самая трудная часть для правильной работы. Когда у вас есть речь + метаданные, извлечение слов в виде отдельных аудиофайлов намного проще.

person mattbh    schedule 06.07.2010
comment
NB Упомянутый комплект Audio Mining поставляется со следующей оговоркой: ** Технология Dragon AudioMining разработана специально для американского английского языка и не предназначена для расшифровки встреч или интервью. ** - person Lee Goddard; 20.09.2013
comment
Очень сложно найти информацию о Nuance AudioMining в Интернете. И это кажется противоречивым, поскольку транскрипция встреч и интервью прямо упоминалась при запуске продукта еще в 1999 году: youtube.com/watch?v=yagvFY_rUwM - person Christoph; 22.10.2015