Клонирование голоса
Клонирование звука (англ. voice changing, voice cloning) — это технология, реализующая изменение голоса человека, производимая с помощью программно-аппаратных средств, в режиме как реального времени, так и в отложенном пакетном режиме. Технология позволяет моделировать персональные характеристики речи человека с достаточно полным совпадением с оригиналом, называемым «мишенью копирования». Общая оценка технологииВ настоящее время сравнительно хорошо развиты системы распознавания речи. Они используются в голосовом управлении различными бытовыми приборами (в телефонах, автомобильных аудиосистемах, и заканчивая стиральными машинами). Обратный процесс — извлечение слов из аудио сигнала и синтез речи встречает ряд трудностей. Программные продуктыПрограммы считаются принадлежащими категории «Voice Changing Software», или «Voice changer»:
Также SDK пакеты:
Услуга через сайт и телефонРанее, некоторые компании на коммерческой основе услугу изменения голоса абонента по телефону в режиме реального времени. Производилось это следующим образом[источник не указан 681 день]:
Описание технологии Технология клонирования речи в условиях телефонного разговора в режиме реального времени базируется на известных алгоритмах математической обработки сигнала-носителя голоса[1] [2, 4]. При этом используются методы DFT анализа частот в дискретном сигнале (методом специального преобразования Фурье), полученном оцифровкой аналогового телефонного сигнала с применением узкополосного речевого кодека G.729[2] [5, 6, 7, 8]. Синтез измененной речи на основе сигнал-носителя, то есть получившийся «клонированный голос» реализует возможность максимального сохранения персональных акустических характеристик копируемого исходного голоса: фонетических особенностей произношения, акцента и даже артефактов такого рода, как заикание[3] [9]. Таким образом идентифицировать искусственность говорящего невозможно даже при специальной обработке и математическом анализе исходного телефонного сигнала. Незаконное использование технологии клонирования речи строго исключается в соответствии со специальной программой защиты онлайн сервиса, предоставляющего данную услугу. Предшествующий уровень Существующие сейчас системы создания машинной речи хорошо зарекомендовали себя в определенных технических нишах: в навигационных системах автомобилей, наручных часах, электронных «читающих» словарях-переводчиках и так далее. В подобных системах не ставится задача подражания голосу конкретного человека, поэтому получаемая машинная речь также не является персонифицированной, и легко узнается по причине своего ярко выраженного искусственного происхождения. Ранее попытки синтезировать речь конкретного человека базировались на принципе создания «ядра» речевого клона, который содержит полный набор акустических, фонетических и просодических признаков — индивидуальных особенностей речи. Для этого требовалось наличие довольно подробной персонифицированной базы данных «копируемого» голоса. Человеку, голос которого требовалось скопировать, необходимо было прочитать длинный подготовленный текст, специально разработанный и содержащий в себе большое количество фонем, для максимального выявления особенностей речи говорящего. Это представляло определенные трудности, так как известно, что обычный человек утомляется даже после 15-ти минут непрерывного чтения, а после 20 минут чтения его голос может и вовсе сорваться. Даже для профессионального диктора 45 минут непрерывного чтения с сохранением всего комплекса индивидуальных характеристик речи — довольно трудная задача. Требования к качеству записи голоса также предъявлялись весьма высокие — требовалось исключение различного рода шумов, способных помешать моделированию. Полученная таким образом персонифицированная запись исходного голоса подвергалась частотному анализу и математической обработке, причем вычислительный процесс часто занимал не одни сутки. После этого индивидуальная база данных голоса конкретного человека могла использоваться синтезатором речи. Естественно, длительность процесса кодирования и главное — необходимость записи эталонной речи в условиях студии существенно сужало спектр применения системы копирования речи в обычных условиях. Примечания
Литература
|