Форум ReidS Soft

Информация о пользователе

Привет, Гость! Войдите или зарегистрируйтесь.


Вы здесь » Форум ReidS Soft » Flite+hts_engine » A BEGINNERS’ GUIDE TO STATISTICAL PARAMETRIC SPEECH SYNTHESIS перевод


A BEGINNERS’ GUIDE TO STATISTICAL PARAMETRIC SPEECH SYNTHESIS перевод

Сообщений 1 страница 2 из 2

1

A BEGINNERS’ GUIDE TO STATISTICAL PARAMETRIC SPEECH SYNTHESIS 1
Руководство для начинающих по статистическому параметрическому синтезу
Саймон Кинг
Исследовательский Центр речевых технологий 
Эдинбургский университет
Великобритания

Аннотация
За последние несколько лет статистический параметрический синтез речи на основе HММ моделей стал конкурировать с конкатенационными методами. Эта статья предлагает нематематический обзор этого метода синтеза речи и является дополнением к широкому спектру уже имеющихся превосходных технических публикаций. В этом руководстве, вместо общего обзора литературы,  даётся несколько тщательно отобранных ссылок, которые послужат хорошими отправными точками для дальнейшего чтения.
Теги
синтез речи, синтез речи на основе HММ, статистический параметрический синтез речи, кодирование речевых сигналов, преобразование текста в речь
1 ВВЕДЕНИЕ
   В этом руководстве дан обзор  статистических параметрических методов синтеза речи из текста. Эти методы часто называются просто  "синтез HMM",  поскольку они обычно используют Скрытую Модель Маркова или тесно связанные с ней модели. В этой статье сделана попытка кратко объяснить основные понятия этого метода  без углубления в технические подробности. Предполагается некоторое базовое знакомство с HMM на уровне, рассматриваемом в Главе 9 у Журавского и Мартина (Jurafsky и Martin, 2009).
2 СИНТЕЗ ТЕКСТ-В-РЕЧЬ
Автоматическое преобразование печатного текста в разговорную речь обычно называется  "Текст в речь" или просто "TTS". На вход подается текст, на выходе выдается речевой сигнал.  Система ТТС почти всегда делится на две основные части. Первая часть преобразует текст в то, что мы называем "языковая спецификация", а вторая  использует эту спецификацию для генерации звукового сигнала. Это разделение TTS системы на  две части имеет большое значение как в плане теории, так и в плане практической реализации: передний край, как правило, зависит от конкретного языка, в то время как компонент генерации сигнала может быть в значительной степени независим от языка (кроме содержащихся в нем данных, на которых производилось обучение). Преобразование текста в языковую спецификацию обычно достигается использованием последовательности отдельных процессов и ряда промежуточных внутренних представлений. Все это вместе известно как  "Фронт-енд". Фронт-енд отличается от компонента  генерации звука, отвечающего за выдачу речи на основе этой языковой спецификации. В данном руководстве основное внимание уделяется  речевому синтезу, использующему статистические параметрические методы. Для получения дополнительной информации по теме речевого синтеза, рекомендую Тейлора (Taylor , 2009)  для  последующего чтения. Наилучшим отправным пунктом  для ознакомления  со статистическим параметрическим синтезом считается Зен et al. (2009), последовавший за Зеном et al. (2007). Исчерпывающая библиография может быть найдена в интернете по адресу  http://hts.sp.nitech.ac.jp/ Публикации и список доступных ресурсов для экспериментов со статистическим параметрическим синтезом  речи можно найти у Зена и Токуда (Tokuda , 2009); многие из них находятся в свободном доступе. В этом руководстве я  решил предоставить только очень краткую библиографию  для того, чтобы упростить  для читателя процесс последующего  выбора  подходящей литературы.
June 24, 2010 DRAFT
A BEGINNERS’ GUIDETOSTATISTICAL PARAMETRIC SPEECH SYNTHESIS 2
3 От кодирования речевых сигналов к синтезу
Описания речевых синтезаторов часто имеют процедурный вид: они описывают последовательность процессов, необходимых для преобразования текста в речь, часто размещенных в простой архитектуре, типа  "конвейер". Но существует иной взгляд на  речевой синтез, когда исходят из идеи кодирования речевого сигнала, те  преобразования в некоторые, часто, более компактные, представления для дальнейшей передачи.
Вокодер изображен на Рисунке 1. Мы можем думать о речевом синтезе в аналогичном контексте, но вместо передачи параметризированной речи, она сохраняется -  Рисунок 2. Мы можем позже извлечь параметризацию и приступать к генерации соответствующего речевого сигнала.
Такая система имеет две четких фазы, которые мы можем назвать как «подготовка»  и  «синтез». В  фазе подготовки, сохраненная форма получается из речевого объема (подготовка данных). Индексируя эту сохраненную форму с языковой спецификацией, вы получаете возможность выполнить синтез  только с этой языковой спецификацией, подавая ее на вход и  получая речевой сигнал на выходе.
Сохраненная форма может быть представлена  либо как сами речевые данные, либо как статистическая модель, производная от них.
На первый взгляд эти методы речевого синтеза покажутся совершенно различными, но рассматривая их вместе, в общем контексте (фреймвоке) кодирования речевых сигналов, мы получим некоторое представление об относительных связях между ними.

June 24, 2010
A BEGINNERS’ GUIDE TO STATISTICAL PARAMETRIC SPEECH SYNTHESIS          3

Речь на входе
входной каскад

параметризация
                                        ↓↓↓
    передача

↓↓↓
регенерация
выходной каскад

Речь на выходе
Рис. 1. Вокодер. Многочисленные стрелки показывают, что параметризованное представление речи, как правило, имеет несколько различных групп параметров - например, коэффициенты фильтра захвата спектральной огибающей и исходные параметры, такие как несущая частота F0.

обучение
языковая спецификация

речь на входе

параметризация
↓↓↓
индексироватьсохраненная форма


извлечь
синтез
языковая спецификация

сохраненная форма
↓↓↓
регенерация

речь на выходе

Рис. 2 Синтез речи рассматривается в качестве вокодера. Входной каскад вокодера стал "обучением" и выполняется только один раз для всего речевого корпуса (подготовка данных). Выходной каскад вокодера стала "синтезом", который выполняется один раз для каждого синтезируемого предложения романа.

June 24, 2010

DRAFT

A BEGINNERS’ GUIDE TO STATISTICAL PARAMETRIC SPEECH SYNTHESIS

4

Предшествующие и следующие фонемы
Позиция сегмента в слоге
Положение слога в слове и фразе
Положение слова в фразе
Стресс / акцент / длина особенности текущих / предыдущих / следующих слогов
Расстояние от напряженного / ударного слога
Позиция текущего / предыдущего / следующего слова
Длина текущей / предыдущей / следующей фразы
Конечный тон фразы
Длина высказывания измеряется в слогах / словах / фразах

Таблица 1
Пример списка контекстных факторов, которые могут входить в языковую спецификацию.
3.1   Языковая спецификация
На этапе синтеза, описанном выше, на вход подается языковая спецификация. В простейшем случае она представлена  последовательностью фонем, но для улучшения результата необходимо добавить супрасегментную информацию, такую как просодия структуры синтезируемой речи. Другими словами, языковая спецификация включает все факторы, которые могут повлиять на акустическую реализацию речевых сигналов, составляющих высказывание.
При изучении языковой спецификации  предлагаю сконцентрировать внимание на конкретном звуке речи: в качестве примера рассмотрим гласный в слове "речь". Языковая спецификация должна включать всю информацию, которая может повлиять на звучание этой гласной. Другими словами, это краткое изложение всей информации в контексте, в котором появляется этот гласный звук. В этом примере, важное значение имеют контекстные факторы, включая предшествующий звук: губный, глухой, взрывной (потому что этот фактор будет влиять на форманту траектории в гласной) и тот факт, что гласный стоит в однослоговом слове (поэтому, помимо всего прочего, это будет влиять на длительность гласного). Многие другие факторы, в разной степени,  также оказывают  некоторое влияние на этот гласный.
Конечно, контекст будет включать факторы, в рамках того же слова и того же высказывания, например, окружающие фонемы, слова и просодический шаблон, но также может распространяться на окружающие высказывания, и далее на паралингвистические факторы, такие как настроение говорящего или индивидуальные особенности слушателя. Возможно, что в контексте с диалогом потребуется включить факторы, относящиеся к другому  диктору. Тем не менее, по практическим соображениям, большинством современных систем рассматриваются только факторы в рамках высказывания. В Таблице 1 перечислены контекстные факторы, которые могут рассматриваться в типичной системе.
Данный перечень факторов, которые могут влиять на каждый звук речи, довольно длинный. Когда мы начнем учитывать число различных значений, которое каждый из них может принимать (например, предшествующая фонема может принимать до 50 различных значений), и найдем число перестановок, быстро станет ясно, что количество различных контекстов огромно, даже если мы будем рассматривать только лингвистически-возможные комбинации.
Но не все факторы оказывают влияние все время. На самом деле, мы можем предположить, что в каждый конкретный момент есть только несколько факторов, которые оказывают существенное влияние.
Это значительно уменьшает количество эффективно разных контекстов до приемлемого числа. Ключевой задачей, которую мы повторно рассмотрим в разделе 5, является определение, какие факторы имеют значение и когда.
Для каждого синтезируемого предложения текста, задача переднего края предсказать лингвистическую спецификацию от текста. Неизбежно, многие задачи, выполняемые на переднем крае (например, прогноз произношения от написания) довольно специфичны для одного языка или одной семьи языков (например, алфавитные системы письма). Обсуждение фронт-энда  выходит за рамки текущего руководства, но освещение этой темы можно найти у Тейлора (2009).

June 24, 2010 DRAFT

A BEGINNERS’ GUIDETOSTATISTICAL PARAMETRIC SPEECH SYNTHESIS                                                                                                    5
3.2 Системы на основе образцов
Система синтеза речи на основе образцов просто хранит сам речевой корпус: или весь корпус или только выбранные части (например, один экземпляр каждого типа звука речи из набора ограниченного размера). Индексация этой хранимой формы в соответствии со спецификацией языка означает маркировку сохраненных речевых данных таким образом, что соответствующие ее части могут быть найдены, извлечены и затем соединены в фазе синтеза речи. Индекс используется как индекс книги - "искать" все частные вхождения языковой спецификации. В типичной системе отбора, блок маркировки одновременно содержит как выровненную фонетическую, так  и просодическую информацию. Процесс поиска не совсем тривиален, так как в корпусе может отсутствовать точная спецификация, необходимая во время синтеза речи, поэтому  выбор должен быть выполнен, чтобы выбрать среди множества слегка несогласованных единиц  наилучшую из  имеющихся в последовательности единиц, для объединения. Речь может храниться в виде сигналов или в другом представлении, более подходящем для конкатенации (и небольших количеств модификации сигнала), таких как остаточно-возбужденный LPC.

3.3 Системы на основе модели
Системы на основе модели не хранят речь. Вместо этого, они создают модель речевого корпуса на этапе обучения и хранят эту модель. Эта модель, как правило, строится  с учетом
отдельных единиц речи, таких как контекстно-зависимые фонемы: модель, таким образом, индексируется спецификацией языка. Во время синтеза, соответствующая последовательность контекстно-зависимых моделей извлекается и используется для генерации речи. Опять же, это не тривиальный процесс, потому что некоторые модели будут отсутствовать, в связи с конечным количеством доступных обучающих данных. Поэтому необходимо иметь возможность 'на лету' создать  модель для любой требуемой языковой спецификации. Это достигается путем обмена параметрами с достаточно похожими моделями - процесс, аналогичный отбору немного несовпадающих блоков в системе на основе образцов.
3.4 Индексация хранимой формы
Для того, чтобы проиндексировать загруженную форму лингвистической спецификацией, независимо от того, речь это или модель, необходимо создать лингвистическую спецификацию для каждого высказывания в речевом объеме (это фаза подготовка данных). Ручная маркировка является одним из способов достижения этого, но  это часто непрактично или слишком дорого. Более общий метод должен использовать тот же передний край, который будет использоваться при синтезе нового предложения для предсказания основанной на тексте языковой спецификации в  соответствующий речевой корпус. Вряд ли это будет сильно отличаться от того, что действительно сказал докладчик.

***
В данном тороториале сделана попытка  получить литературный перевод с наилучшим результатом.

0

2

-->>Далее привожу перевод статьи, сделанный переводчиком гугла и  Сократом. Это дословный перевод с минимальными ручными правками.

Таблица 2 Сравнение конфигураций Скрытой (полу)модели Маркова для распознавания и синтеза речи.
Тем не менее, есть несколько простых методов, основанных на принудительных методах выравнивания и позаимствованных из автоматического распознавания речи. Они могут быть применены для улучшения точности этой маркировки, включая автоматическое точное опознавание позиции паузы  и некоторых вариаций произношения.
4 СТАТИСИЧЕСКИЕ ПАРАМЕТРИЧЕСКИЕ МОДЕЛИ СИНТЕЗА РЕЧИ

Когда мы говорим о методе синтеза речи на основе модели, особенно в том случае,  когда желаем обучить эту модель на данных, то обычно мы имеем в виду статистическую параметрическую модель. Модель параметрическая быть-причиной, которую она описывает речь, использовавшую параметры, а не загрузившие exemplars. Это статистическое поскольку это описывает те параметры, использовавшие статистику (напр, средства и иэменения стохастических функций плотности), которая захватывает распределение величин параметра обнаруженного в готовящих данных. Остаток этой статьи сфокусирован на этом методе синтеза речи.

Исторически, отправным пунктом для статистического параметрического  синтеза речи стал  успех Скрытой Модели Markov (HMM) для автоматического распознавания речи. Никто не утверждает, что HMM - истинная модель речи. Но доступность эффективных алгоритмов (Expectation-Maximisation), автоматических методов управления сложностью модели (tying параметра) и в вычислительном отношении эффективных алгоритмов поиска (поиск Viterbi) делает HMM мощной моделью. Производительность модели, которая в речевом распознавании измеряется путем использования  показателей ошибки распознавания слов, а в  синтезе  речи тестами прослушивания,  критически влияет  на выбор подходящей конфигурации. Два наиболее важных аспекта этой конфигурации - параметризация речевого сигнала ( "наблюдение" модели, в терминологии HMM) и выбор модели устройства. С тех пор как устройство моделирования - это обычная контекстно-зависимая фонема, этот выбор делают,  выбирая какие контекстные показатели должно быть приняты во внимание. Таблица 2 суммирует некоторые различия в конфигурации моделей для автоматического распознавания и  синтеза речи.

June 24, 2010

DRAFT

A BEGINNERS’ GUIDETOSTATISTICAL PARAMETRIC SPEECH SYNTHESIS 7
4.1 Представление сигнала

Речевой сигнал представляется в виде набора параметров вокодера с некоторой фиксированной частотой кадров. Типичный представление может использовать от 40 до 60 параметров на кадр представлять спектральную огибающую, значение для F0 (основной частоты), и 5 параметров для описания спектральной огибающей апериодической возбуждения. Перед подготовкой моделей, этап кодирования вокодера используется для извлечения вектора, содержащего эти параметры вокодера, из речевого сигнала, с частотой кадров типично 5 мс. На этапе синтеза, весь вектор порождается моделей, а затем используется для управления выходной каскад вокодера.
В принципе, любой вокодер может быть использован для ХМ основе речевого синтеза, при условии, что он использует достаточно параметров, чтобы реконструировать речевой сигнал с высоким качеством, и что эти параметры могут быть автоматически извлечены из речи в фазе подготовки. Это может быть даже нечто вроде синтезатора формантной. Однако, так как параметры будут статистически образцу, некоторые Вокодеры предложит лучшую производительность, чем другие. Фундаментальные операции, которые происходят в статистическом моделировании являются усреднение параметров вокодера на этапе обучения, и генерация новых ценностей (мы можем уподобить этот интерполяции и экстраполяции значений, найденных в обучающих данных) на этапе синтеза. Так, параметры вокодера должен быть хорошо вел себя в таких операциях, а не привести к неустойчивых значений. Например, спектральных линий пары, вероятно, будет лучше представление, чем линейного предсказания со-коэффициентами, поскольку последние являются хорошо себя под интерполяции в то время как последний может привести к нестабильной фильтра.
Популярный вокодер широко используется в синтезе СММ называют ПРЯМОЙ (Трансформация Речь и Представительство помощью Adaptive Интерполяция весовых спектра).Полное описание этого канала вокодер выходит за рамки данной статьи и может быть вместо этого найти в Kawahara соавт. (1999). В нашем случае, это Достаточно сказать, что ПРЯМОЙ обладает нужными свойствами, описанными выше, и работает очень хорошо на практике.

0


Вы здесь » Форум ReidS Soft » Flite+hts_engine » A BEGINNERS’ GUIDE TO STATISTICAL PARAMETRIC SPEECH SYNTHESIS перевод