Мы используем файлы cookie.
Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.

Синтез речи

Подписчиков: 0, рейтинг: 0

Си́нтез ре́чи — в широком смысле — восстановление формы речевого сигнала по его параметрам; в узком смысле — формирование речевого сигнала по печатному^{[уточнить]}тексту. Часть искусственного интеллекта.

Синтезом речи прежде всего называется всё, что связано с искусственным производством человеческой речи.

Синтезатор речи — структура, способная переводить текст/образы в речь, в программном обеспечении и/или аппаратных средствах.

Голосовой движок — непосредственно система/ядро преобразования текста/команд в речь, это также может существовать независимо от компьютера.

Применение синтеза речи

Синтез речи может потребоваться во всех случаях, когда получателем информации является человек. О качестве синтезатора речи прежде всего судят по его сходству с человеческим голосом, а также способности быть понятным. Самую простую синтезированную речь можно создавать путём объединения частей записанной речи, которые затем будут храниться в базе данных. И как ни странно, с таким способом синтезирования мы сталкиваемся уже повсеместно, даже не обращая порой на это внимания.

Синтез речи по тексту или коду сообщения может быть использован в информационно-справочных системах, для помощи слепым и немым, для управления человеком со стороны автомата.
Для помощи слепым и немым в быту, различные приборы с голосовыми подсказками или голосовым объявлением времени, результатов измерений, например: тонометры, глюкометры, калькуляторы, часы и т.д.
При объявлениях об отправлении транспорта: самолётов, поездов, автобусов, кораблей и тому подобное, автоматическое об? объявления остановок.
Для выдачи информации о технологических процессах: в военной и авиакосмической технике, в робототехнике, в акустическом диалоге человека с компьютером.
Как звуковой эффект нередко используется в создании электронной музыки.
Синтез речи применяется в компьютерах, смартфонах, планшетах, в электронных книгах и т.д. для чтения текста, для озвучивания текста для видео и аудиокниг. Для озвучивания веса в весах, озвучивания результатов измерений: температуры, веса, длины и т.д.
Аудиогид.
Спутниковый навигатор
Автомобильная навигационная система
Роботы для общения с людьми используют синтез речи.
Игрушки.
Сигнализация с имитацией присутствия человека или людей.
Автоматы для продажи билетов и другие с распознованием речи.

Способы синтеза речи

Все способы синтеза речи можно подразделить на группы:

параметрический синтез;
конкатенативный, или компиляционный (компилятивный) синтез;
синтез по правилам;
предметно-ориентированный синтез.

Параметрический синтез

Параметрический синтез речи является конечной операцией в вокодерных системах, где речевой сигнал представляется набором небольшого числа непрерывно изменяющихся параметров. Параметрический синтез целесообразно применять в тех случаях, когда набор сообщений ограничен и изменяется не слишком часто. Достоинством такого способа является возможность записать речь для любого языка и любого диктора. Качество параметрического синтеза может быть очень высоким (в зависимости от степени сжатия информации в параметрическом представлении). Однако параметрический синтез не может применяться для произвольных, заранее не заданных сообщений.

Компиляционный синтез

Компиляционный синтез сводится к составлению сообщения из предварительно записанного словаря исходных элементов синтеза. Размер элементов синтеза не меньше слова. Очевидно, что содержание синтезируемых сообщений фиксируется объёмом словаря. Как правило, число единиц словаря не превышает нескольких сотен слов. Основная проблема в компилятивном синтезе — объёмы памяти для хранения словаря. В связи с этим используются разнообразные методы сжатия/кодирования речевого сигнала. Компилятивный синтез имеет широкое практическое применение. В западных странах разнообразные устройства (от военных самолётов до бытовых устройств) оснащаются системами речевого ответа. В России системы речевого ответа до недавнего времени использовались в основном в области военной техники, сейчас они находят всё большее применение в повседневной жизни, например, в справочных службах операторов сотовой связи при получении информации о состоянии счета абонента.

Полный синтез речи по правилам

Полный синтез речи по правилам (или синтез по печатному тексту) обеспечивает управление всеми параметрами речевого сигнала и, таким образом, может генерировать речь по заранее неизвестному тексту. В этом случае параметры, полученные при анализе речевого сигнала, сохраняются в памяти так же, как и правила соединения звуков в слова и фразы. Синтез реализуется путём моделирования речевого тракта, применения аналоговой или цифровой техники. Причём в процессе синтезирования значения параметров и правила соединения фонем вводят последовательно через определённый временной интервал, например 5—10 мс. Метод синтеза речи по печатному тексту (синтез по правилам) базируется на запрограммированном знании акустических и лингвистических ограничений и не использует непосредственно элементы человеческой речи. В системах, основанных на этом способе синтеза, выделяется два подхода. Первый подход направлен на построение модели речепроизводящей системы человека, он известен под названием артикуляторного синтеза. Второй подход — формантный синтез по правилам. Разборчивость и натуральность таких синтезаторов может быть доведена до величин, сравнимых с характеристиками естественной речи.

Синтез речи по правилам с использованием предварительно запомненных отрезков естественного языка — это разновидность синтеза речи по правилам, которая получила распространение в связи с появлением возможностей манипулирования речевым сигналом в оцифрованной форме. В зависимости от размера исходных элементов синтеза выделяются следующие виды синтеза:

микросегментный (микроволновый);
аллофонический;
дифонный;
полуслоговой;
слоговой;
синтез из единиц произвольного размера.

Обычно в качестве таких элементов используются полуслоги — сегменты, содержащие половину согласного и половину примыкающего к нему гласного. При этом можно синтезировать речь по заранее не заданному тексту, но трудно управлять интонационными характеристиками. Качество такого синтеза не соответствует качеству естественной речи, поскольку на границах сшивки дифонов часто возникают искажения. Компиляция речи из заранее записанных словоформ также не решает проблемы высококачественного синтеза произвольных сообщений, поскольку акустические и просодические (длительность и интонация) характеристики слов изменяются в зависимости от типа фразы и места слова во фразе. Это положение не меняется даже при использовании больших объёмов памяти для хранения словоформ.

Предметно-ориентированный синтез

Предметно-ориентированный синтез компилирует слова, записанные заранее, а также фразы для создания полных речевых сообщений. Он используется в приложениях, где многообразие текстов системы будет ограничено определённой темой/областью, например объявления об отправлении поездов и прогнозы погоды. Эта технология проста в использовании и достаточно долго применялась в коммерческих целях: её также применяли при изготовлении электронных приборов, таких как говорящие часы и калькуляторы. Естественность звучания этих систем потенциально может быть высокой благодаря тому, что многообразие видов предложений ограничено и близко с соответствием интонацией исходных записей. А так как эти системы ограничены выбором слов и фраз в базе данных, они в дальнейшем не могут иметь широкое распространение в сферах деятельности человека, лишь потому, что способны синтезировать комбинации слов и фраз, на которые они были запрограммированы.

История

В конце XVIII века датский учёный Христиан Кратценштейн, действительный член Российской академии наук, создал модель речевого тракта человека, способную произносить пять долгих гласных звуков (а, э, и, о, у). Модель представляла собой систему акустических резонаторов различной формы, издававших гласные звуки при помощи вибрирующих язычков, возбуждаемых воздушным потоком. В 1778 австрийский учёный Вольфганг фон Кампелен дополнил модель Кратценштейна моделями языка и губ и представил акустическо-механическую говорящую машину, способную воспроизводить определённые звуки и их комбинации. Шипящие и свистящие выдувались с помощью специального меха с ручным управлением. В 1837 учёный Чарльз Уитстоун (Charles Wheatstone) представил улучшенный вариант машины, способный воспроизводить гласные и большинство согласных звуков. А в 1846 году Джезеф Фабер (Joseph Faber) продемонстрировал свой говорящий орга́н Euphonia, в котором была реализована попытка синтезирования не только речи, но и пения.

В конце XIX века знаменитый учёный Александр Белл создал собственную «говорящую» механическую модель, очень схожую по конструкции с машиной Уитстоуна. С наступлением XX века началась эра электрических машин, и учёные получили возможность использовать генераторы звуковых волн и на их базе строить алгоритмические модели.

В 1930-х годах работник Bell Labs Хомер Дадли (Homer Dudley), работая над проблемой поиска путей для снижения пропускной способности, необходимой в телефонии, чтобы увеличить её передающую способность, разрабатывает VOCODER (сокращенно от англ. voice — голос, англ. coder — кодировщик) — управляемый с помощью клавиатуры электронный анализатор и синтезатор речи. Идея Дадли заключалась в том, чтобы проанализировать голосовой сигнал, разобрать его на части и пересинтезировать в менее требовательный к пропускной способности линии. Усовершенствованный вариант вокодера Дадли, VODER, был представлен на Нью-Йоркской Всемирной выставке 1939 года.

Первые синтезаторы речи звучали довольно неестественно и часто едва можно было разобрать воспроизводившиеся ими фразы. Однако качество синтезированной речи постоянно улучшалось, и речь, генерируемую современными системами синтеза речи, порой не отличить от реальной человеческой речи. Но, несмотря на успехи электронных синтезаторов речи, исследования в области создания механических синтезаторов речи по-прежнему ведутся, например, для использования в роботах-гуманоидах.

Первые системы синтеза речи на базе вычислительной техники стали появляться в конце 1950-х годов, а первый синтезатор «текст в речь» был создан в 1968 году.

В 2005 году Курцвейл предсказал, что, поскольку соотношение цены и качества приведет к тому, что синтезаторы речи станут дешевле и доступнее, больше людей выиграют от использования программ преобразования текста в речь.

Настоящее и будущее

Пока что рано говорить о каком-то перспективном будущем на ближайшие десятилетия для синтеза речи по правилам, так как звучание все ещё напоминает больше всего речь роботов, а местами это ещё и труднопонимаемая речь. Что мы точно можем безошибочно определять, так это то, говорит ли синтезатор речи мужским или женским голосом, а тонкости, присущие человеческому голосу, мы порой все ещё не различаем. Поэтому технология разработки частично отвернулась от фактического построения синтеза речевых сигналов, но всё так же продолжает использовать простейшую сегментацию записи голоса.

Гибридный синтез речи может использоваться для взлома систем распознавания речи.

Литература

Б. М. Лобанов, Л. И. Цирульник «Компьютерный синтез и клонирование речи». — Минск, «Белорусская Наука», 2008. — 316 стр.
Джеймс Л. Фланаган. Анализ, синтез и восприятие речи. — М., Связь, 1968. — 394 с.
В. Н. Сорокин. Синтез речи. — Наука, 1992.
Dutoit, Thierry. An Introduction to Text-to-Speech Synthesis. — Kluwer Academic Publishers, 1997. — 312 p. — ISBN 0-7923-4498-7.
Рыбин С. В. СИНТЕЗ РЕЧИ Учебное пособие по дисциплине «Синтез речи». — СПб: Университет ИТМО, 2014. — 92 с. / аннотация pdf

Ссылки

Синтез речи в каталоге ссылок Curlie (dmoz)
Thierry Dutoit. A Short Introduction to Text-to-Speech Synthesis (англ.). TTS research team, TCTS Lab. (17 декабря 1999). Дата обращения: 4 января 2014. Архивировано из оригинала 24 мая 2013 года.
Как устроен синтез речи от Яндекса | Хабрахабр

Синтез речи
Проприетарное ПО	BrowseAloud CereProc DECtalk IVONA Microsoft Agent Microsoft Speech API Microsoft text-to-speech voices Readspeaker Talk It! Voice browser Vocaloid Cantor Voiceroid Utau Software Automatic Mouth CoolSpeech LaLaVoice Symphonic Choirs Realivox CeVIO Creative Studio Chipspeech Alter/Ego PPG Phonem
Свободное ПО	eSpeak Gnuspeech Festival Speech Synthesis System FreeTTS Gnopernicus Orca Sinsy Automatik Text Reader
Машина	Echo 2 Pattern playback Phasor RIAS Texas Instruments LPC Speech Chips TuVox
Приложения	AOLbyPhone DialogOS Dr. Sbaitso MBROLA Microsoft Narrator Microsoft Speech Server PlainTalk Voice font
Протоколы	Speech Synthesis Markup Language
Разработчики/ Исследователи	Catherine Browman Franklin Seaney Cooper Гуннар Фант Haskins Laboratories Вольфганг фон Кемпелен Ignatius Mattingly Philip Rubin VoiceWeb VoiceXML Yamaha
Процесс	Articulatory synthesis Concatenative synthesis Currah Inverse filter PSOLA Phase vocoder SABLE Self-voicing

Обработка естественного языка
Общие определения	Языковая модель Корпус текстов Речевой корпус Стоп-слова Мешок слов AI-полнота N-грамма Биграммный шифр Триграмма
Анализ текста	Сегментация текста Частеречная разметка Поверхностно-синтаксический анализ Обработка сложных слов Извлечение коллокаций Стемминг Лемматизация Распознавание именованных сущностей Разрешение кореферентности Анализ тональности текста Извлечение концептов Синтаксический анализ Разрешение лексической многозначности Извлечение терминологии Извлечение информации Идентификация языка Определение регистра
Реферирование	Извлечение предложений Генерация реферата Многодокументное реферирование Упрощение текста
Машинный перевод	Автоматизированный Гибридный Интерлингвальный На основе правил На основе примеров На основе словаря На основе трансформации Нейронный Статистический Синхронный
Идентификация и сбор данных	Распознавание речи Синтез речи Оптическое распознавание символов Генерация текста
Тематическая модель	Размещение патинко Латентное размещение Дирихле Латентно-семантический анализ
Рецензирование	Автоматизированная оценка сочинений Конкордансер Предиктивный ввод текста Система проверки грамматики Система проверки правописания Угадывание синтаксиса
	Виртуальный ассистент Виртуальный собеседник Вопросно-ответная система Голосовой интерфейс Интерактивная литература