Исследование параметров звукоанализа при помощи цифрового микрофона записываемого на компьтер

Автор: Пользователь скрыл имя, 13 Мая 2012 в 21:43, курсовая работа

Краткое описание

В курсовой работе воспользуемся программой GoldWave и звуками из различных областей. С помощью этой программы определим частоту и амплитуду этих звуков, построим график зависимости амплитуды от частоты, по которой научимся определять конкретный звук и область его воспроизведения. Проведем несколько таких опытов, чтобы могли увидеть отличительные особенности этих звуков. По графику зависимости амплитуды от частоты сможем определить, что за звук, из какой он области, не пользуясь музыкальной техникой.

Оглавление

Введение…………………………………………………………………………………………………………………………….5
1. Основные сведения о синтезе и распознавании речи. Звуковое оборудова-ние компьютера…………………………………………………………………………………….……………6
1.1 Преобразование звука в поток чисел. Микрофон………………………………………6
1.2 Осциллограмма звукового сигнала……………………………………………………………..7
1.3 Аналоговый и цифровой сигнал…………………………………………………………………..8
1.4 Выбор частоты преобразования………………………………………………….….….……….9
1.5 Выбор количества уровней квантования…………………………………………………..10
1.6 Фильтрация звукового сигнала………………………………………………………………….10
1.7 Применение частотных фильтров………………………………………………………………11
1.8 Сжатие динамического диапазона звукового сигнала……………………………..12
1.9 Преобразование потока чисел в звук………………………………………………………..14
1.10 Цифро-аналоговый преобразователь………………………………………………………14
1.11 Фильтрация цифрового сигнала……………………………………………………………….15
2. Подготовка звуковой аппаратуры………………………………………………………………..16
2.1 Установка драйверов звукового адаптера…………………………………………………16
2.2 Подключение микрофона и головных телефонов…………………………………….18
2.3 Настройка чувствительности микрофона………………………………………………….18
2.4 Пробная запись звука…………………………………………………………………………………21
2.5 Приложение Sound Recorder……………………………………………………………………..21
2.6 Запуск записи звука…………………………………………………………………………………….21
2.7 Перемотка в начало……………………………………………………………………………………22
2.8 Воспроизведение записанного звука………………………………………………………..22
2.9 Сохранение записи на диске……………………………………………………………………..22
2.10 Настройка параметров записи………………………………………………………………….24
3. Анализ речевых сигналов…………………………………………………………………………….25
3.1 Осциллографические исследования………………………………………………………….25
3.2 Редактор GoldWave…………………………………………………………………………………….26
3.3 Запись звука………………………………………………………………………………………………..27
3.4 Остановка записи………………………………………………………………………………………..28
3.5 Масштабирование………………………………………………………………………………………29
3.6 Нормализация звуковых файлов……………………………………………………………….31
3.7 Выделение фрагмента звукового файла……………………………………………………31
3.8 Вырезка фрагмента звукового файла…………………………………………………………32
3.9 Поиск лексических конструкций………………………………………………………………..33
3.10 Изменение интонации в предложениях………………………………………………….34
4. Исследование спектра речевых звуков……………………………………………………….36
4.1 Спектральный анализ в программе GoldWave………………………………………….36
4.2 Спектральный анализ при помощи системы SAS………………………………………39
4.3 Настройка параметров сигнала………………………………………………………………….40
4.4 Получение спектрограммы………………………………………………………………………..41
4.5 Просмотр спектрограммы………………………………………………………………………….42
4.6 Настройка параметров анализатора спектра…………………………………………….43
5. Профессиональные системы анализа речи…………………………………………………44
5.1 Инструментальный комплекс Икар……………………………………………………………45
5.2 Конфигурация комплекса…………………………………………………………………………..45
5.3 Программа SIS…………………………………………………………………………………………….48
5.4 Программа очистки от шума в реальном масштабе времени Sound Clea-ner……………………………………………………………………………………………………………………..50
5.5 Программа ускоренной текстовой расшифровки фонограмм речи………..50
5.6 Программа VisiVoice……………………………………………………………………………………51
Краткий анализ материала………………………………………………………………………………52
Список источников литературы……………………………………………………………………………..….54

Файлы: 1 файл

курсовая по Зайцевой -2003.doc

— 1.46 Мб (Скачать)

МИНИСТЕРСТВО ОБРАЗОВАНИЯ РЕСПУБЛИКИ БЕЛАРУСЬ

БЕЛОРУССКИЙ НАЦИОНАЛЬНЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ

Кафедра «Конструирование и производство приборов»

Приборостроительный факультет

 

 

 

 

Курсовая работа

по дисциплине «Физические основы и теоретические принципы построения электробытовых приборов»

Исследование параметров звуковой информации вводимой в компьютер цифровым микрофоном

 

 

 

 

                                                 Исполнитель:                              Ларюшкина Е.А.

                                                                                 (подпись)  

                                                 студентка 4-го курса, приборостроительного                                                                               

                                                 факультета 113228 группы

                                                 Руководитель:                               Зайцева Е.Г.   

                                                                                (подпись)  

 

 

 

 

Минск 2012

Содержание

Введение…………………………………………………………………………………………………………………………….5

1. Основные сведения о синтезе и распознавании речи. Звуковое оборудова-ние компьютера…………………………………………………………………………………….……………6

1.1 Преобразование звука в поток чисел. Микрофон………………………………………6

1.2 Осциллограмма звукового сигнала……………………………………………………………..7

1.3 Аналоговый и цифровой сигнал…………………………………………………………………..8

1.4 Выбор частоты преобразования………………………………………………….….….……….9

1.5 Выбор количества уровней квантования…………………………………………………..10

1.6 Фильтрация звукового сигнала………………………………………………………………….10

1.7 Применение частотных фильтров………………………………………………………………11

1.8 Сжатие динамического диапазона звукового сигнала……………………………..12

1.9 Преобразование потока чисел в звук………………………………………………………..14

1.10 Цифро-аналоговый преобразователь………………………………………………………14

1.11 Фильтрация цифрового сигнала……………………………………………………………….15

2. Подготовка звуковой аппаратуры………………………………………………………………..16

2.1 Установка драйверов звукового адаптера…………………………………………………16

2.2 Подключение микрофона и головных телефонов…………………………………….18

2.3 Настройка чувствительности микрофона………………………………………………….18

2.4 Пробная запись звука…………………………………………………………………………………21

2.5 Приложение Sound Recorder……………………………………………………………………..21

2.6 Запуск записи звука…………………………………………………………………………………….21

2.7 Перемотка в начало……………………………………………………………………………………22

2.8 Воспроизведение записанного звука………………………………………………………..22

2.9 Сохранение записи на диске……………………………………………………………………..22

2.10  Настройка параметров записи……………………………………………………………….24

3. Анализ речевых сигналов…………………………………………………………………………….25

3.1 Осциллографические исследования………………………………………………………….25

3.2 Редактор GoldWave…………………………………………………………………………………….26

3.3 Запись звука………………………………………………………………………………………………..27

3.4 Остановка записи………………………………………………………………………………………..28

3.5 Масштабирование………………………………………………………………………………………29

3.6 Нормализация звуковых файлов……………………………………………………………….31

3.7 Выделение фрагмента звукового файла……………………………………………………31

3.8 Вырезка фрагмента звукового файла…………………………………………………………32

3.9 Поиск лексических конструкций………………………………………………………………..33

3.10 Изменение интонации в предложениях………………………………………………….34

4. Исследование спектра речевых звуков……………………………………………………….36

4.1 Спектральный анализ в программе GoldWave………………………………………….36

4.2 Спектральный анализ при помощи системы SAS………………………………………39

4.3 Настройка параметров сигнала………………………………………………………………….40

4.4 Получение спектрограммы………………………………………………………………………..41

4.5 Просмотр спектрограммы………………………………………………………………………….42

4.6 Настройка параметров анализатора спектра…………………………………………….43

5. Профессиональные системы анализа речи…………………………………………………44

5.1 Инструментальный комплекс Икар……………………………………………………………45

5.2 Конфигурация комплекса…………………………………………………………………………..45

5.3 Программа SIS…………………………………………………………………………………………….48

5.4 Программа очистки от шума в реальном масштабе времени Sound Clea-ner……………………………………………………………………………………………………………………..50

5.5 Программа ускоренной текстовой расшифровки фонограмм речи………..50

5.6 Программа VisiVoice……………………………………………………………………………………51

Краткий анализ материала………………………………………………………………………………52

Список источников литературы……………………………………………………………………………..….54

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Введение

Тема курсовой работы «Исследование параметров звуковой информации вводимой в компьютер цифровым микрофоном».

Данная курсовая работа посвящена физическим основам и теоретическим  принципам построения аудиотехники.  При выполнении курсовой работы целью является развитие способности выбрать принцип анализа и синтез физических процессов, на которых основана работа аудиотехники, а также умение использовать качественные показатели, характеризующие основные потребительские свойства аудиотехники, формулировать требования, предъявляемые к качественным показателям аудиотехники.

В результате выполнения курсовой работы изучим основные принципы построения аудиотехники, принципы анализа и синтеза физических процессов, на которых основана работа аудиотехники; требования, предъявляемые к качественным показателям аудиотехники. При изучении  данной работы научимся обоснованно выбирать методы и физические принципы, обеспечивающие выходные показатели аудиотехники; производить выбор основных узлов и систем аудиотехники.

В курсовой работе воспользуемся программой GoldWave и звуками из различных областей. С помощью этой программы определим частоту и амплитуду этих звуков, построим график зависимости амплитуды от частоты, по которой научимся определять конкретный звук и область его воспроизведения. Проведем несколько таких опытов, чтобы могли увидеть отличительные особенности этих звуков. По графику зависимости амплитуды от частоты сможем определить, что за звук, из какой он области, не пользуясь музыкальной техникой.

В данной работе рассмотрим:

                       возможность применения звукоанализа;

                       применение каждого примера системы и метода анализа;

                       область использования систем в лаборатории.

В заключение проанализируем:

                       преимущества и недостатки данной работы;

                       произведем сравнительный анализ лучших систем по всему перечню показателей и обоснование оптимального варианта реализации системы;

                       прогнозируем тенденции совершенствования системы.

 

 

 

 

 

 

 

 

 

 

1.      Основные сведения о синтезе и распознавании речи.

Звуковое оборудование компьютера

1.1  Преобразование звука в поток чисел. Микрофон

Звук – это колебания воздуха, частота которых лежит в диапазоне частот, воспринимаемых человеком. У разных людей точные границы диапазона слышимых частот могут изменяться, но считается, что звуковые колебания лежат в диапазоне 16-20 000 Гц.

Задача микрофона заключается в преобразовании звуковых колебаний в электрические колебания, которые в дальнейшем могут быть усилены, отфильтрованы для удаления помех и оцифрованы для ввода звуковой информации в компьютер.

По принципу действия микрофоны бывают:

      угольные,

      электродинамические,

      конденсаторные,

      электретные.

Некоторые их этих микрофонов для своей работы требуют внешнего источника тока (например, угольные и конденсаторные), другие под воздействием звуковых колебаний способны самостоятельно вырабатывать переменное электрическое напряжение (это электродинамические и электретные микрофоны).

По назначению:

           студийные микрофоны (держат в руке или крепят на подставке),

           радиомикрофоны (крепят на одежде),

           микрофоны, предназначенные для компьютеров (крепятся на подставке, стоящей на поверхности стола).

Компьютерные микрофоны могут комбинироваться с головными телефонами, как это показано на рис. 1.

 

Рис.1. Головные телефоны с микрофоном

 

Рекомендуется приобретать микрофон, при работе с распознаванием речи такие, что бы находились на постоянном расстоянии ото рта говорящего, так как расстояние между микрофоном и ртом влияет на качество работы современных систем распознавания речи.

Дело в том, что человек способен распознать речь, громкость которой меняется в очень широких пределах. Мозг человека способен отфильтровывать тихую речь от помех, таких, как шум машин (проезжающих по улице), посторонние разговоры и музыку.

При повороте головы или изменении положения тела, расстояние между ртом и микрофоном, расположенном на столе, будет изменяться, что приведет к изменению уровня выходного сигнала микрофона, что, в свою очередь, ухудшит надежность распознавания речи.

При работе с системами распознавания речи наилучшие советуют использовать микрофон, прикрепленный к головным телефонам, как показано на рис. 1, где расстояние между микрофоном и ртом будет постоянным.

Все эксперименты с системами распознавания речи проводят, уединившись в тихой комнате. В этом случае влияние помех будет минимально. Испытания проводятся по-другому, если нужно выбрать систему распознавания речи, способную работать в условиях сильных помех. Однако, пока помехозащищенность систем распознавания речи еще очень и очень низка.

Микрофон является аналого-цифровым преобразователем, так как выполняет преобразование звуковых колебаний в колебания электрического тока. Эти колебания видны на экране осциллографа. Все осциллографические исследования проводятся с помощью обычного компьютера, оборудованного звуковым адаптером (Sound Blaster).

 

1.2 Осциллограмма звукового сигнала

 

На рис. 2 показана осциллограмма звукового сигнала, получившийся при произнесении долгого звука а. Эта осциллограмма получилась с помощью программы GoldWave, с помощью звукового адаптера Sound Blaster и микрофона, показанного на рис. 1.

 

 

Рис.2. Осциллограмма звукового сигнала

Программа GoldWave позволяет растягивать осциллограмму по оси времени, позволяющая разглядеть мельчайшие детали. На рис. 3 показан растянутый фрагмент осциллограммы звука а.

 

 

Рис.3. Фрагмент осциллограммы звукового сигнала

 

Обращаем внимание на то, что величина входного сигнала, поступающий от микрофона, изменяется периодически и принимает как положительные, так и отрицательные значения.

Если во входном сигнале присутствовала только одна частота (если бы звук был «чистым»), то форма сигнала, полученного от микрофона, была бы синусоидальной. Однако спектр звуков человеческой речи состоит из набора частот, в результате чего форма осциллограммы речевого сигнала далека от синусоидальной.

1.3 Аналоговый и цифровой сигнал

 

Аналоговый сигнал – это сигнал, величина которого изменяется со временем непрерывно. Именно такой сигнал поступает от микрофона. В отличие от аналогового, цифровой сигнал представляет собой набор числовых значений, изменяющихся со временем дискретно.

Оцифровка аналогового сигнала – это процесс обработки звукового сигнала на компьютере, то есть преобразование сигнала из аналоговой формы в цифровую (для представления в виде набора числовых значений).

Аналогово-цифровой преобразователь АЦП (Analog to Digital Converter, ADC)– это специальное устройство для оцифровки звукового (и любого аналогового) сигнала. Он находится на плате звукового адаптера и представляет собой микросхему.

Аналогово-цифровой преобразователь периодически измеряет уровень входного сигнала, и выдает на выходе числовое значение результата измерений. Этот процесс показан на рис. 4. Здесь прямоугольниками серого цвета отмечены значения входного сигнала, измеренные с некоторым постоянным интервалом времени. Набор таких значений и есть оцифрованное представление входного аналогового сигнала.

 

 

Рис.4. Измерения зависимости амплитуды сигнала от времени

 

На рис.5 показано подключение аналого-цифрового преобразователя к микрофону. При этом на вход x1 подается аналоговый сигнал, а с выходов u1-un снимается цифровой сигнал.

 

Рис.5. Аналого-цифровой преобразователь

 

Основные параметры аналого-цифрового преобразователя:

      частота преобразования,

      количество уровней квантования входного сигнала.

Правильный выбор этих параметров важен для достижения адекватного представления в цифровом виде аналогового сигнала.

1.4 Выбор частоты преобразования

 

Значение амплитуды входного аналогового сигнала нужно измерять как можно чаще для того, чтобы в результате оцифровки не была потеряна информация об изменениях входного аналогового сигнала. Чем чаще аналого-цифровой преобразователь проводит такие измерения, тем лучше отслеживаются малейшие изменения амплитуды входного аналогового сигнала. Однако излишне частые измерения могут привести к неоправданному росту потока цифровых данных и бесполезной трате ресурсов компьютера при обработке сигнала.

Для правильного выбора частоты преобразования (частоты дискретизации) достаточно обратиться к теореме Котельникова, известной специалистам в области цифровой обработки сигналов. Теорема гласит, что частота преобразования должна быть в два раза выше максимальной частоты спектра преобразуемого сигнала. Следовательно, для оцифровки без потери качества звукового сигнала, частота которого лежит в диапазоне 16-20 000 Гц, нужно выбрать частоту преобразования, не меньшую, чем 40 000 Гц.

Заметим, однако, что в профессиональной звуковой аппаратуре частота преобразования выбирается в несколько раз большей указанного значения. Это делается для достижения очень высокого качества оцифрованного звука.

Для оцифровки звука человеческой речи минимально необходимая частота преобразования составляет 8000 Гц, так как звуки человеческой речи лежать в диапазоне частот 300-4000 Гц. Однако многие компьютерные программы распознавания речи используют стандартную для обычных звуковых адаптеров частоту преобразования 44 000 Гц. С одной стороны, такая частота преобразования не приводит к чрезмерному увеличению потока цифровых данных, а другой — обеспечивает оцифровку речи с достаточным качеством.

 

1.5 Выбор количества уровней квантования

 

Мы знаем, что при любых измерениях возникают погрешности, от которых невозможно избавиться полностью. Такие погрешности возникают, из-за:

      ограниченной разрешающей способности измерительных приборов,

      сам процесс измерений может внести некоторые изменения в измеряемую величину.

Аналого-цифровой преобразователь представляет входной аналоговый сигнал в виде потока чисел ограниченной разрядности. Обычные звуковые адаптеры содержат 16-разрядные блоки АЦП, способные представлять амплитуду входного сигнала в виде 216=65536 различных значений. Устройства АЦП в звуковой аппаратуре высокого класса бывают и 20-разрядными, обеспечивая большую точность представления амплитуды звукового сигнала.

 

1.6 Фильтрация звукового сигнала

 

Вместе с полезным сигналом в микрофон обычно попадают различные шумы — шум с улицы, шум ветра, посторонние разговоры и т.д. Шум оказывает отрицательное воздействие на качество работы систем распознавания речи, поэтому с ним приходится бороться. Один из способов мы уже упоминали — сегодняшними системами распознавания речи лучше всего пользоваться в тихой комнате, оставаясь с компьютером один на один.

Однако идеальные условия удается создать далеко не всегда, поэтому приходится использовать специальные методы, позволяющие избавиться от помех. Для снижения уровня шума применяются специальные ухищрения при конструировании микрофонов и специальные фильтры, удаляющие из спектра аналогового сигнала частоты, не несущие полезную информацию. Кроме того, используется такой прием, как сжатие динамического диапазона уровней входного сигнала.

1.7 Применение частотных фильтров

 

Частотный фильтр - это устройство, преобразующее частотный спектр аналогового сигнала. При этом в процессе преобразования происходит выделение (или поглощение) колебаний тех или иных частот.

Представим себе это устройство в виде некоего черного ящика с одним входом и одним выходом. Применительно к нашей ситуации, к входу частотного фильтра будет подключен микрофон, а к выходу — аналого-цифровой преобразователь.

Частотные фильтры бывают разные:

·  фильтры нижних частот;

·  фильтры верхних частот;

·   пропускающие полосовые фильтры;

·   заграждающие полосовые фильтры.

Фильтры нижних частот  (low-pass filter) удаляют из спектра входного сигнала все частоты, значения которых находятся ниже некоторой пороговой частоты, зависящей от настройки фильтра.

Звуковые сигналы лежащие в диапазоне 16-20 000 Гц, то частоты меньшие

16 Гц можно отрезать без ухудшения качества звука. Для распознавания речи важен частотный диапазон 300-4000 Гц, поэтому вырезаются частоты ниже 300 Гц. Из входного сигнала вырезаются все помехи, частотный спектр которых лежит ниже 300 Гц, и они не будут мешать процессу распознавания речи.

Фильтры верхних частот (high-pass filter) вырезают из спектра входного сигнала все частоты выше некоторой пороговой частоты.

Человек не слышит звуки с частотой 20 000 Гц и выше, поэтому их вырезают из спектра без заметного ухудшения качества звука. Что касается распознавания речи, то здесь вырезают частоты выше 4000 Гц, что приведет к снижению уровня высокочастотных помех.

Пропускающий полосовой фильтр (band-pass filter) представляется в виде комбинации фильтра нижних и верхних частот. Такой фильтр задерживает все частоты, ниже нижней частоты пропускания, а также выше верхней частоты пропускания.

Для системы распознавания речи удобен пропускающий полосовой фильтр, который задерживает все частоты, кроме частот диапазона 300-4000 Гц.

Полосовой фильтр (band-stop filter) позволяет вырезать из спектра входного сигнала частоты, лежащие в заданном диапазоне. Такой фильтр удобен для подавления помех, занимающих некоторую сплошную часть спектра сигнала.

На рис. 6 показано подключение пропускающего полосового фильтра.

 

Рис.6. Фильтрация звукового сигнала перед оцифровкой

 

Обычные звуковые адаптеры, установленные в компьютере, имеют в своем составе полосовой фильтр, через который проходит аналоговый сигнал перед оцифровкой. Полоса пропускания такого фильтра обычно соответствует диапазону звуковых сигналов, а именно 16-20 000 Гц (в разных звуковых адаптерах значения верхней и нижней частоты могут изменяться в небольших пределах).

Для того чтобы добиться более узкой полосы пропускания 300-4000 Гц, соответствующей наиболее информативной части спектра человеческой речи необходимо в современных системах обработки речи использовать так называемые цифровые частотные фильтры, реализованные программно. Так как это позволяет мощность центрального процессора компьютера

Цифровой частотный фильтр, реализованный программно, преобразует входной цифровой сигнал в выходной цифровой сигнал. В процессе преобразования программа обрабатывает специальным образом поток числовых значений амплитуды сигнала, поступающий от аналого-цифрового преобразователя. Результатом преобразования при этом также будет поток чисел, однако этот поток будет соответствовать уже отфильтрованному сигналу.

 

1.8 Сжатие динамического диапазона звукового сигнала

 

Рассказывая об аналогово-цифровом преобразователе, мы важную характеристику - это количество уровней квантования. Если в звуковом адаптере установлен 16-разрядный аналого-цифровой преобразователь, то после оцифровки уровни звукового сигнала могут быть представлены в виде 216=65536 различных значений.

Шум квантования возникает, если уровней квантования мало. Чтобы уменьшить этот шум, в высококачественных системах оцифровки звука следует применять аналого-цифровые преобразователи с максимально доступным количеством уровней квантования.
           Однако есть еще один прием, позволяющий снизить влияние шума квантования на качество звукового сигнала, который используется в цифровых системах записи звука. При использовании этого приема перед оцифровкой сигнал пропускается через нелинейный усилитель, подчеркивающий сигналы с малой амплитудой сигнала. Такое устройство усиливает слабые сигналы сильнее, чем сильные.

График зависимости амплитуды выходного сигнала от амплитуды входного сигнала, показан на рис. 7.

 

Рис.7. Нелинейное усиление перед оцифровкой

 

На этапе обратного преобразования оцифрованного звука в аналоговый, перед выводом на звуковые колонки, аналоговый сигнал повоторно пропускается через нелинейный усилитель. На этот раз используется другой усилитель, который подчеркивает сигналы с большой амплитудой и имеет передаточную характеристику (зависимость амплитуда выходного сигнала от амплитуды входного сигнала), обратную той, что применялась при оцифровке.

Человек, как известно, достаточно хорошо распознает речь, произнесенную тихим шепотом или достаточно громким голосом. Можно сказать, что динамический диапазон уровней громкости успешно распознаваемой речи для человека достаточно широк.

Сегодняшние компьютерные системы распознавания речи пока это не по силам. Однако с целью некоторого расширения указанного динамического диапазона перед оцифровкой можно пропустить сигнал от микрофона через нелинейный усилитель, передаточная характеристика которого показана на рис.7. Это позволит снизить уровень шума квантования при оцифровке слабых сигналов.

Для систем распознавания речи, приходиться ориентироваться на серийно выпускаемые звуковые адаптеры, так как в них не предусмотрено описанные выше нелинейное преобразование сигнала.

Тем не менее, можно создать программный эквивалент нелинейного усилителя, преобразующего оцифрованный сигнал перед передачей его модулю распознавания речи. И хотя такой программный усилитель не сможет снизить шум квантования, с его помощью можно подчеркнуть те уровни сигнала, которые несут в себе наибольшую речевую информацию (можно уменьшить амплитуду слабых сигналов, избавив таким способом сигнал от шумов).

 

 

 

 

1.9 Преобразование потока чисел в звук

 

Рассмотрев принципы действия устройств, позволяющих преобразовать звуковые колебания воздуха в колебания электрического тока, а затем оцифровать полученный электрический сигнал, превратив его в поток чисел, провели аналогию между компьютером и человеком, мы изучили слуховые «органы» компьютера.

Займемся речевыми «органами» компьютера, с помощью которых числовой поток может быть преобразован обратно в звуковые колебания воздуха.

 

1.10 Цифро-аналоговый преобразователь

 

Цифроаналоговый преобразователь ЦАП (Digital to Analog Converter, DAC) – это главный компонент системы преобразования цифрового потока данных в звук расположенный на плате звукового адаптера.

Цифро-аналоговый преобразователь имеет несколько цифровых входов и один аналоговый выход. На цифровые входы подается поток чисел, представляющий собой оцифрованный или синтезированный звук, а к аналоговому выходу через усилитель подключается звуковая колонка или головные телефоны.

Схему подключения цифро-аналогового преобразователя показана на рис.8.

 

Рис.8. Цифро-аналоговый преобразователь

 

На выходе цифро-аналогового преобразователя формируется последовательность импульсов, амплитуда которых соответствует значениям исходного аналогового сигнала, измеренным при оцифровке. Вместо плавной кривой линии, представляющей зависимость амплитуда сигнала от времени получим набор прямоугольных импульсов, показанных на рис.9.

 

 

Рис.9. Форма сигнала на выходе цифро-аналогового преобразователя

 

Спектр такого сигнала будет содержать много гармоник, отсутствовавших в исходном аналоговом сигнале.

Это приведет к тому, что цифровой сигнал, преобразованный в аналоговую форму, будет звучать не так, как исходный оцифрованный звук. Для уменьшения искажения, вызванным цифро-аналоговым преобразованием, используют фильтры высоких частот.

1.11 Фильтрация цифрового сигнала

 

Для сглаживания импульсов, получающихся после цифро-аналогового преобразования, на платах звуковых адаптеров имеются специальные фильтры верхних частот (рис.10). Эти фильтры отрезают все частоты, находящиеся выше диапазона звуковых частот, т.е. выше 20 000 Гц.

 

 

Рис.10. Подключение фильтра высоких частот

 

Благодаря инерционности излучающих систем, головные телефоны и звуковые колонки тоже действуют как фильтры верхних частот. Если звуковая колонка активная и содержит внутри себя усилитель, то этот усилитель может также снабжаться фильтром верхних частот.

На рис.11 показали результат работы фильтра верхних частот. Теперь прямоугольные импульсы превратились в кривую линию, форма которой приблизительно соответствует форме исходного сигнала до оцифровки.

 

 

Рис.11. Сглаженный сигнал.

 

В программе синтеза речи можно создать программный фильтр верхних частот, но на практике в этом нет необходимости, так как для работы вполне достаточно фильтра, предусмотренного в стандартном звуковом адаптере.

2.      Подготовка звуковой аппаратуры

Прежде чем приступить к экспериментам со звуком и речевыми системами, необходимо установить в компьютер звуковой адаптер (если компьютер не оборудован таким адаптером), установить драйвер звукового адаптера, подключить микрофон и головные телефоны, а также отрегулировать чувствительность микрофона.

2.1 Установка драйверов звукового адаптера

 

Для экспериментов с системами распознавания и синтеза речи советуем приобрести звуковой адаптер (Sound Blaster Live или аналогичный).

При выборе звукового адаптера убедитесь, что его можно вставить в системную шину PCI. Старые звуковые адаптеры, рассчитанные на работу с шиной ISA, приобретать не следует, так как разъемы шины ISA отсутствуют на современных компьютерах.

Если ваша операционнаяь система Microsoft Windows 2000 Professional или Microsoft Windows XP при установленном звуковом адаптере, то драйвер звукового адаптера уже имеется в системе.

Для проверки откройте панель управления и запустите менеджер устройств. В операционной системе Microsoft Windows 2000 Professional для этого нужно дважды щелкнуть в папке Control Panel значок Administrative Tools, а затем повторить эту операцию для значка Computer Management. В результате на экране появиться окно программы Computer Management, показанное на рис.12.

 

 

Рис.12. Проверка установки драйверов звукового адаптера

 

Щелкните в левой части этого окна значок Device Manager, после чего в правой части окна появится список устройств, установленных на компьютере. Раскройте в этом списке папку Sound, video and game controllers, и поищите пиктограмму с названием звукового адаптера. На рис.12 видно, что компьютер оборудован звуковым адаптером SoundMAX, интегрированным на системной плате компьютера.

Если звуковой адаптер добавлен в компьютер после установки операционной системы, или если в составе операционной системы не нашлось подходящего драйвера для звукового адаптера, необходимо добавить драйвер вручную.

Программа установки драйвера должна находиться на компакт-диске, который поставляется вместе со звуковым адаптером.

Если такого диска нет, можете поискать драйвер на Web-сайте компании, выпустившей звуковой адаптер. Кроме того, на этом сайте можно найти более свежую версию драйвера, чем та, что поставляется на компакт-диске. Рекомендуем установить самую новую версию драйвера, так как в старых версиях могут содержаться ошибки. Загружая драйвер, правильно укажите тип своего звукового адаптера, а также версию операционной системы Microsoft Windows, установленной на компьютере.

 

 

 

 

2.2 Подключение микрофона и головных телефонов

 

Для экспериментов с системами распознавания речи рекомендуем приобрести комплект из микрофона и головных телефонов, обеспечивающий постоянное расстояние от микрофона до рта говорящего.

Подключение такого микрофона, комбинированного с головными телефонами не должно вызывать у Вас никаких затруднений. Все, что нужно сделать, — это вставить штекеры микрофона и головных телефонов в соответствующие разъемы звукового адаптера. При этом нужно не перепутать разъемы и вставить их правильным образом. Руководствуйтесь документацией к звуковому адаптеру — это позволит избежать ошибок при подключении.

Есть головные телефоны с микрофоном, предназначенные для подключения к компьютеру при помощи интерфейса USB. Такое оборудование рекомендуется компанией Microsoft для использования в системе распознавания речи, встроенной в программный пакет Microsoft Office XP.

 

2.3 Настройка чувствительности микрофона

 

Успешная работа любой системы распознавания речи из тех, в значительной степени зависит от правильной настройки чувствительности микрофона.

Прежде всего, убедитесь, что на системной панели задач (system tray) присутствует значок регулировки громкости Volume с изображением громкоговорителя. Такой значок показан в левой части рис.13.

 

 

Рис.13. Значок регулировки громкости Volume

 

Если значка регулировки громкости на системной панели задач нет, то возможно в операционной системе не установлен драйвер звукового адаптера.

Если же значок регулировки громкости присутствует, то с его помощью можно легко получить доступ к регулировкам чувствительности микрофона. Щелкните этот значок дважды левой клавишей мыши, и на экране появится диалоговое окно регулировки громкости Volume Control, показанное на рис.14.

 

 

Рис.14. Диалоговое окно регулировки громкости Volume Control

По умолчанию в этом окне отображаются регулировки, имеющие отношение к устройствам вывода звука, поэтому здесь не найдете регулировок чувствительности микрофона. Для того чтобы получить доступ к этим регулировкам, выберите из меню Options строку Properties. В результате на экране появится одноименное диалоговое окно, показанное на рис.15.

 

 

Рис.15. Окно Properties

 

Обратите внимание на элементы управления группы Adjust volume for. По умолчанию отмечен флажок Playback, в результате чего в окне Volume Control отображаются регулировки устройств вывода звука.

Необходимо отметить здесь флажок Recording, а также флажок Microphone, расположенный в списке Show the following volume controls. Сделав эти переключения, щелкните кнопку OK.

Теперь название и внешний вид диалогового окна изменится (рис.16).

 

 

Рис. 16. Теперь в окне можно регулировать настройки микрофона

 

Окно получит название Recording Control, и в нем появится интересующая нас группа элементов управления Microphone.

С помощью флажка Select можно включать и отключать тот или иной источник входного сигнала. Для того чтобы сигнал поступал в звуковой адаптер с микрофона, необходимо отметить флажок Select в группе элементов управления Microphone.

После того как флажок будет отмечен, появится возможность регулировать чувствительность микрофона с помощью ползунка Volume. Ползунок регулировки баланса стерео Balance останется недоступным, так как мы используем монофонический микрофон.

В группе элементов управления Microphone может присутствовать кнопка Advanced, открывающая доступ к расширенным настройкам микрофона (для некоторых драйверов кнопка может быть недоступной).

Если  щелкнуть кнопку Advanced, на экране появится диалоговое окно Advanced Controls for Microphone, показанное на рис. 17.

 

 

Рис. 17. Диалоговое окно Advanced Controls for Microphone

 

Состав элементов управления, расположенных в этом окне, и их доступность зависит от драйвера звукового адаптера. Для скачкообразного повышения чувствительности микрофона в некоторых случаях нужно отметить флажок MIC Boost, расположенный в диалоговом окне Advanced Controls for Microphone.

Заметим, что в комплекте с некоторыми звуковыми адаптерами могут поставляться программы управления, позволяющие настраивать параметры адаптера более тонко, чем это можно сделать при помощи диалогового окна Volume Control (или его модификации — диалогового окна Recording Control).

 

 

 

 

2.4 Пробная запись звука

 

В составе операционной системы Microsoft Windows имеется приложение Sound Recorder, с помощью которого сможете испытать в работе микрофон и головные телефоны, а также записать фрагменты звуковых сигналов в файлы с расширением имени wav. В дальнейшем такие файлы можно будет проанализировать с помощью других программных средств.

 

2.5 Приложение Sound Recorder

 

Для продолжения работы по изучению звуковой системы компьютера запустите приложение Sound Recorder. Чтобы это сделать, щелкните кнопку Start, расположенную в нижнем левом углу рабочего стола, а затем выберите из меню папку Programs/Assesories/Entertainment. Именно там находится пиктограмма программы Sound Recorder.

После запуска на экране появится главное окно приложения Sound Recorder, показанное на рис. 18.

 

 

Рис. 18. Приложение Sound Recorder

 

2.6 Запуск записи звука

 

Для того чтобы запустить запись звука, щелкните кнопку Record, расположенную в правом нижнем углу главного окна приложения Sound Recorder . На поверхности этой кнопки нарисован кружок красного цвета.

Теперь говорите в микрофон. По мере произнесения речи, в средней части главного окна приложения Sound Recorder будет отображаться зеленая осциллограмма оцифрованного сигнала (рис. 19).

 

 

Рис. 19. Осциллограмма записываемого сигнала

 

Если вместо этой осциллограммы наблюдается только горизонтальная линия зеленого цвета, попробуйте говорить громче или увеличить чувствительностью микрофона. Для остановка записи нужно щелкнуть кнопку Stop с изображением прямоугольника черного цвета.

 

2.7 Перемотка в начало

 

Для прослушивания записи необходимо выполнить операцию «перемотки», аналогичную по своему назначению операции перемотки ленты в обычном магнитофоне. Это можно сделать с помощью кнопки Seek to Start с изображением двух треугольников, направленных острием влево.

Также можете установить запись в начало с помощью ползунка, расположенного непосредственно над кнопками.

 

2.8 Воспроизведение записанного звука

 

Посмотрим (а точнее, послушаем), что у нас получилось. Выполнив перемотку записи в начало, запустите ее на воспроизведение, щелкнув кнопку Play. На этой кнопке нарисован треугольник с острием, направленным в правую сторону.

Оцените качество и громкость звука. В идеальном случае при записи должны говорить нормальным голосом. Прослушивая сделанную таким образом запись, необходимо убедиться в ее нормальной громкости, а также в отсутствии шипения и других помех.

Если слышно шипение, попробуйте увеличить чувствительность микрофона. Если же уровень записанного сигнала слишком высок и появляются заметные на слух искажения голоса, попробуйте снизить чувствительность микрофона.

Не забывайте также при этом и про регулировку громкости, которую можно выполнить в окне Volume Control. Установка слишком высокого уровня громкости может привести к появлению слышимых шумов. Эти шумы, однако, никак не скажутся на качестве распознавания речи, так как они появляются только в выходных схемах звукового тракта.

 

2.9 Сохранение записи на диске

 

Чтобы сохранить сделанную запись на диске в файле формата wav, выберите из меню File строку Save As. В результате на экране появится окно сохранения файла записи, показанное на рис. 20.

 

 

Рис. 20. Окно сохранения записи

 

Как видно, это почти стандартное диалоговое окно сохранения файла, к которому добавлено поле Format, а также кнопка изменения формата записи Change.

В поле Format отображается текущий формат звукового сигнала, частота преобразования аналогового сигнала при оцифровке, а также режим записи — монофонический или стереофонический.

По умолчанию используется формат импульсно-кодовой модуляции (Pulse Code Modulation, PCM). Это формат, при использовании которого в выходной файл будет записан поток чисел, несущих информацию о значениях амплитуды сигнала. Именно такие данные поступают с аналого-цифрового преобразователя, рассмотренного нами в разделе «Аналогово-цифровой преобразователь» этой главы.

Что касается частоты преобразования (частоты дискретизации), то по умолчанию используется значение 22 050 Гц. По теореме Котельникова, этого достаточно для адекватного представления аналогового сигнала с верхней частотой полосы пропускания до 11 000 Гц.

Обычный микрофон представляет собой монофоническое устройство, в поле Format находится обозначение Mono.

При сохранении звукового файла на диске можем изменить его формат, щелкнув кнопку Change, расположенную в диалоговом окне сохранения. На экране появится диалоговое окно Sound Selection, показанное на рис. 21.

 

 

Рис. 21. Окно выбора формата записи

 

При помощи списка Format можем выбрать один из доступных форматов хранения звуковой информации. В частности, можно выбрать формат с упаковкой, в результате чего итоговый файл будет иметь меньший размер по сравнению с форматом PCM. При проведении исследований звука оставьте формат PCM, принятый по умолчанию.

Наибольший интерес представляет настройка, выполняемая с помощью списка Attributes. Этот список позволяет изменить частоту дискретизации записанного ранее звукового сигнала.

Частоту дискретизации лучше всего менять еще до записи, а не после. Если запись сделана с низкой частотой дискретизации, то при ее сохранении с высокой частотой дискретизации никакого улучшения качества не произойдет. Программа просто добавит промежуточные значения амплитуды, выполнив аппроксимацию.

2.10 Настройка параметров записи

 

Помимо чувствительности и громкости, программа Sound Recorder позволяет настраивать другие параметры, оказывающие влияние на качество записи, в частности, частоту дискретизации.

Выберите из меню File программы Sound Recorder строку Properties, на экране появится окно настройки параметров записи, показанное на рис. 22.

 

 

Рис. 22. Окно настройки параметров записи

 

Здесь в поле Length отображается длительность записи в секундах, в поле Data Size — размер области данных, в которой хранится звук, а в поле Audio Format — формат записи, о котором мы упоминали в предыдущем разделе.

Чтобы изменить формат записи, щелкните кнопку Convert Now, на экране появится диалоговое окно выбора формата записи, показанное на рис. 22.

В этом окне можете выбрать одну из стандартных частот дискретизации:

·         8 000 Гц;

·         11 025 Гц;

·         12 000 Гц;

·         16 000 Гц;

·         22 050 Гц;

·         24 000 Гц;

·         32 000 Гц;

·         44 100 Гц;

·         48 000 Гц.

Как видим, частота дискретизации 8 000 Гц вполне подходит для оцифровки человеческой речи, частотный диапазон которой лежит в пределах 300-4000 Гц.

Помимо частоты дискретизации, можно задать разрядность данных, поступающих от аналого-цифрового преобразователя, равной 8 или 16 бит на одно измерение амплитуды, а также выбрать одноканальный (монофонический) или двухканальный (стереофонический) формат.

3.      Анализ речевых сигналов

После установки звукового адаптера и драйвера для него, а также после регулировки чувствительности микрофона, проведем собственные небольшие исследования в области распознавания и синтеза речи.

 

3.1 Осциллографические исследования

 

Основное назначение осциллограф — визуальное определение формы электрических сигналов и измерение его параметров, таких как амплитуда, частота, длительность импульсов и период их следования и так далее.

Если компьютер оборудован звуковым адаптером, то при установке специального программного обеспечения сможем использовать его как цифровой осциллограф для изучения электрических колебаний, полученных от микрофона. Таким способом увидим форму звуковых колебаний, образующихся при формировании речи.

Произнося в микрофон отдельные звуки и слова, сможем попытаться разглядеть на осциллограмме отдельные элементы, составляющие речь, проследить изменения амплитуды речевого сигнала и длительности пауз. И хотя информация, полученная в ходе осциллографических исследований, сама по себе не позволит Вам выделить из речи отдельные фонемы и аллофоны, она имеет большое значение для изучения процесса образования речи.

 

3.2 Редактор GoldWave

 

Для проведения исследований потребуется программное обеспечение, позволяющее просматривать осциллограммы звуковых сигналов. В качестве такого программного обеспечения мы рекомендуем редактор GoldWave (рис.23).

 

Рис.23. Редактор GoldWave

 

Программа GoldWave записывает, проигрывает, редактирует и конвертирует звуковые файлы. Эта программа предназначена в первую очередь для создания высококачественных звуковых файлов, можно использовать и для исследования речи.

В частности, программа снабжена фильтрами (верхних и нижних частот, а также полосовыми частотными фильтрами). В ней имеется анализатор спектра, который можно использовать для исследования речи.

Пользуясь редактором, можно комбинировать отдельные звуки речи, формируя таким способом синтезированную речь.

Ниже рассмотрим основные приемы работы с программой GoldWave.

 

3.3 Запись звука

 

Чтобы записать звук в программе GoldWave, запустим эту программу, а затем выберите из меню File строку New.

На экране появится диалоговое окно New Sound, с помощью которого можно выбрать параметры записи (рис. 24).

 

 

Рис.24. Выбор параметров записи

 

В группе элементов управления Quick settings предусмотрены кнопки Voice, Radio и CD, при помощи которых можно быстро выбрать параметры звука, соответственно, для записи голоса, радиопередачи или компакт-диска.

Для записи голоса щелчком нажмем кнопку Voice. При этом будет создана монофоническая запись (отмечен флажок Mono в группе элементов управления Channels). Также автоматически в списке Sampling rate будет выбрана частота дискретизации входного сигнала, равная 11 025 Гц. Можем оставить эту частоту дискретизации, так как она вполне достаточна для оцифровки голоса, либо выберем при помощи списка Sampling rate другую частоту в диапазоне от 5 500 Гц до 96 000 Гц. Однако не увлекайтесь высокими частотами дискретизации — при обработке речи их применение не даст никакого выигрыша, а приведет лишь к непроизводительным тратам ресурсов компьютера.

При помощи элемента управления Length можно задать длительность записи. Для наших экспериментов достаточна запись в течение одной минуты.

Выбрав параметры записи, щелкните кнопку OK.

Сразу после этого в главном окне программы GoldWave появится новое окно SoundXX, где ХХ — последовательный номер записей с момента запуска программы, а также окно Device Controls.

Первое из этих окон представляет собой окно звукового редактора, где будет показана осциллограмма звукового сигнала. Во втором окне находятся элементы управления для запуска записи и проигрывания звука, а также дополнительные окна просмотра осциллограммы и спектрограммы записанного сигнала.

 

 

Рис. 25. Запись нового звукового файла

 

Для начала записи, щелкните в окне Device Controls кнопку Record с красным кружком, держа при этом нажатой клавишу Control. Теперь запись включена, и можемпроизносить слова в микрофон!

 

3.4 Остановка записи

 

Для остановки записи звука, щелкните в окне Device Controls кнопку Stop. На этой кнопке нарисован квадрат малинового цвета.

Для временной приостановки записи воспользуйтесь кнопкой Pause с изображением двух вертикальных черточек черного цвета.

Сохранение результатов записи в файле

При изучении речи советуем записывать слова и фразы в отдельные wav-файлы небольшого размера. В дальнейшем эти файлы можно будет исследовать программой GoldWave или другими программными средствами.

Для сохранения сделанной записи выберите из меню File строку Save As.

На экране появится диалоговое окно Save As, показанное на рис. 26. Обратитим внимание на список File Attributes, при помощи которого можно выбрать формат создаваемого файла. Для записи речи можно использовать формат, выбранный по умолчанию.

 

 

Рис. 26. Сохранение звукового файла

 

3.5 Масштабирование

 

Осциллограмму звукового сигнала, редактируемого в окне программы GoldWave, можно растягивать и сжимать как по вертикали, так и по горизонтали.

На рис.27 показана исходная осциллограмма, полученная при записи одного повествовательного и трех вопросительных предложений. Вот эти предложения:

Мама мыла раму.

`[Мама] мыла раму?

Мама `[мыла] раму?

Мама мыла `[раму]?

Квадратными скобками отмечены слова, выделенные интонацией при произнесении предложений.

 

 

Рис. 27. Исходная осциллограмма

 

Для улучшения просмотра осциллограммы, можем растянуть ее по вертикали. Нужно воспользоваться комбинацией клавиши Control и клавиши перемещения курсора вверх по вертикали. Нажимаем эту комбинацию клавиш несколько раз до тех пор, пока не получите нужный масштаб отображения.

На рис. 28 показали результат растяжения исходной осциллограммы по вертикали. Как видим, на ней появились незаметные ранее детали.

 

 

Рис. 28. Растяжение по вертикали

 

Сжатие осциллограммы по вертикали выполняется при помощи комбинации клавиш Control и клавиши перемещения курсора вниз по вертикали.

Чтобы растянуть осциллограмму по горизонтали, воспользуйтесь комбинацией клавиши Shift и клавиши перемещения курсора вверх по вертикали. Результат такого растяжения исходной осциллограммы показан на рис. 29.

 

 

Рис. 29. Растяжение по горизонтали

 

Сжатие осциллограммы по горизонтали выполняется при помощи комбинации клавиш Shift и клавиши перемещения курсора вниз по вертикали.

 

3.6 Нормализация звуковых файлов

 

Перед проведением дальнейших исследований записанных ранее файлов рекомендуется провести нормализацию этих файлов. Нормализация заключается в таком масштабировании амплитуды файла, при котором максимальная амплитуда сигнала будет приведена к максимально возможному значению амплитуды, определяемого разрядностью формата звукового файла.

Чтобы выполнить нормализацию, загрузите в программу GoldWave исходный звуковой файл. Затем выберите из меню Effects строку Volume, а затем из меню второго уровня — строку Maximize.

 

3.7 Выделение фрагмента звукового файла

 

Одной из часто выполняемых при редактировании звуковых файлов операций является выделение фрагментов с целью их вырезки или перемещения в новый файл.

Выделить нужный фрагмент в окне редактора GoldWave можно с помощью мыши. Для этого вначале щелкнем левой клавишей мыши в начале выделяемого фрагмента, а затем — правой клавишей мыши в конце выделяемого фрагмента.

Выделенный фрагмент выделяется синим цветом. Это показано на рис. 30.

 

 

Рис. 30. Выделение фрагмента звукового файла

 

После выделения фрагмент, выполним различные операции, доступные через меню Edit и Effects. Можем скопировать фрагмент в универсальный буфер обмена Clipboard, удалить его, наложить фильтр и т.п.

 

3.8 Вырезка фрагмента звукового файла

 

При проведении собственных исследований речи придется вырезать фрагменты записанных звуковых файлов, сохраняя их в отдельных файлах. Таким способом вручную выделим слова, слоги, фонемы, морфемы и другие лексические конструкции.

Вначале выделим фрагмент файла, используя технику. Далее надо скопировать выделенный фрагмент в Clipboard, выбрав из меню Edit строку Copy. Создадим из содержимого буфера обмена Clipboard новый звуковой файл, выбрав из меню Edit строку Paste new.

 

 

Рис. 31. Вырезанный фрагмент звукового файла

 

Сохраняем новый файл, воспользовавшись для этого строкой Save As меню File.

 

3.9 Поиск лексических конструкций

 

При записи повествовательного предложения «Мама мыла раму» намеренно делали паузу между словами и слогами для того, чтобы впоследствии было легче выделить на осциллограмме лексические элементы.

На рис. 32 показана осциллограмма этого предложения. Всплески сигнала отметим соответствующими им слогами предложения.

 

 

Рис. 32. Повествовательное предложение

 

На осциллограмме отчетливо видно, что в начале предложения громкость звука резко увеличивается, а затем уменьшается от слога к слогу. Как вы скоро увидите, характер изменения амплитуды речевого сигнала для вопросительных предложений будет несколько иным.

Далее, на этой осциллограмме видны отдельные аллофоны, составляющие речь. Обратите внимание, что в слове мама первый слог выглядит несколько иначе, чем второй. Это хорошо видно на рис. 33, где растянули осциллограмму слова мама по горизонтали.

 

 

Рис. 33. Осциллограмма слова мама

 

Можно было бы классифицировать фонемы и аллофоны по форме линий, огибающих соответствующий фрагмент осциллограммы, но этот путь ведет в тупик, так как форма этой линии несет лишь информацию об энергии звукового сигнала, но не о его частотном спектре.

Для сравнения на рис. 34 и 35 показаны увеличенные фрагменты слов мыла и раму. Формы огибающей линии довольно близки, хотя есть и отличия.

 

 

Рис.34. Осциллограмма слова мыла

 

 

Рис. 35. Осциллограмма слова раму

 

Далее проведем спектральный анализ, позволяющий выделять фонемы и аллофоны более надежно по сравнению с анализом формы огибающей линии.

 

3.10 Изменение интонации в предложениях

 

Интонация может полностью менять смысл предложения. Посмотрим это изменение на осциллограмме речевого сигнала.

Ранее была приведена осциллограмма повествовательного предложения «Мама мыла раму». Одним лишь изменением интонации это предложение может быть легко преобразовано в три различных по смыслу вопросительных предложения:

`[Мама] мыла раму?

Мама `[мыла] раму?

Мама мыла `[раму]?

В первом случае интонационное ударение делается на слове мама. При этом подчеркнем интонацию, которая интересует нас, кто мыл раму — мама или кто-то еще.

Осциллограмма первого предложения наглядно демонстрирует увеличение амплитуды при произнесении слова мама (рис. 36).

 

 

Рис. 36. Ударение на первом слове

 

Во втором вопросе выясняется, мыла мама раму, или нет. Важное слово мыла при этом подчеркивается изменением интонации. На рис. 36 мы видим увеличение амплитуды фрагмента сигнала, соответствующего второму слову.

 

 

Рис. 37. Ударение на втором слове

 

На рис. 38 мы показали осциллограмму третьего вопросительного предложения, в котором выясняется, мыла мама раму или она мыла что-то еще. Соответственно, увеличение амплитуда сигнала приходится на последнее слово.

 

 

Рис. 38. Ударение на последнем слове

 

При проектировании синтезаторов речи необходимо учитывать наличие интонационных ударений. Если расставить такие ударения неправильно, синтезированная речь будет звучать неестественно.

 

 

 

 

 

 

 

 

4.      Исследование спектра речевых звуков

 

Спектральные исследования речи позволяют проследить изменение содержания в звуках речи тех или иных частотных компонентов. В результате этих исследований было обнаружен факт наличия формантных частот, несущих в себе основную речевую информацию. Отслеживание изменений этих частот, а также изменений амплитуды звукового сигнала позволяет выделять из сигнала лексические элементы — фонемы и аллофоны.

Рассмотрим использование двух инструментальных средств, позволяющих проводить спектральные исследования речи. Это программа GoldWave, а также система анализа речи SAS. Этот комплекс поставляется вместе с документацией и исходными текстами, написанными на языке программирования C++ в среде Borland C++ Builder 4.0.

 

4.1 Спектральный анализ в программе GoldWave

 

Помимо окон редактирования звуковых файлов, в главном окне программы GoldWave имеется окно Device Controls, при помощи которого можно управлять записью, перемоткой и проигрыванием звуковых файлов (39). Но это окно имеет еще одно назначение, а именно просмотр формы и спектра сигнала. Нас интересуют в первую очередь возможности этого окна, имеющие отношение к просмотру спектра.

 

 

Рис. 39. В окне Device Controls можно просматривать форму и спектр сигнала

 

На рис. 39, в нижней части окна Device Controls имеется два окна просмотра. Первое используется для отображения информации о первом канале стереофонического звука, а второе — о втором канале. Исследуем монофонические звуки речи, поэтому вся информация будет отображаться только в левом окне.

Если щелкнуть правой клавишей мыши в этом окне, на экране появится контекстное меню, задающее режимы просмотра. Вот строки этого меню:

·         Amplitude;

·         Spectrum;

·         Log bar spectrum;

·         Colour Spectrum;

·         Spectrogram;

·         Fire Spectrum;

·         X-Y mode

Строка Amplitude переключает окно в режим просмотра амплитуды исходного сигнала.

Отображение происходит во время проигрывания сигнала, как это показано на рис. 39. Вы также можете щелкнуть левой клавишей мыши внутри окна редактирования звукового файла и, не отпуская эту клавишу, перемещать курсор мыши вправо и влево, рассматривая в окне Device Controls осциллограмму сигнала как под увеличительным стеклом.

Если выбрать из контекстного меню строку Spectrum, во время воспроизведения звука в окне будет отображаться текущий спектр звукового сигнала в виде графика, показанного на рис. 40.

 

 

Рис. 40. Просмотр спектра звукового сигнала в виде графика

 

Этот график (как, впрочем, и все другие спектральные графики, создаваемые программой GoldWave) позволяет получить только качественную, а не количественную характеристику спектра. Получить с ее помощью какие-либо числовые параметры спектра текущая версия программы GoldWave не позволяет.

Режим Log bar spectrum позволяет просматривать спектр в виде диаграммы (рис. 41). Чем больше высота прямоугольника на диаграмме, тем больше содержание соответствующей частоты. Здесь можем только оценить спектр, но не получить его точное распределение в виде чисел.

 

 

Рис.41. Просмотр спектра в виде диаграммы

 

В режиме Colour Spectrum отображается цветная диаграмма. Эту диаграмма показали на рис. 42.

 

 

Рис. 42. Просмотр спектра в виде цветной диаграммы

 

Режим Spectrogram позволяет получить спектрограмму звукового сигнала (рис.43).

 

Рис.43. Спектрограмма звукового сигнала

 

На спектрограмме видим, как спектр изменяется со временем. При этом по горизонтальной оси откладывается время, а по вертикальной — частота сигнала. Что же касается интенсивности, то она обозначается цветом. Частота, имеющая малую интенсивность, отображается черным цветом, затем следуют цвета пурпурный, голубой, циан, зеленый, желтый и красный. Красный цвет соответствует максимальной интенсивности.

Обратите внимание, что спектрограмма, показанная на рис. 43, была снята для повествовательного предложения «Мама мыла раму». На этой спектрограмме четко видны отдельные фонемы и аллофоны. Используя нейронные сети, можно выделить эти лексические элементы из речи.

 

4.2 Спектральный анализ при помощи системы SAS

 

Система анализа речи SAS была создана как открытый проект, доступный для использования и модификации другими исследователями. Эта система позволяет исследовать проблемы, возникающие при практическом применении нейросетевых моделей и алгоритмов. Она представляет собой удобную интегрированную среду, пригодную для проведения исследований и визуализации результатов работы (рис.44). При этом исследователю предоставляется возможность контроля многочисленных параметров системы.

Центральным компонентом системы SAS является программная нейронная сеть, снабженная средствами ввода, обработки и вывода сигналов. В системе SAS также имеются следующие инструментальные средства:

·         спектральный анализатор речи, способный работать со звуковыми файлами, а также со звуком, полученным в реальном времени от микрофона (или другого источника звука);

·         синтезатор речи, основанный на базе формантно-голосовой модели;

·         модуль визуализации процессов обучения и распознавания в используемой нейросетевой модели. 

Изучим только спектральный анализатор речи, входящий в состав системы анализа речи SAS. Что же касается нейронных сетей и их применения для распознавания речи.

 

 

Рис.44. Система анализа речи SAS

 

Помимо отображения спектра и волновой формы звукового сигнала, записанного в wav-файлах и получаемых в реальном времени от звукового адаптера, анализатор спектра используется для отображения синтезируемого звука. 

 

4.3 Настройка параметров сигнала

 

Запустив программу SAS, выполним настройку параметров сигнала. Для этого выберем из меню Файл строку Настройки. На экране появится диалоговое окно настройки параметров, показанное на рис.45.

 

 

Рис. 45. Параметры ввода и преобразования сигнала

 

Откроем вкладку Ввод сигнала. На данном этапе нам требуется установить на этой вкладке только один параметр — частоту дискретизации входного сигнала. Эту частоту нужно выбрать из списка Рабочая частота дискретизации.

Следует учесть, что система SAS может работать только с монофоническими 16-разрядными звуковыми файлами PCM. При этом частота дискретизации может принимать одно из трех значений:

·         11 025 Гц;

·        22 050 Гц;

·         44 100 Гц

Наши файлы с предложением «Мама мыла раму» были записаны при помощи редактора GoldWawe с частотой дискретизации 11 025 Гц, поэтому установим именно это значение на вкладке Ввод сигнала.

 

4.4 Получение спектрограммы

 

Чтобы получить спектрограмму звукового сигнала, записанного в файле, откроем этот файл. Для этого воспользуемся строкой. Откроем в меню Файл, или кнопкой Открыть, расположенной на инструментальной панели.

После открытия звукового файла в главном окне программы появляется окно анализатора спектра Анализатор, показанное на рис. 46.

 

 

Рис. 46. Открыт звуковой файл

 

Если появление окна Анализатор сопровождается сообщениями об ошибках, проверим формат звукового файла и настройку частоты дискретизации.

В левой части панели Контроллер находятся элементы управления выбора источника звука и кнопки управления проигрыванием, а в правой части — окно просмотра волновой формы звукового сигнала.

 

4.5 Просмотр спектрограммы

 

Чтобы просмотреть спектр в заданной точке файла, переместим в эту точку движок окна просмотра волновой формы звукового сигнала.

Теперь в окне анализатора появится изображение нового спектрального распределения (рис. 47).

 

Рис. 47. Просмотр спектра в различных точках файла

В окне Развертка спектра видим развертку спектра во времени. На рис. 47 такая развертка отображается в двумерном виде. Однако стоит щелкнуть кнопку 3D Развертка, и в окне анализатора появится трехмерная развертка спектра исследуемого сигнала (рис. 48).

 

Рис. 48. Трехмерная развертка спектра исследуемого сигнала

 

При этом используются следующие измерения: время, частота и амплитуда. Автор программы рекомендует применять этот режим для отображения  формантного состава и динамики речи.

Так же как и программа GoldWave, описанная ранее в этой главе, программа SAS не позволяет производить точных количественных измерений спектра. Она предназначена только для визуального просмотра формы спектра.

При этом можем узнать частоту в любой точке спектра, поместив в эту точку курсор мыши. Значение частоты будет показано в правом нижнем углу окна Спектр.

4.6 Настройка параметров анализатора спектра

 

Чтобы настроить параметры работы анализатора спектра, выберем из меню Файл строку Настройки. На экране появится диалоговое окно настройки параметров, в котором нужно открыть вкладку Анализатор (рис. 49).

 

 

Рис. 49. Настройка параметров анализатора спектра

 

Выбирая значения из списка Размер окна, можно задавать разрешение анализатора в пространстве частот. Список Окно сглаживания позволяет выбрать тип окна сглаживания, накладываемого на временную форму сигнала перед вычислением быстрого преобразования Фурье (БПФ). Прямоугольное окно соответствует отсутствию окна сглаживания.

Если нужна только часть спектра исследуемого сигнала, можем задать нижнюю и верхнюю границу отображения спектра в полях Первая частота и Последняя частота, соответственно.

При помощи списка Показывать спектр как можно выбрать один из вариантов отображения спектра. Эта настройка действует при просмотре двухмерного спектрального распределения.

Что же касается трехмерного изображения спектра, то здесь можем задать в поле Число срезов количество отдельных спектральных линеек, одновременно отображаемых в окне Спектр.

Отметим флажок Развертка всего файла, включим режим отображения, при котором окна спектральных преобразований располагаются так, чтобы охватить сразу весь файл. Если же этот флажок не отмечен, окна будут расположены последовательно друг за другом.

 

5. Профессиональные системы анализа речи

 

Каждая компания, профессионально занимающаяся речью, создает свой набор инструментальных средств.

Компания «Центр речевых технологий» специализируется в области исследований и разработки систем распознавания речи, очистки речевых сигналов от шума и сжатии речи.

Эта компания была образована в 1990 году небольшой группой инженеров- разработчиков, работавших до этого в крупнейших Научно-исследовательских институтах военно-промышленного комплекса Санкт-Петербурга. Сотрудники «Центра речевых технологий» — опытные ученые и инженеры, имеющие за плечами множество успешных проектов в области создания компьютеризированных электронных приборов и аппаратуры. Созданная ими аппаратура использовалась, главным образом, в фундаментальных исследованиях и в военных целях.

Системы, созданные «Центром речевых технологий», проверяются для разграничения доступа с использованием голоса, для проведения судебных фонетических экспертиз и расшифровки записей, сделанных «черными ящиками» самолетов.

Расскажем о следующих программах и комплексах, созданных центром:

·         инструментальный комплекс анализа и очистки от шума звуковых сигналов Икар;

·         программа трехмерного графического отображения спектра звукового сигнала в реальном времени VisiVoice

Эти средства предназначены для анализа речи и звуковых сигналов. Что же касается распознавания речи и других технологий, созданных «Центром речевых технологий».

5.1 Инструментальный комплекс Икар

 

Комплекс анализа и очистки от шума звуковых сигналов Икар представляет собой систему, предназначенную для ввода, анализа и  обработки акустических сигналов.

Этот комплекс создавался специально для работы в экспертных лабораториях МВД, ФСБ и МЮ России как универсальный инструмент, предназначенный для решения различных задач, возникающих при проведении фонографической экспертизы.

Вот перечень этих задач, который говорит сам за себя:

·         идентификация дикторов по фонограммам речи;

·         очистка от шума и текстовая расшифровка низкокачественных фонограмм речи;

·         диагностика личности говорящего;

·         диагностика акустической обстановки;

·         тестирование и идентификация каналов передачи акустической информации звукозаписи;

·        установление подлинности фонограмм речи и выявление следов монтажа фонограмм

Этот комплекс может оказать услуги в борьбе с телефонным терроризмом, при возникновении ситуаций с захватом заложников (анализ речевых записей переговоров с заложниками) и в других оперативных ситуациях, требующих анализа звуковых сигналов.

Комплекс Икар позволяет записать звуковой сигнал и получить его осциллограмму, динамическую спектрограмму или сонограмму, используя различные способы отображения. При помощи этого комплекса можно, получить частотный отклик коэффициентов линейного предсказания, получить динамическую кепстрограмму и автокореллограмму, средний спектр быстрого преобразования Фурье БПФ и стационарный спектр. Комплекс позволяет вычислить различными методами основной тон голоса.

 

5.2 Конфигурация комплекса

 

Задачи, решаемые комплексом Икар, предъявляют высокие требования к звуковому оборудованию компьютера, поэтому здесь нельзя применять дешевые звуковые адаптеры, встроенные в системную плату компьютера. В комплексе Икар оцифровка звука выполняется профессиональным звуковым адаптером STC-H189, при этом используется 16-разрядная импульсно-кодовая модуляция PCM.

Использование профессионального звукового адаптера позволяет получить при работе следующие характеристики входного и выходного тракта:

·         частота дискретизации от 2 000 до 48 000 Гц (выбирается пользователем);

·         соотношение сигнал/шум в полосе пропускания 5 000 Гц — не менее 80 дБ, 20 000 Гц — не менее 75 дБ;

·         коэффициент нелинейных искажений не более 0,02%;

·         неравномерность АЧХ в полосе пропускания в пределах 1дБ

Внешние подключения к источникам сигнала осуществляются через выносной блок сопряжения ВСС-03. Этот блок допускает подключение к стандартным линейным несимметричным входам и выходам звукового адаптера и к микрофонному входу. Для прослушивания звука к блоку сопряжения подключаются головные телефоны (рис. 50).

 

 

Рис. 50. Инструментальный комплекс анализа и очистки от шума звуковых сигналов Икар

 

Что касается программного обеспечения, то в состав комплекса входит несколько программ:

·         программа визуализации, анализа и очистки от шума звуковых сигналов в реальном времени SIS:

·         программа очистки звуковых сигналов от шума Sound Cleaner;

·         программа ускоренной текстовой расшифровки фонограмм речи STC-S122 (компьютерный транскрайбер)

Состав программ и их возможности определяются вариантом поставки комплекса Икар. Полный вариант поставки включает в себя все эти программы. Программы комплекса защищены от нелицензионного использования ключом электронной защиты HASP, подключаемым к порту LPT или USB.

Наилучший результат при решении большинства задач, для которых разрабатывался комплекс Икар, достигается при комплексном использовании всех входящих в него компонентов и программ.

Вот типичный сценарий использования программ комплекса.

Аналоговый сигнал (например, с магнитофона) вводится в персональный компьютер с помощью программы SIS и звуковой платы STC-H189. После этого проводится первичное редактирование, в процессе которого выделяются и сохраняются необходимые для работы участки звукового сигнала.

При удовлетворительном качестве сигнала его дословное содержание печатается с помощью компьютерного транскрайбера.

При неудовлетворительном качестве сигнала (недостаточной разборчивости речи) вся фонограмма или отдельные ее участки обрабатываются программой Sound Cleaner.

Наиболее зашумленные участки сигнала, особенно с быстрым изменением параметров шума обрабатываются и «расшифровываются» с помощью программы SIS. Эта же программа позволяет произвести подробный спектральный анализ сигнала при идентификационном исследовании и поиске следов фальсификации фонограмм, а также поверить характеристики аудиоаппаратуры.

Для работы с комплексом Икар требуется специальная подготовка, поэтому в состав комплекса входит три руководства:

·         сборник научно-методических рекомендаций по практическому использованию программы;

·         сборник научно-методических рекомендаций по очистке от шума и установлению дословного содержания низкокачественных фонограмм речи;

·         сборник научно-методических рекомендаций по выполнению криминалистических экспертиз

Кроме того, сотрудники центра речевых технологий берутся за один день обучить пользователей комплекса основам работы (инсталляция и настройка программного обеспечения,  тестирование платы и т.д.).

 

5.3 Программа SIS

 

Ядром комплекса Икар является программа визуализации, анализа и очистки от шума звуковых сигналов SIS. С помощью этой программы можно также вводить и редактировать звуковые сигналы.

Программа SIS (рис. 3-13) позволяет решать наиболее сложные задачи исследования речевых фонограмм, например:

·         установление аутентичности фонограмм (выявление следов аналогового и цифрового монтажа);

·         идентификация личности по фонограммам речи низкого качества и малой продолжительности (на русском и иностранных языках);

·         тестирование и идентификация аппаратуры записи-воспроизведения;

·         сегментация фонограмм переговоров большой продолжительности (выделение речи определенного диктора или дикторов);

·         очистка от шума и текстовая расшифровка наиболее низкокачественных фонограмм речи

 

 

Рис. 51. Программа SIS комплекса Икар

 

На рис. 52 показано меню подсистемы анализа звука в комплексе Икар.

 

Рис. 52. Средства анализа звука в комплексе Икар

 

Средства очистки звукового сигнала от шума и текстовой расшифровки фонограмм речи, доступные в программе SIS, впечатляют.

Программа SIS может выполнять частотную коррекцию и подавление гармоник в ручном или в автоматическом режиме с помощью цифрового графического эквалайзера. Этот эквалайзер имеет  2048 спектральных полос и динамический диапазон 92 дБ.

Адаптивная коррекция спектра позволяет подавлять мощные частотные составляющие и усиливать слабые, компенсировать искажения, вызванные неравномерностью амплитудно-частотной характеристикой АЧХ канала записи или связи.

Программа SIS позволяет выделить сигнал на уровне тональных и регулярных помех, например, речь на фоне медленной музыки. Возможно удаление любого вида шумов и помех для стереофонических фонограмм с применением стереофонической фильтрации сигнала.

Сигнал может быть выделен на фоне широкополосных шумов, имеющих случайно изменяющиеся спектральные компоненты на многих частотах (такие как шумы каналов связи, уличный шум). Для этого применяется адаптивная фильтрация, в том числе по образцу шума с автоматическим определением такого образца, адаптивная фильтрация импульсных помех и адаптивное подавление нежелательных гармоник сигнала.

С помощью программы SIS можно выполнить коррекцию тембра — ограничить частотную полосу сигнала и выполнить подстройку под индивидуальные особенности слуха.

Если сигнал исказился в результате ограничения по амплитуде, то программа SIS компенсирует возникшие при этом нелинейные искажения. Такое искажение может возникнуть, например, при слишком высокой громкости записываемого звука.

Программа может также выполнять динамическую обработку сигнала, выравнивая громкость, устраняя амплитудные выбросы, а также усиливая участки с малым уровнем амплитуды.

При необходимости монофонический сигнал может быть преобразован в псевдостереофонический сигнал или композитный стереофонический сигнал с регулируемым временем задержки.

Программа может корректировать скорость воспроизведения сигнала без искажения тембра голоса. Заметим, что такие искажения появляются при изменении скорости воспроизведения обычного магнитофона.

Можно также обеспечить циклическое воспроизведение выделенных фрагментов звука.

Ниже мы перечислили средства редактирования и подготовки звукового сигнала к исследованию. Доступные пользователю программы SIS:

·         нормализация сигнала (по амплитуде или в интервал времени);

·         операции с константами (умножение, деление, сложение, вычитание);

·         линейное преобразование;

·         удаление, вставка, копирование, перемещение (в другое окно);

·        сглаживание;

·         смешивание сигналов;

·         инверсия;

·         реверс;

·         высокоточная повторная дискретизация.

В составе программы SIS имеются средства тестирования каналов ввода и вывода. Это генератор тестовых сигналов, средства автоматизированное тестирование сквозного звукового тракта, средства снятия основных характеристик каналов ввода и вывода звука (соотношение сигнал/шум, коэффициент нелинейных искажений, АЧХ).

 

5.4 Программа очистки от шума в реальном масштабе времени Sound Cleaner

 

Рассмотренная ранее программа SIS позволяет выполнять обработку заранее записанных звуковых сигналов. Что же касается программы Sound Cleaner, то с ее помощью можно выполнять очистку от шума звукового сигнала в реальном времени. По своим возможностям очистки сигнала от шума эта программа аналогична программе SIS.

 

5.5 Программа ускоренной текстовой расшифровки фонограмм речи

 

Программа ускоренной текстовой расшифровки фонограмм речи сочетает в себе функциональные возможности цифрового магнитофона, текстового редактора и специальных средств связи звука с текстом. Такая программа называется компьютерным траскрайбером.

При работе с транскрайбером комплекса Икар обеспечивается мгновенный доступ к любому записанному фрагменту фонограммы посредством «перемотки» или поиском «по тексту», воспроизведение в режиме «кольцо». В процессе воспроизведения возможна коррекция темпа речевого сигнала.

Специалисты компании «Центр речевых технологий» отмечают, что на практике применение компьютерного транскрайбера дает, как минимум, трехкратное увеличение скорости текстовой расшифровки речевых фонограмм.

Эта технология гарантирует сохранность записанной информации, утрата которой вполне возможна при использовании обычного магнитофона для многократного прослушивания записи. Кроме того, обеспечивается сохранность дорогостоящей аудиотехники, что тоже имеет определенное значение.

 

5.6 Программа VisiVoice

 

Программа VisibleVoice (рис. 53), созданная  в компании «Центр речевых технологий»,  может применяться для тестирования и постановки слуха и голоса, при изучении иностранных языков, а также для настройки музыкальных инструментов.

С помощью этой программы можно демонстрировать динамические характеристики звука в музыкальном центре, в выставочном павильоне, на дискотеке или на большом экране.

 

 

Рис. 53. Программа 3-мерного графического отображения спектра звукового сигнала в реальном времени VisiVoice

 

При использовании программы VisiVoice Вы можете выбрать два спектральных диапазона:

·         вокальный диапазон 65-1000 Гц в логарифмическом масштабе;

·         общий диапазон 20-4500 Гц в линейном масштабе

Работая в вокальном диапазоне, можно оценить свои способности исполнения музыкальных фрагментов. Работая в общем диапазоне, можно оценить мелодические характеристики голоса, а также правильность произношения звуков, например, при изучении иностранного языка.

В левой части главного окне программы VisiVoice (рис. 53)  отображается речевой спектр и изменяющаяся диаграмма. В провом окне отображается «стоп-кадр» диаграммы голоса или любой зафиксированный по Вашему желанию фрагмент.

В верхнем левом углу главного окна программы находится эквалайзер. Пять ручек эквалайзера позволяют изменять спектр сигнала для более подробного изучения выбранных участком спектра. Три кнопки, расположенные  справа от движков эквалайзера, позволяют установить эти движки в стандартные позиции.

 

Краткий анализ материала

 

Мы узнали, как происходит преобразование звуковых колебаний воздуха в колебания электрического тока, а затем в поток чисел, удобный для компьютерной обработки.

Рассмотрели виды микрофонов — устройств, предназначенных для улавливания звука и его преобразования в колебания электрического тока. Изучили компьютерные микрофоны, скомбинированных с головными телефонами, а также об основном преимуществе применения именно таких микрофонах. Напомним, что эти микрофоны обеспечивают постоянный уровень звукового сигнала за счет постоянства расстояния между микрофоном и ртом говорящего человека. Именно такие микрофоны рекомендуются для систем распознавания речи.

Нам известно, что колебания электрического тока от микрофона преобразуются в форму, приемлемую для компьютера (поток чисел) с помощью специального устройства — аналого-цифрового преобразователя.

Ключевыми параметрами аналого-цифрового преобразователя являются количество уровней квантования и частота дискретизации. Согласно теореме Котельникова, частота дискретизации должна быть по крайней мере в два раза выше максимальной частоты спектра преобразуемого сигнала. Так как наиболее информативная часть спектра человеческой речи лежит в диапазоне 300-4000 Гц, то минимально необходимая частота преобразования составляет 8000 Гц.

Для снижения уровня помех используются частотные фильтры, которые делятся на фильтры верхних и нижних частот, на пропускающие и заграждающие полосовые фильтры. Пропускающий полосовой фильтр позволяет вырезать из всего диапазона звуковых частот16-20 000 Гц полосу 300-4000 Гц, важную для работы систем распознавания речи.

Частотные фильтры могут быть реализованы как радиоэлектронные устройства или как программные модули. Программные модули позволяют использовать в системах синтеза и распознавания речи стандартные звуковые адаптеры.

Для снижения помех при малом уровне громкости применяется динамическое сжатие звукового сигнала. Это операция может быть выполнена как с помощью электронного устройства, так и программно, однако в последнем случае невозможно избавиться от шума квантования.

Мы также рассмотрели цифро-аналоговый преобразователь, с помощью которого поток цифровых данных может быть преобразован в звук. При этом указали о необходимости использования фильтра верхних частот для сглаживания импульсов, появляющихся на выходе цифро-аналогового преобразователя.

В практической части главы изучили установку драйвера звукового адаптера, о подключении микрофона и головных телефонов. Научились настраивать чувствительность микрофона и записывать звук в виде wav-файлов, используя для этого приложение Sound Recorder.

Изучили о некоторых программных инструментальных средствах, с помощью которых можем приступить к самостоятельным исследованиям в области распознавания и синтеза речи.

Узнали, что для просмотра волновой формы сигнала нет необходимости приобретать дорогостоящий пробор — осциллограф. Все исследования можно сделать при помощи специализированного программного обеспечения, такого как редактор GoldWave.

Рассказывая о возможностях программы GoldWave, сказали, что эта программа может выступать не только в роли осциллографа, но и в роли мощного редактора звуковых файлов, а также инструмента для записи и проигрывания таких файлов.

Программа GoldWave может накладывать на обрабатываемый файл частотные и другие фильтры, выполнять нормализацию уровня сигнала и сохранять обработанный звук в новом файле.

Работая с программой GoldWave, научились записывать речевые файлы, а также вырезать фрагменты этих файлов для дальнейших исследований, сохраняя их в отдельных файлах.

На примере осциллограммы повествовательного предложения из букваря «Мама мыла раму» показали, как можно выделить лексические элементы — слоги и фонемы. Также исследовали изменение интонации в повествовательных и вопросительных предложениях.

Исследовали спектр звукового сигнала.

Ознакомились с тем, как получить спектрограммы звуковых сигналов при помощи программы GoldWave, а также при помощи специализированной системы анализа речи SAS. Узнали о различных способах визуального представления спектра и спектрограмм, а также научились пользоваться анализатором спектра, входящим в состав системы SAS, и настраивать параметры этого анализатора.

В конце привели примеры о профессиональных инструментальных средствах, предназначенных для работы со звуком, разработанные компанией «Центр речевых технологий». Эти средства позволяют выделять голос из шумов, проводить сложнейшую обработку и исследование звуковых сигналов.

Программа VisiVoice, созданная в этом же центре, имеет более ограниченное применение. Она будет полезна музыкантам и тем, кто занимается изучением иностранных языков.

 

 

 

Список источников литературы

 

1. Куликов Г.В. Бытовая аудиотехника. Устройство и ремонт. – М.: ИРПО, 2001. - 152 с.

2.Бродский М.А. Аудио- и видеомагнитофоны. - Мн.: Выш. шк., 1995 -  476 с.

Даниленко Б.П., Манкевич И.И. Ремонт магнитофонов: Справочное пособие. – Мн.: Беларусь, 1989. - 494 с.

3.Загуменков А.П. Компьютерная обработка звука. – М.: ДМК, 2001. - 384 с.

4.Тематическик статьи из журнала «Install Pro» по акустической технике  за 2001 г.

5. http://www.frolov-lib.ru/books/hi/ch02.html-«Синтез и распознавание речи. Современные решения»© А.В. Фролов, Г.В. Фролов, 1991-2008

 

 

 

 

 

 

 

 

 

 

 

 

 

6

 

Информация о работе Исследование параметров звукоанализа при помощи цифрового микрофона записываемого на компьтер