Увага! Всі конференції починаючи з 2014 року публікуються на новому сайті: conferences.neasmo.org.ua
Наукові конференції
 

ПРОЕКТИРОВАНИЕ РЕЧЕВЫХ ТЕХНОЛОГИЙ В ЦЕНТРАХ ОБСЛУЖИВАНИЯ НАСЕЛЕНИЯ

Автор: 
Гульмира Ермагамбетова (Костанай, Казахстан)

Диссертационная работа посвящена разработке теоретических основ и выработке практических решений проблемы применения речевых технологий в центрах обслуживания населения (ЦОН) с целью повышения открытости и облегчения доступа населения к информации и услугам, а также рассматриваются вопросы применения казахского жестового языка для возможности построения комплексных точек доступа, позволяющих обращаться в ЦОН гражданам-инвалидам для получения государственных услуг. Актуальность проблемы доступа людей к информации на переходном этапе продвижения страны и мира к информационному обществу не вызывает сомнений. Быстро развивающиеся информационные и телекоммуникационные технологии проникают во все сектора экономики: в производство, в сферу услуг, в образование, в государственное управление, банковскую сферу, в частный бизнес и др. Наблюдается тенденция к социализации информации – нарастанию количества информации, которая необходима людям в их повседневной жизни. Помимо наличия знаний и информации, для развития информационного общества необходимо создание условий для того, чтобы члены общества имели доступ к информации и могли ее использовать. Бурное развитие технологий обостряет существующую во всем мире проблему информационного неравенства. Для Казахстана сложилась ситуация, когда темпы роста информатизации оказались выше, чем темпы развития компьютеризации и коммуникаций. Это привело к обострению проблемы неравного доступа граждан к информации, особенно малообеспеченных людей и населения отдаленных регионов. В качестве одного из средств смягчения этой трудной проблемы в диссертации рассматриваются речевые технологии, достигшие за последние годы достаточно высокого уровня качества и способные обеспечить гражданам дополнительный, а иногда и единственный, канал доступа к информационным и сервисным системам. Создание телефонных сервисов самообслуживания, речевых порталов и речевых браузеров повышает эффективность и открытость ЦОН и решает актуальную народнохозяйственную и социальную задачу облегчения доступа населения к информации и услугам и обуславливает важность и необходимость выполнения исследований в данной области.

Речевые технологии применяются для создания нового типа интерфейса пользователей с информационно-справочными и управляющими системами с целью повышения эффективности этих систем.

Наибольший интерес в этой связи представляют технологии распознавания и синтеза речи и идентификации голоса.

Распознавание речи – это преобразование акустического сигнала с человеческой речью в текст. Несмотря на несколько десятилетий исследований в этой области, практические результаты были достигнуты лишь в 1980-е годы, когда удалось перейти от распознавания отдельных слов к распознаванию слитной речи. В 1990-х годах благодаря качественному скачку в развитии компьютерной техники и применению ряда новых идей в алгоритмах обработки речи удалось добиться результатов, обеспечивающих уже приемлемую для разработки коммерческих интеллектуальных приложений точность распознавания, и создать дикторонезависимые распознаватели, в том числе с поддержкой русского языка.

Интернет-консорциум W3C (Word Wide Web Consorcium) разработал ряд стандартов, относящихся к распознаванию речи: SRGS 1.0 – Speech Recognition Grammar Specification [1], формализующий процесс создания грамматик для приложений, SISR 1.0 – Semantic Interpretation for Speech Recognition [2], определяющий процессы семантической интерпретации, и некоторые другие.

Синтез речи – это процедура превращения входного орфографического текста в звучащую речь. Простейшие синтезаторы осуществляют конкатенацию и воспроизведение предварительно записанной речи и имеют в связи с этим ограничения по количеству воспроизводимых слов и фраз.

В синтезаторах с неограниченным словарем (программы text-to-speech) элементами речи являются фонемы или слоги, и в них применяется метод синтеза по правилам, а не компоновка фраз из отдельных слов. Для многих языков, созданы "искусственные дикторы", которые вполне удовлетворительно имитируют произвольную слитную речь человека и могут успешно работать в практических применениях для озвучивания произвольного, динамически меняющегося текста. Для описания особенностей воспроизведения речи, таких как громкость, высота звука, скорость, фонетическая транскрипция (произношение) и т.д., был разработан стандарт SSML 1.0 –Speech Synthesis Markup Language [3].

Идентификация голоса личности – это определение соответствия поступившего речевого сигнала индивидуальному образцу речи (отпечатку голоса), хранящемуся в памяти системы идентификации.

Существуют текстозависимые методы идентификации и методы идентификации голоса личности по произвольной слитной речи. Было предложено много идей по преодолению сложностей, возникающих из-за неустойчивости речевого сигнала, влияния шумов, эмоционального состояния диктора, состояния его речевого аппарата, что позволило достичь к настоящему времени уровня надежности, достаточного для применения этой технологии в практических системах верификации и защиты от несанкционированного доступа. Применение этой технологии может оказаться целесообразным при организации телефонных речевых интерфейсов к услугам центров обслуживания населения.

 

Речевые технологии значительно расширяют возможности по созданию интеллектуальных телефонных приложений, которые дают возможность пользователям по телефону получать информацию и заказывать услуги самостоятельно, без участия оператора, в интерактивном режиме самообслуживания. Так, применение распознавания речи позволит абоненту осуществлять выбор в меню не тональным набором, а произнося голосовые команды, что сделает общение с системой более привлекательным за счет более дружественного и естественного интерфейса.

Использование в приложениях синтеза речи даст возможность абонентам получать в автоматическом режиме, без участия операторов, динамическую информацию.

Применение средств идентификации личности по голосу предоставит абонентам дополнительную защиту при доступе к конфиденциальной информации.

Наконец, использование автоматического распознавания речи позволяет создавать такие системы, которые было практически невозможно реализовать, имея в качестве интерфейса только тональный набор.

Принципиальной особенностью таких систем является их ориентирование на понимание речи самых разных дикторов, разного возраста, мужчин, женщин и молодежи, и даже говорящих с акцентом. Такое свойство позволяет организовать активный двухсторонний диалог и в режиме реального времени формировать и обрабатывать результаты серии запросов к удаленной базе данных, хранящей актуальную информацию предметной области знаний. Конечной целью диалога может являться получение актуальной информации в реальном времени или формирование заявки на оказание услуг, а в системах управления – получение информации о состоянии объекта и формирование команды или распоряжения. Информация, полученная из баз данных или от систем управления, анализируется, обрабатывается и доставляется абонентам или персоналу в виде аудио сообщений.

Взаимодействие с хранилищами контента и сервисными системами может быть реализовано с помощью разнообразных интерфейсов: путем непосредственного доступа в базы данных, через web-сервисы, с использованием электронной почты и др.

Сценарий ведения диалога настраивается специально под нужды конкретного приложения. По желанию заказчика кроме русскоязычного диалога система может быть настроена на ведение диалога на других языках, например казахском, английском, немецком, турецком, китайском и т.д.

 

Достоинства центра обслуживания населения с речевыми технологиями

 

Применение речевых технологий в центрах обслуживания населения дает следующие преимущества:

  • обеспечение непрерывного цикла работы – 7x24;

  • снижение затрат, за счет более эффективного использования телефонных каналов связи;

  • сокращение времени обслуживания входящих заявок;

  • повышение качества обслуживания клиентов;

  • для заказа услуг клиенту не требуются какие-либо специфические технические средства, для диалога может быть использован любой телефон;

  • возможность интеграции с существующими в организации автоматизированными информационными системами;

  • создание единого технологического цикла прием – исполнение заявки;

  • возможность интеграции с различными Интернет технологиями;

  • снижение влияния человеческого фактора;

  • сокращение затрат на подготовку и обучение персонала;

  • сокращение численности персонала;

  • экономия за счет сокращения производственных площадей.

Литература:

  1. http://www.w3.org/TR/speech-grammar/

  2. http://www.w3.org/TR/semantic-interpretation/

  3. http://www.w3.org/TR/speech-synthesis/

  4. Жожикашвили В., Петухова Н., Зацепин А., Азаров В. Современные технологии управления в диспетчерской службе такси // Проблемы управления, 2006, № 2, c. 32-35.

  5. Билик Р., Мясоедова З., Неснова Н., Шпанов С. Электронные платежные системы и речевые технологии // Проблемы управления, 2006, № 2, с. 35-38.

  6. Zhozhikashvili V., Farkhadov M., Petukhova N. and Zhozhikashvili A. The first voice recognition applications in Russian language for use in the interactive information systems // Proceedings of the Ninth International Conference “Speech and Computer” SPECOM’2004, Saint-Petersburg, 2004, pp. 304-307.

Научный руководитель:

кандидат технических наук, доцент, зав. кафедры информатики и математики Костанайского государственного университета им. А. Байтурсынова Кудубаева Сауле Альжановна.