Автоматический синтез речи: взгляд лингвиста

Что первым придет в голову, если перед нами встанет задача автоматического порождения речи по тексту? Вероятнее всего, мы позаботимся о расстановке пауз между словами, постараемся правильно выбрать интонацию фразы и расставить смысловые акценты. Обязательно построим фонетическую транскрипцию: орфография и произношение далеко не всегда однозначно соответствуют друг другу, о чем компьютер не узнает без нашей помощи. Полученную транскрипцию переведем в цифровой сигнал, который затем преобразуем в звуковые колебания.

Все перечисленные пункты являются важными и нужными. Однако они не будут выполнены корректно без предварительной подготовки: определения границ предложений, расшифровки сокращений, расстановки ударений. Эти (и многие другие) задачи объединены под общим названием нормализации или лингвистической обработки текста. В данной статье мы рассмотрим нормализацию с языковой точки зрения и приведем ее программную реализацию.

Продолжить чтение, выразить свое мнение в комментариях и подписаться на наш канал можно на сайте Хабр - Читать полную версию.