SAPI (Speech Application Program Interface) é uma interface de programa de aplicação (API) fornecida com o sistema operacional Microsoft Windows que permite aos programadores escrever programas que oferecem capacidades de conversão de texto em fala e reconhecimento de fala . As interfaces são fornecidas para as linguagens de programação C, C++ e Visual Basic . Usando a arquitetura COM (Component Object Model) da Microsoft, o SAPI é a interface de programa de aplicação de fala mais amplamente utilizada atualmente. No futuro, a Microsoft planeja incorporar a tecnologia de fala usando SAPI em seu sistema operacional.
SAPI tem sete componentes principais:
>ul> b>Voice Command: Voice Command é uma interface de alto nível que fornece reconhecimento de comando e controle de fala para aplicações. Comando de Voz permite que um desenvolvedor crie um menu de comando de voz que contém comandos de voz, tais como "novo arquivo" ou "enviar e-mail para [email protected]" que um usuário fala em um microfone ou outro dispositivo de áudio. O usuário pode controlar o computador sem precisar de um teclado ou mouse. b> Ditado de Voz: Ditado de Voz permite que o usuário dite em qualquer aplicativo que suporte o reconhecimento de voz. Uma caixa de edição invisível ou virtual recebe o texto que o usuário dita e exibe o texto em uma janela da aplicação. O Ditado de Voz permite a formatação do texto, como capitalização, tradução de palavras de pontuação em símbolos de pontuação, entradas de glossário incorporadas e correção da última palavra dita ou de uma palavra selecionada. Os aplicativos que usam Ditado de Voz classificam a fala por tópicos que usam diferentes estilos de linguagem. Os tópicos incluem discurso por e-mail, escrita formal ou discurso de programação. O Ditado de Voz armazena as informações para cada tópico no seu disco rígido. b> Texto de Voz: Texto de Voz converte texto em fala que é tocado por alto-falantes de computador ou enviado por uma linha telefônica. A voz reproduzida tem vários modos diferentes, cada um com uma voz diferente. Voice Telephony: Voice Telephony usa controles de telefonia que são similares aos controles do Windows. Os controles do Windows incluem botões, caixas de listagem, controles deslizantes e outros objetos que podem ser manipulados por um mouse ou teclado. Os controles de telefonia são códigos que reconhecem respostas faladas, como Sim ou Não, seu número de telefone, a data e a hora. Os controles telefônicos criam um diálogo entre o usuário e o computador. Por exemplo, um usuário liga para um fornecedor para pedir um item. O usuário então responde a várias perguntas falando para o receptor do telefone. Os controles telefônicos reconhecem essas respostas e as enviam para a aplicação que processa as respostas. Os controles telefônicos também lidam com condições de erro (estas são comuns com números falados ou quando o chamador não responde) e variações de respostas como "4 de janeiro" ou "amanhã" b> Reconhecimento Direto de Fala: Esta é uma interface de baixo nível similar ao Comando de Voz. A principal diferença é que o Reconhecimento Directo de Voz fala directamente para o motor da fala. Isto dá à aplicação mais controlo e velocidade. >b>Direct Text To Speech : Esta é uma interface de baixo nível semelhante ao Voice Text que também fala directamente para o motor da fala. >b>Audio Objects: Um objecto de áudio diz ao motor da fala onde obter o seu áudio.
O futuro da tecnologia da fala incluirá produtos que lhe permitem fazer coisas como navegar na Internet usando a fala e perguntar à sua televisão o que está a mostrar esta noite. Os desenvolvedores de software estão desenvolvendo aplicativos que entendem conceitos. Por exemplo, se você disser ao seu computador para imprimir um determinado documento, sua aplicação saberá se deve imprimi-lo em sua impressora ou na impressora da rede. A tecnologia da fala é importante para profissionais médicos, policiais, deficientes físicos, assim como para muitos utilizadores empresariais e domésticos.