Síntese da fala é a simulação gerada por computador da fala humana. É usada para traduzir informação escrita em informação auditiva onde é mais conveniente, especialmente para aplicações móveis como e-mail com voz e mensagens unificadas . Também é usado para auxiliar os deficientes visuais, de modo que, por exemplo, o conteúdo de uma tela de exibição possa ser lido automaticamente em voz alta para um usuário cego. A síntese da fala é a contrapartida do reconhecimento da fala ou da voz . O primeiro esforço de síntese de fala foi em 1779, quando o professor russo Christian Kratzenstein criou um aparelho baseado no trato vocal humano para demonstrar as diferenças fisiológicas envolvidas na produção de cinco longos sons de vogais. O primeiro sintetizador de voz totalmente funcional, Homer Dudley's VODER (Voice Operating Demonstrator), foi mostrado na Feira Mundial de 1939. O VODER foi baseado na pesquisa do vocoder (codificador de voz) dos Laboratórios Bell de meados dos anos trinta.
>i> Prótese de voz é a fala gerada por computador para pessoas com deficiências físicas que dificultam a fala de forma inteligível. Grande parte da pesquisa nesta área integra texto e geração de fala, já que as deficiências que criam problemas de fala freqüentemente dificultam a entrada de texto também. Dada a velocidade e fluidez da conversa humana, o desafio da prótese de fala é contornar essas dificuldades. O principal objetivo da pesquisa é criar um sistema protético que se assemelhe o mais possível à fala natural, com o menor número de entradas necessárias por parte do usuário. Os sistemas de próteses de fala também possibilitam que pessoas com deficiência visual utilizem computadores.
>i>Multimodalsíntese de fala (por vezes referida como audio-visualsíntese de fala) incorpora um rosto animado sincronizado para complementar a fala sintetizada. As mesmas dificuldades subjacentes à deficiência da fala de um indivíduo dificultam frequentemente a sua capacidade de comunicar através de expressões faciais. Embora a fala sintetizada seja cada vez mais parecida com a vida, pode levar algum tempo até que ela se aproxime da capacidade de nuances da fala natural. Os sistemas multimodais incorporam um meio de adicionar sinais não-verbais à fala (como abanar a cabeça, sorrir e piscar, por exemplo) para tornar o significado do usuário o mais claro possível.