Skip to content

SURVEY SOBRE PROCESSAMENTO DE SINAL DE SOM

março 26, 2011

Daniella de Menezes Castelucci

Mestranda em Engenharia da Informação

Universidade Federal do ABC – UFABC

Março/2011

Resumo: Dentre as diversas tecnologias existentes hoje para aproximar os computadores dos seres humanos destaca-se a síntese de voz. Esta possibilita ao computador “ler” o que é digitado pelo usuário ou o que está em um arquivo. Esta tecnologia tem diversas aplicações, como ensinar a pronúncia correta de palavras em idiomas estrangeiros, possibilitar a leitura de textos por parte de deficientes visuais e facilitar absorção de conteúdo de aprendizado. Este artigo descreve o processo de digitalização de sons e, em seguida, apresenta as tecnologias mais recentes nesta área.

Palavras-chave: Processamento digital de sinais de voz, síntese, fala artificial

Abstract: Amongst several existing technologies meant to approximate computers to human being, the speech synthesis stands out. It allows computer to ‘read’ what is typed by the user or a file’s contents. This technology has several applications, like teaching correct pronunciation of foreign words, allow visual handicapped people to have texts read and can be a learning aid. This article describes the sound digitalization process and, further, presents the most recent technologies in this area.

Keywords: Speech digital processing, synthesis, artificial speech

 

  1. 1.   INTRODUÇÃO

O processamento de sinais de voz é uma área da linha de pesquisa de Processamento de Sinais Áudio-visuais, sendo esta pertencente à área de Processamento Multimídia.

Para que um som seja tratado ou manipulado por um computador, é preciso que este som seja convertido em um sinal digital. Na seção 2 deste artigo é apresentada uma breve explicação sobre a obtenção do sinal de som e da diferença entre sinais elétricos e digitais.

Os primeiros estudos na área de processamento digital de sinais (Digital Signal Processing – DSP) iniciaram-se na década de 60, quando empresas de telefonia passaram a investir massivamente nesta área motivadas pelo desenvolvimento de computadores digitais e da eletrônica transistorizada. O principal padrão para codificação digital de sinais de voz é o PCM (Pulse Code Modulation), e a principal forma de codificação é o LPC (Linear Predective Coding), cobertos na seção 3. Apesar de seus estudos terem sido iniciados há algumas décadas, ainda hoje aplicações de ponta utilizam seus princípios.

A seção 4 apresenta os produtos ou serviços mais conhecidos que foram desenvolvidos baseados em processamento de sinal digital. Entre estes estão brinquedos, páginas de internet e suporte para aprendizado.

Na conclusão é feita uma comparação entre as comunicações antes e depois do desenvolvimento das pesquisas em processamento de sinais digitais e uma ideia do que pode estar por vir em um futuro próximo.

  1. 2.   Digitalização de sinais de voz

O som é formado de ondas sonoras, que representam uma função de tempo e frequência emitida. Conforme mencionado anteriormente neste artigo, um sinal de som que chega ao computador é, na verdade, um sinal elétrico que foi, anteriormente, uma onda sonora. Quando um microfone captura uma onda sonora e a transforma em sinal elétrico, o computador a recebe de forma analógica. Porém, o computador só faz cálculos digitais – e por isso transformações como a PCM são essenciais para a manipulação do sinal recebido. O caminho inverso – reprodução do som – é feito seguindo-se o mesmo princípio: o sinal digital é convertido em sinal analógico, ou seja, impulsos elétricos, que por sua vez chegam às caixas de som e transformam-se em vibrações. Assim como as ondas sonoras, o sinal elétrico é formado de ondas senodais:

Imagem retirada de http://www.eca.usp.br/prof/iazzetta/tutor/acustica

O computador lida somente com sinais digitais, ou seja, com números binários cujos valores podem ser somente 0 ou 1. Desta forma, são aplicadas técnicas (descritas nas seções subsequentes) para que este tipo de sinal seja convertido de modo similar ao exemplo abaixo:

  

Imagem retirada de: material de apoio. Kurashima, C. 2011

            Como se pode observar, foram retiradas amostras do sinal, estas amostrar converteram-se em valores e cada um desses valores foi transformado em um valor binário de 8 bits. A seção 3.2 trata deste tipo de transformação com mais detalhes.

  1. 3.   DIGITAL SIGNAL PROCESSING

As raízes do DSP datam dos anos 60, quando tornaram-se disponíveis os computadores digitais. Como estes computadores eram muito caros na época, as aplicações de DSP limitavam-se a áreas muito críticas, principalmente radar e sonar, por envolver risco à segurança nacional, exploração de petróleo, que significa altos investimentos, exploração do espaço, pela unicidade e impossibilidade de reproduzir dados, e imagens médicas, que podem salvar vidas.

Nos anos 80, devido à popularização do computador pessoal, as aplicações do DSP estenderam-se a novas áreas, não motivadas necessariamente por necessidades políticas e militares. Nesta época, na América do Norte, o DSP era um curso da graduação em engenharia elétrica  (graduate). Nos anos 90, passou a ser uma graduação básica (undergraduate), e hoje já é um conhecimento básico que deve ser dominado por cientistas e engenheiros. [6]

A imagem abaixo apresenta um esquema de conversão dos sinais analógicos para os digitais e vice-versa, que formam a base do processamento de sinais digitais (os sinais são obtidos de maneira analógica, convertidos para a forma digital – binária -, tratados da maneira necessária e então reconvertidos para a forma analógica.

 

Imagem retirada de http://www.cs.indiana.edu/~port/teach/641/signal.proc.html

3.1. Aplicações

O estudo do DSP trouxe grandes revoluções em diversas áreas, como telefonia, áudio, imagens, militar e outras. Especialmente nas aplicações de áudio, o DSP revolucionou a maneira como os dados eram processados.

3.1.1. Música

Quando uma música é gravada em um estúdio, normalmente cada instrumento e voz são tratados em um canal diferente, de modo que o engenheiro de som tem grande flexibilidade para montar o produto final. O processo de combinar as gravações de cada canal em um produto final é chamado de mixagem, e é durante este processo que entra a possibilidade de processar os sons que foram gravados (de origem analógica, e depois transformados em digitais a partir dos sinais elétricos) de maneira a alterar o resultado inicial ou melhorá-lo.

O processamento de sinais digitais permitiu a adição de ecos e repercussão ao som durante o processo de união dos canais de gravação – ruídos que são normalmente apagados durante a gravação em estúdio – para melhorar a impressão de som ao vivo ou em uma catedral, por exemplo.

3.1.2. Voz

A geração e reconhecimento de voz são usados na comunicação homem-máquina para substituir a abordagem tradicional de comunicação através de mãos e olhos.

A geração de voz pode utilizar dois recursos: a gravação digital e a simulação de voz. Na primeira, a voz de um humano é gravada e digitalizada para ser usada após passar por uma compressão. Quando for usada, a frase (ou palavra, ou discurso) é descomprimida e convertida novamente em sinal analógico quando reproduzida pelos alto-falantes. A simulação de voz é mais complicada. O trato vocal humano é uma cavidade acústica que ressoa as frequências de cada um dos fonemas de acordo com o formato e tamanho da câmara (posição da língua, dentes, lábios e bochecha). A vibração do ar inicia-se nas cordas vocais. A geração automática de voz imita esta estrutura para gerar sons semelhantes aos produzidos pelos humanos. Mesmo sendo mais trabalhosa, esta foi a abordagem usada por uma das primeiras histórias de sucesso do DSP, um equipamento de auxílio à aprendizagem de fala utilizado por crianças, chamado Speak & Spell, que utiliza codificação LPC. [6] Este brinquedo foi desenvolvido em 1978, e comercializado até 1992, pela Texas Instruments. Existem vários emuladores deste brinquedo disponíveis na Internet, entre eles um que foi criado em Flash em 2002 e que está disponível em http://www.speaknspell.co.uk. Mais detalhes sobre este brinquedo e outras aplicações serão apresentados na seção 4.

Ainda mais difícil que a geração automática de voz é o reconhecimento de locutor. Infelizmente, ainda é muito difícil para os computadores atuais lidar com dados brutos sensoriais, como cheiro, tato e som, sendo que para humanos a habilidade de analisar este tipo de sinal é natural e intuitiva. O processamento de sinais digitais normalmente lida com o problema de reconhecimento de voz em duas etapas: extração do discurso e correspondência com um banco de vozes conhecidas. Cada palavra do sinal de entrada é analisada para que seja identificado o tipo de excitação e frequências ressonadas. Frequentemente estes sistemas estão limitados a algumas centenas de palavras e a cada novo locutor a base deve ser reconstruída. [6]

3.1.                Pulse Code Modulation – PCM

O PCM data da década de 30, quando Alec Reeves inventou este padrão no departamento de pesquisa do Laboratoire Central de Télécommunications (LCT), e seus estudos estendem-se até hoje. Segundo  o inventor, a “Pulse Code Modulation é uma criança com uma longa infância” [1]. É utilizado para comunicações através de fios, como nas centrais telefônicas. Através do PCM, a conversação telefônica é convertida de pulsos analógicos em um código digital. Isso possibilitou o barateamento da tecnologia de conversação internacional e melhorou a qualidade da voz transmitida.

O PCM baseia-se em três pilares:

a)    Amostragem: quando é obtida uma amostragem de um sinal analógico em um dado momento, o valor de amplitude obtido chama-se “amostra”. Se esta amostragem for obtida em intervalos irregulares em uma frequência alta em relação a este sinal analógico, é possível reconstruir o sinal original através de uma sequência de amostras. De acordo com o teorema de Nyquist, a taxa de amostragem deve ser igual ou superior a 2f, sendo f o limite superior da frequência de banda do sinal. Por exemplo, para uma banda de voz de 4 kHz, a taxa de amostragem deve ser de 8 kHz, e, portanto, o intervalo entre amostragens será de 125 microssegundos. A figura abaixo apresenta os intervalos de amostragem (traços brancos):


Imagem retirada de http://www.stefanelli.eng.br/webpage/a_multim.html

b)    Quantização: é a aplicação de intervalos de amplitude para a amostra. Cada amostra tem uma série de amplitudes distintas no sinal, e ao definir os intervalos de amplitude estes números são quantizados. O que determina o intervalo de amplitudes é a qualidade esperada para a transmissão. Estes intervalos serão números discretos ou inteiros. Aplicações de telefonia normalmente utilizam quantização de 8 bits, enquanto que compact discs utilizam uma taxa de 16 bits, apresentando, portanto, qualidade muito superior ao telefone. [2] A imagem abaixo apresenta a linha de sinal analógico (curva) e a linha de sinal quantizado de acordo com as amostras (retilínea):

 

Imagem retirada de: http://www.mathworks.com/help/toolbox/daq

 

c)    Codificação: significa transformar cada um dos valores de amplitude já quantizados em um valor binário. A amostra inicial, sinal de voz analógico, é representada por uma sequência de pulsos binários e expressa como um número binário. Os padrões PCM internacionais utilizam 8 bits para a codificação, permitindo, portanto, 256 valores de amplitude quantizados. Desta maneira, a taxa de PCM das linhas telefônicas é 8 kHz x 8 bit = 64 kbit/s.

 

3.2.                Linear Predictive Coding- LPC

A codificação LPC é uma forma de compressão de sinais digitais de áudio, usada principalmente no processamento de sinal de áudio e de voz que utiliza o modelo de predição linear.

A teoria da predição linear data dos anos 40, e é fundamental para diversas aplicações de processamento de sinais. Uma variação desta teoria é a identificação da direção de entrada de uma onda eletromagnética [8]. Esta teoria é aplicada na representação, modelagem, compressão e geração de ondas de voz.

O primeiro trabalho predição linear foi publicado em 1941 por Kolmogorov, que considerava o problema de extrapolação de tempo discreto aleatório. Outros pioneiros nesta área foram Levinson (1947), Wiener (1949) e Masani (1958). Estes últimos estenderam as ideias do caso de processo com multivariáveis. Até hoje é usada amplamente a Recursão de Levinson, considerada pelo autor “matematicamente trivial” [8].

Em 1966, os pesquisadores Saito e Itakura da NTT descreveram uma abordagem para a descriminação de fonemas e publicaram artigos importantes na área, como o “Analysis synthesis telephony based upon the maximum likelihood method” (1968) e o “Analysis synthesis telephony based on the partial autocorrelation coefficient” (1969).

A codificação linear preditiva é um método de codificação de voz que aplica um filtro digital que modela um segmento da onda sonora do discurso (segmento este chamado de frame) tornando possível armazenar a informação utilizando muito menos espaço que a gravação original. Os coeficientes e outros parâmetros são usados no processo inverso, para ressintetizar o som original.

3.2.1.   Passos da LPC

Primeiramente, o algoritmo corta um frame do sinal de voz criando interrupções no meio da amplitude de onda que dependem da duração do frame. Para evitar estas interrupções, é necessário reduzir gradualmente a amplitude das ondas até que esta seja zero.

A seguir, o sistema determina quais porções de cada frame (normalmente, cerca de 20 ms) contém voz e quais não contém. Para as porções que contém voz, o algoritmo irá medir a distância entre os pulsos aparentes, referenciada como F0. O algoritmo também mede a amplitude do frame.

O algoritmo de LPC aplica então um conjunto de coeficientes de filtro (que determinam a ordem da LPC – a ordem é a quantidade de coeficientes, normalmente entre 6 e 20) que servirão para reconstruir o modelo da onda no frame.

Este conjunto de coeficientes pode ser usado para reconstruir diversos pontos da amostra e recolocar os pulsos, como o F0, no lugar certo.

A figura abaixo mostra um exemplo de som codificado e decodificado através desta técnica:

 

Imagem retirada de http://health.tau.ac.il/Communication%20Disorders/noam/noam_audio/adit_kfir/html/lpc3.htm

  1. 4.   Aplicações de sintetização de voz

Nos últimos anos foram várias as aplicações de sucesso dos métodos de processamento de sinais de voz. A seguir vemos uma linha histórica destes aplicativos:

4.1.                Anos 60

Apesar de ter sido criada nos anos 30, somente em 1965 a ideia do PCM foi aceita como válida e recebeu uma medalha do United States Franklin Institute. Até então, mesmo com a transmissão por pulso sendo um motivo de preocupação para as companhias telefônicas, não havia sido implementada uma metodologia de codificação eficiente que pudesse tornar mais fácil e barato transmitir sinais de voz através de longas distâncias.

Com o PCM, foi possível converter o sinal elétrico de voz em sinais digitais que podiam ser comprimidos e, assim, transmitidos mais rápida e facilmente. Este padrão revolucionou a infraestrutura de telecomunicações, baixando o preço do serviço e permitindo a criação de novos padrões, como o GSM.

4.2.                Anos 70

Em junho de 1978 a Texas Instruments levou ao mercado o que foi considerado o primeiro uso comercial da tecnologia DSP. Este brinquedo foi o marco da primeira vez que uma voz humana foi gravada eletronicamente em um chip de silício.

O brinquedo Speak & Spell ajudava crianças a pronunciar os sons que eram digitados. A pesquisa foi iniciada em 1976 como um estudo de viabilidade de 3 meses com orçamento de U$ 25 mil.

 

Imagem retirada de http://www.ti.com/corp/docs/company/history/timeline/eps/1970/docs/78-speak-spell_introduced.htm

Depois do Speak & Spell, foram inaugurados ainda o Speak & Math, Speak & Read, Speak & Music e muitos outros. Apesar destes brinquedos terem sido desenvolvidos há mais de 30 anos, até hoje são usados como base para o desenvolvimento de brinquedos educativos.

4.3.                Anos 80

No ano de 1982 a Conferência Europeia de Administração Postal e de Telecomunicações (CEPT) criou o Grupe Spécial Mobile (GSM) para desenvolver um padrão de telefonia celular que pudesse ser usado por toda a Europa. A primeira fase das especificações do padrão GSM foram publicadas em1980, e a primeira rede GSM foi inaugurada em 1991 pela Radiolinja, da Finlândia, tendo suporte da infraestrutura garantido pela Ericsson.

Existem diferenças nas frequências escolhidas pelos operadores de telefonia GSM, porém, independente da frequência do serviço, a banda é dividida em timeslots para o uso de cada linha individual. Assim, é possível utilizar até 16 canais por frequência. Estes timeslots são agrupados em frames TDMA. A transmissão se dá em uma taxa máxima de 2 watts para as frequências 850 e 900 e 1 watt para 1800 ou 1900.

4.4.                Anos 90

O MPEG foi criado para satisfazer necessidades de manipulação de audio e vídeo. Quando o Moving Picture Experts Group (MPEG) iniciou a definição de padrões, levou em consideração a avaliação de empresas e institutos. Os codecs foram testados com base na complexidade computacional e qualidade percebida pelo ouvido humano a uma taxa de 1.5 Mbit/s. Esta taxa foi escolhida por ser a taxa aproximada de CDs de áudio. Após os codex terem sido aprovados, foram ainda melhorados pelo grupo para então serem incorporados ao processo.

      A popularidade do MP3 possibilitou que já houvesse no mercado a infraestrutura necessária para reproduzir o formado MPEG-1 (todas as três camadas).

A seção “Sistemas” do MPEG-1 define os sistemas no ISO/IEC-11172-1. Esta definição cobre o layout lógico e os métodos usados para armazenar o áudio, vídeo e outros tipos de dados codificados. Esta estrutura foi nomeada como “MPEG Program Stream”.

A padronização de vídeo é definida no ISO/IEC-11172-2. Esta parte explora os métodos de compressão que reduzem significativamente o espaço necessário para armazenar o vídeo. Esta compressão reduz, ou até elimina, informações em frequências que não são percebidas pelo olho humano. Esta compressão é feita através dos métodos de amostragem e quantização, vistas na seção 3.

Os padrões de áudio do MPEG são definidos no ISO/IEC-11172-3. Estes padrões utilizam princípios de psicoacústica (estudo de como a percepção sonora é atingida pelo sistema auditivo humano) para reduzir os dados necessários para uma gravação de áudio, assim como no vídeo, retirando do arquivo tudo o que não é percebido pelo  ouvido humano.

4.5.                Começo dos anos 2000

O laboratório de pesquisa da AT&T inicia um trabalho sobre produção artificial de voz [12]. Este tipo de tecnologia, chamada Text-To-Speach (TTS), consiste em programar um computador para produzir fonemas similares à voz humana. Como cada fonema é produzido com uma certa frequência de som, é possível criar um algoritmo para que as frequências de cada um desses fonemas fossem reproduzidas a partir de um texto escrito. O esquema abaixo, fornecido pelo AT&T Labs Research, apresenta estas diferenças:

 

Imagem retirada de http://www.research.att.com/projects/Natural_Voices/index.html

Este produto permite ao usuário escrever um texto, escolher um “leitor” e seu idioma materno, e então ouvir a leitura do texto digitado. As vozes disponíveis são masculinas e femininas, com idioma materno inglês americano, inglês britânico, alemão e espanhol na primeira versão de demonstração, e ainda inglês indiano, francês, canadense e italiano na última versão disponível. No site do projeto é possível acessar uma versão de demonstração deste produto, e a versão completa pode ser adquirida pela Wizzard Software.

Apesar de ter iniciado a comercialização do Natural Voices no começo dos anos 2000, a AT&T continuou investindo em pesquisa e aperfeiçoamento deste produto. Atualmente é oferecida pela Wizzard Software a versão 4.2.

4.6.                Anos 2010

No ano de 2009 o Google anunciou seu aplicativo de Text-to-speech, que funciona na mesma tela do Google Translator [14]. Este recurso une a capacidade de tradução que o Google já tinha com a tecnologia de leitura de textos, desenvolvida pela AT&T desde os anos 90.

A empresa está desenvolvendo o Google Transliteration, em uma ponte entre o Google TTS e o Google Translator, permitindo ao usuário digita foneticamente sua busca. Este serviço permite ao usuário conhecer os caracteres que representam os fonemas em idiomas que utilizam caracteres especiais, como o hindi, russo e árabe.

  1. 5.   Considerações finais

A necessidade humana de se comunicar foi a propulsora das pesquisas em manipulação de dados. Foi por precisar facilitar a transmissão de conversações que companhias telefônicas começaram a investir nesta conversão, e hoje o maior motivador é o desejo de se controlar, transmitir e receber cada vez mais dados.

O avanço dos equipamentos de reprodução forma um ciclo com o desenvolvimento de tecnologias de compressão e tratamento, por trazerem ao usuário maior poder de processamento. Desta forma, melhor compressão de áudio impulsiona desenvolvimento de equipamentos com melhor capacidade de reprodução, o que, por sua vez, força a melhora das tecnologias de compressão.

Apesar de ter se iniciado com as empresas de telecomunicações, hoje em dia são os fabricantes de computadores e prestadores de serviços, como o Google, que têm produzido mais pesquisas na área de processamento digital. Muitas vezes estas empresas se juntam com Universidades, como no caso da IBM ao desenvolver o sistema de QA Watson, e trazem não só a visão acadêmica de pesquisa como também a aplicação de mercado.

Desta forma, podemos prever que o futuro do processamento de voz será o fim dos interruptores e controles remoto: através do reconhecimento da voz do morador da residência, um computador central poderá aceitar os comandos já gravados e controlar luminosidade, temperatura, eletrônicos e eletrodomésticos da casa. Esta revolução seria especialmente importante para deficientes físicos e visuais, que não precisariam buscar os controles para realizar as funções que necessitam.

  1. 6.   Bibliografia

[1] CHAPUIS, Robert. JOEL Jr. Amos. 100 Years of Telephone Switching. 2nd Edition. IOS Press. Holanda, 2003.

[2] MEGGELEN, Jim van. SMITH, Jared. MADSEN, Leif. Asterisk: The Future of Telephony. 2nd Edition. O’Reilly. Sebastopol, 2007.

[3] STEFANELLI, Eduardo. Texto Básico: Multimídia. Disponível em  http://www.stefanelli.eng.br/webpage/a_multim.html. Acessado em 10/3/2011.

[4] Data Aquisition. Mathworks. Disponível em: http://www.mathworks.com/help/toolbox/daq/f5-24516.html. Acessado em 10/3/2011.

[5] McLOUGHLIN, Ian. Applied Speech and Audio Processing. 1st Edition. Cambridge University Press. New York, 2009.

[6] SMITH, Steven W. The Scientist and Engineer’s Guide to Digital Signal Processing. Digital Edition. California Technical Publishing. Poway, 1997.

[7] PORT, R. Digital Signal Processing Overview. Disponível em http://www.cs.indiana.edu/~port/teach/641/signal.proc.html. Acessado em 12/3/2011.

[8] VAIDYANATHAN, P. P. The Theory of Linear Prediction. Morgan & Claypool Publishers. San Rafael, 2008.

[9] GRAY, Robert M. IEEE Signal Processing Society – Distinguished Lecturer Program. 2006. Disponível em http://www-ee.stanford.edu/~gray/dl.html. Acessado em 12/3/2011.

[10] AVIV, Adit. GRICHMAN, Kfir. Long-Term Prediction. Disponível em http://health.tau.ac.il/Communication%20Disorders/noam/noam_audio/adit_kfir/html/lpc3.htm. Acessado em 11/3/2011.

[11] LEÃO, Ruth. Tensão e Correntes Alternadas. Disponível em http://www.dee.ufc.br/~rleao/Circuitos/CircII_1.pdf. Acessado em 10/3/2011.

[12] AT&T Labs Research. Natural Voices Text-to-Speech. Disponível em http://www.research.att.com/projects/Natural_Voices/index.html. Acessado em 12/3/2011.

[13] Texas Instruments. Speak & Spell Introduced The First Commercial Use of DSP Technology. Disponível em http://www.ti.com/corp/docs/company/history/timeline/eps/1970/docs/78-speak-spell_introduced.htm. Acessado em 12/3/2011.

[14] Google Labs. Disponível em http://www.googlelabs.com/. Acessado em 12/3/2011.

No comments yet

Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s

%d blogueiros gostam disto: