Página 1 dos resultados de 162 itens digitais encontrados em 0.007 segundos

Redução de ruído em sinais de voz usando curvas especializadas de modificação dos coeficientes da transformada em co-seno. ; Speech denoising by softsoft thresholding.

Antunes Júnior, Irineu
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Tese de Doutorado Formato: application/pdf
Publicado em 24/04/2006 Português
Relevância na Pesquisa
76.01%
Muitos métodos de redução de ruído se baseiam na possibilidade de representar o sinal original com um reduzido número de coeficientes de uma transformada, ou melhor, obtém-se um sinal com menos ruído pelo cancelamento dos coeficientes abaixo de um valor adequadamente estabelecido de magnitude. Deve-se supor que a contribuição do ruído se distribua de maneira uniforme por todos os coeficientes. Uma desvantagem destes métodos, quando aplicados a sinais de voz, é a distorção introduzida pela eliminação dos coeficientes de pequena magnitude, juntamente com a presença de sinais espúrios, como o “ruído musical” produzido por coeficientes ruidosos isolados que eventualmente ultrapassam o limiar. Para as transformadas usualmente empregadas, o histograma da distribuição dos coeficientes do sinal de voz possui um grande número de coeficientes próximos à origem. Diante disto, propomos uma nova função de “thresholding” concebida especialmente para redução de ruído em sinais de voz adicionados a AWGN (“Additive, White, and Gaussian Noise”). Esta função, chamada de SoftSoft, depende de dois valores de limiar: um nível inferior, ajustado para reduzir a distorção da voz, e um nível superior, ajustado para eliminar ruído. Os valores ótimos de limiar são calculados para minimizar uma estimativa do erro quadrático médio (MSE): diretamente...

Algoritmo para determinação da taxa de transmissão em uma rede IP.; Algorithm to transmission rate determination in an IP network.

Zegarra Rodríguez, Demóstenes
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 24/09/2009 Português
Relevância na Pesquisa
76.04%
A comunicação de Voz sobre IP (VoIP) vem aumentando com o decorrer do tempo e as redes de comunicação estão se tornando cada vez mais congestionadas, ocasionando perda de pacotes e latência nas redes, prejudicando diretamente a qualidade das comunicações de voz. Neste trabalho, foi estudado em detalhe como a qualidade do sinal de voz transmitido em uma comunicação VoIP é afetada por parâmetros da rede e pelo tipo de codificador utilizado na comunicação. Uma contribuição importante deste trabalho é a apresentação de uma metodologia que serve para predizer o comportamento de um codificador de voz em diferentes cenários de redes. O estabelecimento de um mecanismo de controle que otimize a utilização da rede e ao mesmo tempo garanta a melhor qualidade possível do sinal de voz transmitido vem sendo motivo de pesquisa. O emprego de codificadores multitaxa nas comunicações de voz possibilita a implementação de algoritmos que controlem a comutação destas taxas de codificação baseados em diferentes fatores de decisão como as características do sinal de voz a ser transmitido ou empregando a informação dos parâmetros de rede. Este trabalho apresenta um algoritmo de determinação de taxa de codificação com fator de decisão baseado na qualidade do sinal avaliada no ponto da recepção ou em algum ponto intermediário. Para realização dos testes montou-se um cenário de emulação de rede IP para o estabelecimento de uma chamada VoIP...

Morphlet: uma nova família de transformadas wavelet aplicadas ao processo de conversão de voz; Morphlet: a new wavelet transform family applied for voice conversion process

Vieira, Lucimar Sasso
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Tese de Doutorado Formato: application/pdf
Publicado em 27/01/2012 Português
Relevância na Pesquisa
76.01%
O presente trabalho de doutorado teve por objetivo a criaçãao de uma nova família de transformadas wavelet, chamadas Morphlets, que é específica para o processo de conversão de voz. Antes de explicar a criação da Morphlet, foi apresentada uma breve revisão bibliográfica sobre o funcionamento da Transformada Discreta Wavelet, sobre os processos de conversão de voz, algoritmos para criação de novas wavelets, entre outros tópicos. Em seguida é feita uma descrição detalhada da técnica utilizada para criação das Morphlets e, posteriormente, foi apresentado um novo algoritmo para conversão de voz baseado nas Morphlets. A criação das Morphlet, assim como o algoritmo proposto para conversão de voz baseado nela, inexistem na literatura, até o presente momento. Para testar à eficiência da técnica proposta de conversão de voz usando as Morphlets foram realizados testes diversos, principalmente baseados em critérios perceptuais, sendo os resultados obtidos motivadores, o que indicou um avanço na área.; The objective of this PhD work is the creation of a new family of wavelet transforms, called Morphlets, particularly designed for voice conversion. Before explaining the creation of this new family of transforms, a brief literature review on the Discrete Wavelet Transform...

Conversão de voz inter-linguística; Crosslingual Voice Conversion

Machado, Anderson Fraiha
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Tese de Doutorado Formato: application/pdf
Publicado em 21/05/2013 Português
Relevância na Pesquisa
86.02%
A conversão de voz é um problema emergente em processamento de fala e voz com um crescente interesse comercial, tanto em aplicações como Tradução Fala para Fala (Speech-to-Speech Translation - SST) e em sistemas Text-To-Speech (TTS) personalizados. Um sistema de Conversão de Voz deve permitir o mapeamento de características acústicas de sentenças pronunciadas por um falante origem para valores correspondentes da voz do falante destino, de modo que a saída processada é percebida como uma sentença pronunciada pelo falante destino. Nas últimas duas décadas, o número de contribuições cientícas relacionadas ao problema de conversão de voz tem crescido consideravelmente, e um panorama sólido do processo histórico, assim como de técnicas propostas são indispensáveis para contribuição neste campo. O objetivo deste trabalho é realizar um levantamento geral das técnicas utilizadas para resolver o problema, apontando vantagens e desvantagens de cada método, e a partir deste estudo, desenvolver novas ferramentas. Dentre as contribuições do trabalho, foram desenvolvidos um método para decomposição espectral em termos de bases radiais, mapas fonéticos articiais, agrupamentos k-verossímeis, funções de empenamento em frequência entre outras...

Codificadores parametricos de sinais de voz com excitação multi-pulso

Custodio, Ricardo Felipe
Fonte: Universidade Federal de Santa Catarina Publicador: Universidade Federal de Santa Catarina
Tipo: Dissertação de Mestrado Formato: xi, 90f.| il., tabs
Português
Relevância na Pesquisa
86.01%
Dissertação (mestrado) - Universidade Federal de Santa Catarina. Centro Tecnologico; Neste trabalho é apresentado um estudo e algumas considerações a respeito da implementação de codificadores de sinais de voz com predição linear e excitação multi-pulso (MPELPC). Para o projeto do preditor é proposta a utilização "melhor" filtro preditor para a excitação multi-pulso, ao invés da utilização do clássico filtro só pólos. É mostrado, através de tabelas contendo resultados de diversas simulações que a utilização do "melhor" filtro preditor melhora a relação sinal-ruído da voz gerada. Para a determinação da excitação e proposta uma nova técnica com menor complexidade computacional do que a proposta por Singhal & Atal. São mostrados os resultados obtidos nas diversas simulações comparando os dois métodos.

Técnicas de processamento de sinais para alteração de parâmetros prosódicos aplicadas a um sistema de conversão texto-fala para a lingua portuguesa falada no Brasil

Pacheco, Fernando Santana
Fonte: Florianópolis, SC Publicador: Florianópolis, SC
Tipo: Dissertação de Mestrado Formato: 100 f.| il., graf., tabs.
Português
Relevância na Pesquisa
76.07%
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Engenharia Elétrica.; Sistemas de conversão texto-fala têm como objetivo a transformação de um texto com vocabulário irrestrito em uma mensagem falada. Esse processo consiste de duas etapas básicas. Na primeira, técnicas de processamento lingüístico realizam a extração de uma representação simbólica dos parâmetros acústicos a partir do texto de entrada. A representação simbólica é transformada em sinal de fala através de técnicas de processamento de sinais. Um dos métodos de síntese de fala é o de concatenação de segmentos de fala previamente gravados. No entanto, para conferir maior naturalidade à fala sintetizada, faz-se necessário alterar de forma dinâmica os parâmetros prosódicos (pitch, duração e energia) dos segmentos durante a operação de síntese. O presente trabalho apresenta o desenvolvimento de uma técnica baseada em análise/ressíntese LPC com excitação residual para alteração de parâmetros prosódicos. O objetivo é aplicá-la a um sistema de conversão texto-fala baseado em síntese concatenativa para a língua portuguesa falada no Brasil. Nesta técnica, simples operações de cópia e corte são realizadas no sinal de resíduo...

Sistema de comunicação de voz amostrada com espalhamento espectral

Costa, João Martinho
Fonte: Florianópolis, SC Publicador: Florianópolis, SC
Tipo: Dissertação de Mestrado Formato: xiii, 65 f.| il., grafs.
Português
Relevância na Pesquisa
75.91%
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Engenharia Elétrica.; Esta dissertação propõe uma forma diferente de se transmitir e receber sinais de voz via rádiofreqüência com a vantagem de permitir maior alcance de comunicação a um baixo custo para sistemas de telefones sem fio. Este trabalho está sendo apoiado pela Intelbras S.A. Indústria de Telecomunicação Eletrônica Brasileira, a qual requereu em seu nome o pedido de patente sobre toda a idéia aqui apresentada. Basicamente, a técnica proposta consiste em amostrar a voz a ser transmitida, modular uma portadora em freqüência com essas amostras, espalhar o espectro com modulação BPSK através de uma seqüência pseudoaleatória de taxa de transmissão elevada e transmitir o sinal espalhado durante um curto espaço de tempo. Este trabalho apresenta um resumo da teoria de sistemas de espalhamento espectral, uma forma de implementação do sistema proposto e avalia este sistema aplicado a um telefone sem fio, comparando através de simulações o desempenho do mesmo em relação a um telefone sem fio convencional.

Conversão do contorno de pitch por divisão de componentes para aplicação em sistemas de conversão de voz

Odebrecht Júnior, Marcos
Fonte: Universidade Federal de Santa Catarina Publicador: Universidade Federal de Santa Catarina
Tipo: Dissertação de Mestrado Formato: xii, 54 f.| il., grafs., tabs.
Português
Relevância na Pesquisa
86%
Dissertação [mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia Elétrica, Florianópolis, 2009; Esta dissertação propõe uma nova técnica de conversão do contorno de pitch para aplicação em sistemas de conversão de voz. O principal objetivo deste trabalho é possibilitar a aplicação do método proposto aos mais diferentes tipos de sistemas de conversão de voz sem que para tanto seja necessário adaptar ou criar um novo banco de sinais de fala. A abordagem proposta considera o algoritmo MOMEL (modelling melody) para dividir o contorno de pitch levando em conta os componentes macroprosódico e microprosódico, sendo que cada um deles é convertido separadamente. A contribuição do componente macroprosódico, obtida pela interpolação dos dados usando a codificação INTSINT (international transcription system for intonation), é então convertida utilizando um modelo de misturas gaussianas (GMM); enquanto, a contribuição do componente microprosódico é convertida por seleção de segmentos de contorno de pitch. Os problemas inerentes à avaliação de desempenho dos sistemas de conversão de voz são discutidos e um parâmetro denominado índice de desempenho é modificado para permitir uma avaliação objetiva da conversão do contorno de pitch. O desempenho do método proposto é confrontado com dois dos métodos mais utilizados na literatura: conversão utilizando normalização gaussiana (GN) e GMM. O desempenho dos diferentes métodos considerados são avaliados através de dois testes subjetivos: de preferência e de similaridade. Os resultados obtidos ratificam a medida adotada...

Contribuições ao reconhecimento automático de fala robusto

Silva, David Daniel e
Fonte: Universidade Federal de Santa Catarina Publicador: Universidade Federal de Santa Catarina
Tipo: Tese de Doutorado Formato: 270 p.| il., grafs., tabs.
Português
Relevância na Pesquisa
75.95%
Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia de Automação e Sistemas, Florianópolis, 2010; Reconhecimento Automático de Fala (RAF) é uma área fascinante e complexa. Durante décadas a demanda de pesquisas baseava-se em RAF para vocabulário não muito extenso, com técnicas que precisavam de alto desempenho computacional para processar dados produzidos em ambientes silenciosos de laboratórios. Dos meados da década de 80 para a frente, a tecnologia de processamento de voz avançou, com a utilização dos modelos ocultos de Markov (HMMs) e com o alto avanço de técnicas de programação e de processamento computacionais, conseguindo taxas de acerto, em ambientes silenciosos, próximas de 100%. Com a finalidade de colocar sistemas de RAF para funcionar na vida real, há alguns anos pesquisas intensas foram e continuam sendo feitas sobre reconhecimento de fala robusto. Por isso, aplicações como DSR (Distributed Speech Recognition), entre outras, surgiram no mercado. Para obter uma performance similar ao do ouvido humano em ambientes ruidosos, no entanto, sistemas desse tipo ainda são o foco de muitas pesquisas. Assim, este trabalho faz um estudo sobre sistemas de reconhecimento automático de fala robusto...

Otimização de desempenho de algoritmos de compressão de sinais biológicos utilizando redes neurais artificiais

Berger, Pedro de Azevedo
Fonte: Universidade de Brasília Publicador: Universidade de Brasília
Tipo: Tese
Português
Relevância na Pesquisa
85.95%
Tese (doutorado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2006.; Este trabalho pretende colaborar com o desenvolvimento de tecnologias de codificação de sinais biológicos (sinais eletrofisiológicos e sinais de voz) através da criação, avaliação e, principalmente, a otimização de codificadores utilizando redes neurais artificiais. Durante a pesquisa realizada, desenvolveu-se um codificador para compressão de sinais eletrofisiológicos baseado em transformada wavelet discreta e com alocação dinâmica de bits. Na codificação de sinais eletrofisiológicos é necessário garantir a fidelidade da forma de onda do sinal reconstruído, dando certa liberdade para a quantidade de bits necessária para representar a informação. Para outros tipos de sinais, ao contrário, o objetivo é garantir uma taxa de bits por símbolo (quantidade de bits necessária para representar a informação), proporcionando o grau de liberdade para a distorção entre a forma de onda original e a resultante do processo de decodificação. Nesta pesquisa procura-se mostrar que o uso da inteligência artificial pode trazer vantagem em ambos os casos. Para isso, apresenta-se também o desenvolvimento...

Síntese de nomes em português

Amorim, Pedro Manuel Pinho
Fonte: Universidade de Aveiro Publicador: Universidade de Aveiro
Tipo: Dissertação de Mestrado
Português
Relevância na Pesquisa
75.9%
Pretendeu-se com o trabalho realizado no âmbito desta dissertação desenvolver um sistema capaz de sintetizar nomes em português de forma inteligível. Em termos metodológicos, a opção passou pela utilização de ferramentas de apoio ao desenvolvimento de novas vozes para sistemas de síntese – concretamente o sistema SPICE – e adopção do sistema de síntese Festival. Depois de apresentadas informações de base da área da síntese de voz, assim como informações sobre as funcionalidades dos programas usados neste trabalho (SPICE, MBROLA e Festival), na segunda parte da dissertação, descreveu-se todo o processo prático da criação da voz, fazendo uso do SPICE e MBROLA. O sistema desenvolvido foi avaliado em termos da sua capacidade de efectuar correctamente a conversão grafema-fone e da inteligibilidade dos nomes sintetizados com resultados favoráveis para uma eventual aplicação prática.; The major goal of the work presented in this dissertation is to develop a system capable of synthesizing Portuguese names in an intelligible form. In methodological terms the option was to use tools to support the development of new voices to synthesis systems - specifically the SPICE system - and adoption of the synthesis system Festival. After presenting information on the area of speech synthesis as well as information on programs’ features used in this work (SPICE...

Investigação de um ambiente para o processamento de voz utilizando VoiceXML

Magno Andrade Maciel, Alexandre; Costa de Barros Carvalho Filho, Edson (Orientador)
Fonte: Universidade Federal de Pernambuco Publicador: Universidade Federal de Pernambuco
Tipo: Outros
Português
Relevância na Pesquisa
96.1%
Desde a criação das primeiras máquinas, no século XVI, o homem busca estabelecer algum tipo de comunicação verbal com elas. Hoje, mais de 200 anos depois, a disponibilidade e a facilidade do uso do telefone para dialogar e a capacidade e a diversidade de conteúdos disponíveis na Web, podem ser unidos através das tecnologias de reconhecimento e síntese de voz, originando uma forma de comunicação verbal homem-máquina com grandes potenciais. Este trabalho tem com base o estudo das tecnologias de voz e contextualização das mesmas para a criação de uma interface com modo de interação via telefone e o levantamento dos modos de iniciativa de diálogo (do sistema, do usuário e mista). Para isso, são estudadas duas linguagens de marcação para a criação de aplicações de voz : VoiceXML e SALT. A linguagem VoiceXML foi escolhida pela sua maior disponibilidade e por estar numa etapa de amadurecimento maior que a linguagem SALT.Foram estudadas as principais características, funcionalidades e arquitetura para o desenvolvimento, hospedagem e publicação das aplicações desenvolvidas. Foram desenvolvidas três aplicações com modo de interação apenas por telefone e com modos de iniciativa distintos. Os sistemas construídos apresentam fluxo de diálogo e exemplos de execução para melhor entendimento. Por fim...

Uma análise comparativa dos codificadores/ decodificadores de voz para comunicações digitais

Leite Cavalcante, Dirceu; Dueire Lins, Rafael (Orientador)
Fonte: Universidade Federal de Pernambuco Publicador: Universidade Federal de Pernambuco
Tipo: Outros
Português
Relevância na Pesquisa
76.01%
O presente trabalho apresenta uma análise comparativa dos codificadores utilizados em comunicações digitais, notadamente em chamadas VoIP, para fonemas da Língua Portuguesa. O foco deste trabalho é a análise da capacidade do processamento se adaptar às variações do trato vocal durante a pronúncia de intervalos contendo fonemas em frases, simulando uma resposta em tempo real durante uma conversação. Para tal, foram extraídas as freqüências fundamental e das três primeiras formantes para cada um dos intervalos para um grupo de homens e mulheres de várias faixas etárias. A criação de tais intervalos e extração das freqüências foram efetuadas através do programa Praat, com a utilização de análise perceptual e espectrogramas. Resultados mostram uma sutil diferença no processamento da freqüência das formantes entre homens e mulheres. Observou-se também um fenômeno de correção da freqüência fundamental em intervalos contendo variantes consonantais tanto para ambos os sexos. Foram analisados os codificadores de voz G.722, G.723.1, G.726, G.728, G.729A, iLBC e Speex

Uma aplicação de voz sobre IP baseada no Session Initiation Protocol

Maia da Silva Junior, Jucimar; Dueire Lins, Rafael (Orientador)
Fonte: Universidade Federal de Pernambuco Publicador: Universidade Federal de Pernambuco
Tipo: Outros
Português
Relevância na Pesquisa
85.97%
Neste trabalho é implementada uma aplicação de Voz Sobre IP utilizando o Session Initiation Protocol (SIP) como protocolo de sinalização. Para alcançar este objetivo, são analisadas algumas tecnologias importantes, como os protocolos da Internet Engineering Task Force (IETF) para Telefonia IP, codificadores de voz, e a utilização da aplicação para verificação de atrasos, jitter e perda de pacotes. A aplicação foi desenvolvida em Java e pode facilmente ser modificada para adequar novos codificadores de voz e características mais recentes que novas especificações do SIP possam implementar

Segmentação de voz em ambientes ruidosos utilizando análise de imagem do espectrograma

Lopes, Gilliard Alan de Melo; Mello, Carlos Alexandre Barros de (orientador)
Fonte: Universidade Federal de Pernambuco Publicador: Universidade Federal de Pernambuco
Tipo: Dissertação
Português
Relevância na Pesquisa
86%
Esta dissertação apresenta um novo algoritmo para segmentação de sinais de voz baseado em técnicas de processamento de imagem, tais como análise de espectrograma, morfologia matemática, componentes conectados, análise de projeção e binarização. O algoritmo proposto opera em dois ciclos: o primeiro age separando o sinal de voz do fundo (silêncio ou ruído). O segundo utiliza esse sinal de voz segmentado para realizar a segmentação de sílabas fonéticas (agrupamento de fonemas). A base de dados de áudio MIT (MIT Mobile Device Speaker Verification Corpus) e a TIMIT (Texas Instruments/Massachussets Institute of Technology) foram utilizadas para validação do algoritmo proposto. Os sinais de voz escolhidos variam desde o gênero do locutor, a regionalidade (sotaque), tipos de fonemas e ruídos de fundo, como: ruídos de apito, chuva, vento e de um cruzamento de ruas com tráfego intenso. A técnica proposta mostrou eficiência na segmentação, no que diz respeito aos segmentos fonéticos, em ambientes com ausência e presença de ruídos, utilizando os mesmos parâmetros em ambas as situações; FACEPE

Descritor de voz invariante ao ruído

Viana, Hesdras Oliveira; Mello, Carlos Alexandre Barros de (orientador)
Fonte: Universidade Federal de Pernambuco Publicador: Universidade Federal de Pernambuco
Tipo: Dissertação
Português
Relevância na Pesquisa
96.01%
Extrair características da fala é uma etapa fundamental para os sistemas de reconhecimento de voz. É através dos descritores que extraímos a energia do sinal, a frequência fundamental (pitch) e a estrutura dos formantes que serão utilizados como identificadores para cada palavra pronunciada. Descritores como MFCC (Mel-Frequency Cepstral Coefficient), RASTA-PLP (RelAtive SpecTrAl - Perceptual Linear Predictive) e PNCC (Power Normalized Cepstral Coefficient) são muitos utilizados no estado da arte na área de reconhecimento de voz, porém, essas técnicas não conseguem apresentar bons resultados quando expostos a amostras com presença de ruído, variabilidade de locutor e fala contínua. O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução. Para isso, fizemos um estudo dos descritores de voz mais utilizados na literatura, identificando as vantagens e desvantagens, expondo a situações variadas. Para avaliação das técnicas, utilizamos a base NOIZEUS (Noisy Speech Corpus) e dois classificadores: HMM (Hidden Markov Models) e SVM (Support Vector Machine). Essa base tem como característica a presença de ruído variando de 0dB, 5dB, 10dB e 15dB, gravada em diversos ambientes. A utilização dos classificadores serviu para validar os descritores de voz. O descritor proposto...

Análise qualitativa/quantitativa de algoritmos para a compressão de voz aplicados a redes de pacotes

Becker, Ricardo
Fonte: Pontifícia Universidade Católica do Rio Grande do Sul; Porto Alegre Publicador: Pontifícia Universidade Católica do Rio Grande do Sul; Porto Alegre
Tipo: Dissertação de Mestrado
Português
Relevância na Pesquisa
76.2%
Este trabalho tem por objetivo o estudo, implementação e avaliação de técnicas de compressão de voz, baseadas na detecção de períodos de silêncio, aplicadas a redes de pacotes. Para tanto, foram estudados os conceitos fundamentais de processamento digital de sinais, incluindo aplicações e modelos matemáticos. Posteriormente, estudou-se a estrutura dos sistemas de transmissão de sinais de voz via redes de pacotes, em essência, sistemas de Voz sobre IP (VoIP). Nestes sistemas, foram vistas a aplicabilidade e princípios de funcionamento dos componentes de DSP, desde a própria compressão da voz, baseada nos períodos de silêncio, bem como padrões de codificação, cancelamento de eco, controle automático de ganho e geração de ruído de conforto. Posteriormente é proposta então a implementação de seis técnicas de compressão de voz baseadas na combinação de diferentes algoritmos aplicados na detecção de períodos de silêncio ou não da fala. Dentre os algoritmos aplicados, está a análise no tempo e em frequência do conteúdo de energia do sinal de voz, a análise do sinal na busca dos sons fricativos da fala, e ainda aplicação de recobrimento e compensação por ruído de conforto. Para a implementação das técnicas foram desenvolvidas ferramentas computacionais de testes...

Codificador G729a orientado à avaliação da qualidade perceptual do sinal de voz

Wisnevski, Flávio Luis
Fonte: Pontifícia Universidade Católica do Rio Grande do Sul; Porto Alegre Publicador: Pontifícia Universidade Católica do Rio Grande do Sul; Porto Alegre
Tipo: Dissertação de Mestrado
Português
Relevância na Pesquisa
76.13%
Esta dissertação apresenta um modelo de codificador da voz que avalia a qualidade perceptual, utilizando-se um codificador paramétrico definido pela Recomendação do ITU-T, o G729a , conhecido tecnicamente como Conjugate Structure Algebraic Code Excited Linear Prediction (CS-ACELP). Atualmente, a codificação de voz é avaliada por parâmetros subjetivos, em que não há uma análise para melhoria perceptual que altere os parâmetros dinamicamente. O objetivo deste trabalho é a melhoria no desempenho do sinal codificado na fonte, considerando as limitações de trabalhar com as variáveis escalares do codec. Foi realizada uma análise sobre os sinais de voz para dar subsídios ao leitor, possibilitando o entendimento teórico e uma descrição sobre o codificador G729a, enfatizando os estágios de codificação dos parâmetros escalares, objeto deste estudo.Programou-se no codificador G729a, o algoritmo PESQ, o qual realiza a análise perceptual do sinal de voz. Também foi avaliada recomendação P. 862 do ITU-T que descreve o algoritmo de avaliação da qualidade perceptual. Para validar a metodologia proposta, foram realizados experimentos em sinais de voz do banco de dados Timit, em que se estudou o comportamento do sinal de voz e a melhoria perceptual devido à alteração dos parâmetros escalares de codificação do sinal. No experimento realizado...

Convers?o grafema-fone para um sistema de reconhecimento de voz com suporte a grandes vocabul?rios para o portugu?s brasileiro

HOSN, Chadia Nadim Aboul
Fonte: Universidade Federal do Pará Publicador: Universidade Federal do Pará
Tipo: Dissertação de Mestrado
Português
Relevância na Pesquisa
86.18%
O processamento de voz tornou-se uma tecnologia cada vez mais baseada na modelagem autom?tica de vasta quantidade de dados. Desta forma, o sucesso das pesquisas nesta ?rea est? diretamente ligado a exist?ncia de corpora de dom?nio p?blico e outros recursos espec?ficos, tal como um dicion?rio fon?tico. No Brasil, ao contr?rio do que acontece para a l?ngua inglesa, por exemplo, n?o existe atualmente em dom?nio p?blico um sistema de Reconhecimento Autom?tico de Voz (RAV) para o Portugu?s Brasileiro com suporte a grandes vocabul?rios. Frente a este cen?rio, o trabalho tem como principal objetivo discutir esfor?os dentro da iniciativa FalaBrasil [1], criada pelo Laborat?rio de Processamento de Sinais (LaPS) da UFPA, apresentando pesquisas e softwares na ?rea de RAV para o Portugu?s do Brasil. Mais especificamente, o presente trabalho discute a implementa??o de um sistema de reconhecimento de voz com suporte a grandes vocabul?rios para o Portugu?s do Brasil, utilizando a ferramenta HTK baseada em modelo oculto de Markov (HMM) e a cria??o de um m?dulo de convers?o grafema-fone, utilizando t?cnicas de aprendizado de m?quina.; ABSTRACT: Speech processing has become a data-driven technology. Hence, the success of research in this area is linked to the existence of public corpora and associated resources...

Estudo da separação entre voz patológica e normal por meio da avaliação da energia global do sinal de voz; Investigation of discrimination between healthy and pathological voice through the analysis of the global energy of the voice signal

Oliveira, Marlice Fernandes de
Fonte: Universidade Federal de Uberlândia Publicador: Universidade Federal de Uberlândia
Tipo: Dissertação
Português
Relevância na Pesquisa
86.01%
A análise do sinal de voz é uma ferramenta importante no diagnóstico dos distúrbios laríngeos. Dentre as diversas técnicas para o processamento da voz destaca-se o espectrograma por permitir uma visualização da variação da energia do sinal em função do tempo e freqüência. Neste contexto, esta pesquisa investiga a energia global do sinal de voz, estimada a partir do espectrograma, como ferramenta capaz de discriminar esses sinais, obtidos de pacientes com diferentes doenças, daqueles coletados de sujeitos saudáveis. O estudo ainda verifica a possibilidade do uso da energia global na discriminação de distúrbios laríngeos. No total 94 indivíduos participaram desse estudo, sendo 46 disfônicos e 48 eufônicos. Inicialmente os sujeitos foram submetidos a um exame de videolaringoscopia para a determinaçãoção do diagnóstico. Posteriormente eles foram submetidos a um exame clínico de análise acústica vocal por meio da gravação da vogal sustentada. Utilizando a energia global foi possível discriminar as vozes normais das vozes disfônicas. Por meio da energia global foi possível ainda separar as vozes de pacientes portadores de paralisia da prega vocal esquerda de todas as outras doenças laríngeas investigadas. Podemos sugerir a energia global da voz como uma ferramenta auxiliar no diagnóstico diferencial entre vozes normais e disfônicas. ______________________________________________________________________________ ABSTRACT; Voice analysis is an important tool in the diagnosis of laryngeal disorders. Among distinct signal processing techniques employed for voice analysis...