DUVI

Diario da Universidade de Vigo

O conversor texto-fala Cotovía busca voz feminina en galego

A través dunha enquisa, o grupo de Tecnoloxías do Sinal seleccionará a locutora idónea

Etiquetas
  • Vigo
  • Investigación
M. Del Río DUVI 04/06/2009

Cotovía é un sistema de conversión texto-voz bilingüe para galego e castelán desenvolvido polo grupo de Tecnoloxías do Sinal da Universidade de Vigo xunto cun grupo de investigadores da Universidade de Santiago de Compostela co apoio do Centro Ramón Piñeiro para a Investigación en Humanidades. Ata o de agora, Cotovía tiña voz masculina, de feito tres voces masculinas, pero o grupo está inmerso no proceso de selección dunha nova locutora que poña o toque feminino. A través dunha enquisa con doce mostras de voces, o grupo vai seleccionar a persoa que teña, entre outras características a fala máis clara, a que mellor vocalice e a menos monótona.
A elixida gravará arredor de 10000 frases coas que o sintetizador traballará para seleccionar, en cada ocasión, os fonemas e unidades máis idóneos para poñerlle voz a un texto, xa sexa un mail, un correo electrónico, un GPS ou as indicacións da megafonía dunha estación de trens ou dun aeroporto.

Que é Cotovía?

Cotovía é un sistema de conversión texto–fala que, á diferenza da maioría dos sintetizadores de voz actuais, aplica o concepto de selección de unidades e leva un paso máis aló escollendo a mellor combinación de unidades acústicas e entoativas. Este sintetizador de voz é froito de dez anos de traballo do grupo de investigación de Tecnoloxías Multimedia, dirixido pola vicerreitora Titulacións e Converxencia Europea, Carmen García Mateo. Segundo explica Fran Campillo, un dos investigadores que coordina a enquisa, “Cotovía é accesible como unha demo en internet, pero non ten voz feminina. Hai uns anos, enviounos un mail unha moza que, cun problema na gorxa, estivo un mes sen falar e apañouse co noso sintetizador pero estivo ese tempo falando con voz de home”. A partir de aí comezou o traballo en colaboración con Microsoft Portugal xa que segundo Campillo “estamos seguindo a súa metodoloxía de traballo e as súas indicacións para escoller a locutora, para deseñar as frases que se van gravar e os pasos para que o sintetizar poida falar cunha voz nova”. Deste xeito únese a experiencia investigadora deste grupo da Universidade cos anos de traballo da empresa ao longo do tempo con moitas linguas diferentes.

A voz ideal

Segundo o investigador, a voz que se elixirá entre as doce candidatas, previamente seleccionadas entre vinte cinco, debe ter unha boa fonética galega e “interésanos que se entenda ben, que sexa clara, xa que o fin dun sintetizador é transmitir información, non chega con que sexa unha voz bonita, debe transmitir, entenderse o que está dicindo”. No que se refire a cuestións técnicas, “interésanos que non sexa unha voz variable, porque as voces moi enfáticas son difíciles de modelar e é máis sinxelo cometer erros con elas”.
As doce voces que se poden escoitar e votar na enquisa son de profesionais da radio, televisión e dobraxe, un total dun minuto de voz que sirve para coñecer a súa expresividade, capacidade de interpretación e adaptación en diferentes escenarios. Desta ducia seleccionaranse cinco que gravarán unha hora de voz para ver o robusta, o resistente que é a medida que vai pasando o tempo falando, “temos que gravar moitas frases e leva moito tempo, ten que ser unha voz que non vai empeorando a medida que avanza a gravación, buscamos que sexa moi estable”, apunta Campillo. Cos resultados desa gravación e da enquisa elixirase a voz feminina de Cotovía.

Proceso de gravación

Coa selección da voz non fai máis que comezar o traballo, queda por diante gravar 10000 frases e “gravar unha voz é moi custoso é moi complicado”. Entre as diferentes técnicas posibles, Campillo salienta a síntese baseada en selección de unidades ou corpus: “gravar moita voz dunha mesma persoa e logo dividilo en unidades máis pequenas como fonemas ou semifonemas que, empregados en frases similares a aquelas das que foron extraídas, conseguen que a voz sintética sexa case indistinguible da voz natural”. Por este motivo, todos os investigadores que traballan neste proxecto teñen presente que escoller unha boa voz é moi importante para o funcionamento do sintetizador, pero tamén o é escoller o conxunto de frases que van gravar”.

Os retos de futuro

Segundo explica o propio investigador, “os sintetizadores que funcionan ben hoxe día teñen unha fala moi neutra e nada enfática, non transmiten emocións ou sentimentos porque a maior limitación que temos é que o ordenador non entende o que está lendo”. Ese é o gran reto deste campos de traballo, dar con estratexias para que, sen entender a frase, se poidan dar pistas que permitan a interpretación correcta do texto, como por exemplo análises sintácticos ou morfosintácticos “que lle indiquen ao ordenador que palabras dependen de cales, cales son os verbos e os nomes ou que palabras non hai que destacar en determinados momentos”.
Outro dos retos para o grupo de investigación reside nos propios textos. Un texto escrito correctamente representa un traballo sinxelo para o sintetizador, o problema son textos como os dos correos electrónicos ou os sms, nos que se eliminan letras ou incluso palabras. A falta de signos ortográficos, como puntos ou comas, que indiquen as pausas é outro problema e apunta a algo tan curioso como que “un ordenador non precisa respirar, se non lle dis que faga unha pausa non a fai, lee seguido, pero quen o escoita si necesita que faga esas pausas”, explica Campillo. O grupo está a traballar na actualidade en mellorar o modelado da entoación, “porque é o aspecto que máis inflúe na naturalidade da voz”, o que axuda a enfatizar as palabras, a introducir as inflexións nos puntos adecuados para poder transmitir moito mellor unha mensaxe. O mérito dun bo sintetizador, segundo conclúe o investigador, “non é que lea moi ben cando o texto de entrada é perfecto, o importante é que se adapte á vida real, ás aplicacións que vai ter”.