DUVI

Diario da Universidade de Vigo

Unha tese de doutoramento busca mellorar os dispositivos de síntese de voz

A voz feminina ideal ten unha frecuencia de 193 Hz e unha velocidade de 2.8 palabras por segundo

A investigación incluíu a posta en marcha dun inventario de voces de mulleres en dez linguas

Etiquetas
  • Vigo
  • Investigación
D. Besadío DUVI 29/10/2012
No GPS do coche, nos servizos de atención ao cliente telefónicos, na lectura de mensaxes do móbil... cada día humanos e máquinas compartimos máis espazos, de aí a importancia de lograr que esta ‘comunicación’ sexa cada vez máis fluída. Neste contexto, realizou a súa tese de doutoramento o profesor do Instituto Politécnico do Porto, Luis Coelho. O obxectivo: buscar unha técnica que consiga lograr voces agradables para que os dispositivos poidan ser empregados con comodidade. Para acadalo puxo en marcha un inventario de voces, exclusivamente femininas, en dez linguas e os resultados amosan que o público se inclina por unha voz que teña unha frecuencia media de 193 Hz e unha velocidade de 2.8 palabras por segundo.

Dotar ás máquinas de capacidades idénticas as humanas tanto no que se refire a recoñecemento de voz como xeración de linguaxe falada, segue a ser a día de hoxe, pese aos avances acadados, un reto. Neste terreo o Grupo de Tecnoloxías Multimedia da Escola de Enxeñaría de Telecomunicación, no que Coelho realizou a súa investigación -baixo a dirección da profesora Carmen García Mateo- ten realizado múltiples traballos tanto en recoñecemento de fala e síntese de voz como en tradución automática.

O traballo levado a cabo por Coelho pode agora ter aplicacións, tanto no eido científico como no comercial, “axudando a lograr dispositivos con voces que esperten unha maior simpatía, menos agresivas ou simplemente máis fluídas”, explica o investigador, ao tempo que subliña que a análise da simpatía pode ser tamén unha ferramenta interesante para os profesionais da voz “que coas indicacións subministradas poden manipular a súa voz co obxectivo de aumentar a súa simpatía”, indicou.

Voces femininas en dez idiomas

A investigación iniciouse coa posta en marcha dun inventario de voces, exclusivamente femininas, en dez linguas: portugués europeo, portugués do Brasil, galego, castelán, inglés americano, inglés británico, danés, finés, francés e alemán. Cun mínimo de cinco voces distintas por cada lingua, cada unha das voces foi avaliada por un grupo amplo de ouvintes nativos, en relación a un conxunto de criterios subxectivos, que incluíron cuestións como simpatía, atractivo, emotividade, articulación, velocidade e intelixibilidade “Santo Graal das primeiras investigacións”, recalca Coelho, e tamén en relación a un conxunto de escenarios de utilización, entre os que se incluíu a lectura de correos electrónicos, de novas ou o seguimento de instrucións vía telefónica. “Con esta avaliación foi posible caracterizar subxectivamente, a simpatía da voz e percibir, por un lado, como esta se relaciona con outros conceptos e, por outro, comprender a importancia que adquire en determinados contextos”, engade o investigador.

Despois desta fase realizouse tamén a análise dun conxunto de características obxectivas que puidesen ser medidas de xeito doado nunha escala de valores finita. Finalmente a análise conxunta das características obxectivas e subxectivas permitíronlle ao investigador chegar a conclusións, algunhas de carácter xeral, como o feito de que a simpatía da voz é un concepto complexo que está interligado con diversos parámetros psicoacústicos, e outra máis técnicas, entre as que destaca que para as voces femininas a maioría dos ouvintes se declinan por unha frecuencia media de 193 Hz e unha velocidade de 2.8 palabras por segundo.

De cara ao futuro o obxectivo é aumentar a base de datos de voz, tanto en número de linguas como en número de voces. “Ademais, gustaríanos desenvolver o mesmo tipo de aplicación tamén para voces masculinas”, engade Coelho.