DUVI

Diario da Universidade de Vigo

Froito da tese de doutoramento de Juan Otero Pombo

Un método de corrección ortográfica resolve os principais conflitos nos sistemas de recuperación de información

Integrado na ferramenta de etiquetación morfosintáctica Mr. Tagoo

Etiquetas
  • Ourense
  • Investigación
DUVI 26/01/2010

Na actualidade xéranse e publícanse gran cantidade de datos en formato electrónico que deben ser procesados e estruturados para facilitar un acceso rápido e eficaz aos mesmos. Neste contexto, o investigador da Escola Superior de Enxeñaría Informática, Juan Otero, desenvolveu para a súa tese de doutoramento un sistema de corrección ortográfica que soluciona os problemas máis importantes á hora de procesar as consultas nun sistema de recuperación de información.
A principal achega do seu traballo consiste na creación “dun método que resulta moito máis eficiente que os métodos globais clásicos”, indicou o investigador. Baixo o título Análise léxico robusto, Otero aborda “o desenvolvemento e avaliación de técnicas de corrección ortográfica robusta e a súa aplicación en contornas de recuperación de información nas que as consultas presentan erros”, explicou.
Os sistemas de recuperación de información permiten localizar aqueles documentos dunha colección que satisfagan os requirimentos dun usuario, expresados en forma de consultas en linguaxe natural, pero é frecuente a introdución de erros ortográficos ou de dixitación á hora de facer as procuras, de aí a importancia de desenvolver ferramentas como as que agora achega o investigador ourensán.

Un novo sistema de corrección ortográfica

O método de corrección ortográfica elaborado por Otero foi integrado na ferramenta de etiquetación morfosintáctica Mr. Tagoo, desenvolta no grupo de investigación Compiladores e Linguaxes da Universidade de Vigo, ao que tamén pertence o autor da tese. Deste xeito, obtívose unha solución integral capaz de resolver de forma eficiente os tres problemas principais que se presentan á hora de procesar as consultas nun sistema de recuperación de información, “a ambigüidade segmental, a ambigüidade morfosintáctica e a corrección ortográfica contextual”, explicou Otero.
O resultado dos experimentos, realizados nunha contorna de recuperación de información con consultas degradadas, poñen de manifesto que “o emprego de técnicas de corrección ortográfica ten un impacto moi positivo sobre os sistemas de recuperación de información”, fronte a outras propostas realizadas con anterioridade. Ademais, como alternativa á aplicación de algoritmos de corrección ortográfica, avaliouse tamén “unha técnica de recuperación de información baseada en n-gramas de carácteres superpostos, que presenta a vantaxe de non requirir ningún recurso lingüístico extra”, e ofreceu tamén uns excelentes resultados en contornas nas que existe un elevado número de erros nas consultas.

Problemas á hora de recuperar información

Un destes conflitos vén provocado pola ambigüidade segmental. Esta denominación fai referencia a aquelas situacións nas que a identificación dos termos que forman unha consulta non resulta evidente. Así, “a palabra en galego ‘polo’ podería referirse ao animal ‘pito’ ou á preposición ‘por’ seguida do artigo ‘o’, ou incluso ao verbo ‘pos’ seguido do artigo ‘o”. Un sistema de recuperación de información debería “ser quen de determinar en cada ocasión cal é a alternativa máis probable, para evitar responder a unha consulta como ‘campións de liga polo goal average’ con documentos que falen sobre pitos de curral”.
Outro dos problemas máis importantes na recuperación de información é froito da ambigüidade morfosintáctica. Esta dase naquelas palabras que poden xogar distintos papeis segundo a frase na que aparezan, por exemplo, “a palabra ‘para’ pode actuar como preposición ou como dúas formas dos verbos ‘parir’ e ‘parar’, o que pode resultar determinante para elixir os documentos relevantes para unha consulta que a conteña”.
O terceiro dos conflitos é a corrección ortográfica contextual, que consiste en elixir entre as alternativas obtidas ao aplicar unha técnica de corrección sobre unha palabra descoñecida aquela que mellor encaixa na consulta en que esta aparece. Se a consulta fose ‘compra-venda de coches novis’, ao tratar de corrixir a palabra ‘novis’ “obteríanse as alternativas ‘novos’, ‘novas’ e ‘noves’ e o sistema de recuperación de información debería ser capaz de determinar que o que o usuario quería dicir era ‘compra-venda de coches novos”.