DUVI

Logo DUVI

Diario da Universidade de Vigo

Foi realizada por Martín Pérez, investigador do Grupo Sing

Unha tese desenvolve novas ferramentas bioinformáticas no eido da minaría de textos clínicos

Os avances realizados están dispoñibles no software Markyt Annotation e Evaluation

Etiquetas
  • Estudantes
  • Medios
  • PAS
  • PDI
  • Público externo
  • Ourense
  • Saúde
  • TIC
  • Investigación
Rosa Tedín DUVI Ourense 05/07/2019

Nos últimos anos, os avances nas ciencias da vida provocaron un aumento considerable do número de estudos biomédicos publicados, sendo cada vez máis complexa a recompilación de información útil. Tendo en conta esta problemática, na súa tese de doutoramento Martín Pérez, investigador do Grupo Sistemas Informáticos de Nova Xeración (Sing) da Universidade de Vigo, desenvolveu novas ferramentas bioinformáticas no eido da minaría de textos para facilitar o tratamento automatizado e eficiente de bibliografía clínica.

A tese, titulada Desenvolvemento de ferramentas intelixentes para vistas especializadas e integradas da bibliografía clínica, estivo dirixida por Analía Lourenço e Martín Krallinger e foi presentada este curso académico na Escola Superior de Enxeñaría Informática do campus de Ourense. Segundo explica o seu autor, o obxectivo principal da tese foi a creación de ferramentas bioinformáticas novas, dentro do campo da minaría de textos clínicos, que permitisen a investigadoras e investigadores biomédicos e bioinformáticos “mellorar o rendemento dos modelos de procesamento de textos usados para o recoñecemento e clasificación automática de contido, a calidade dos recursos semánticos (en particular os corpora) e a representación dos contidos anotados de forma manual ou de forma semiautomática”.

As bases da tese, detalla Martín Pérez, aséntanse no software Markyt Annotation, presentado polo Grupo Sing á comunidade científica en 2014 “como unha aplicación web para a anotación manual de documentos de texto con funcionalidades que permiten a avaliación da calidade”. Esta aplicación, comenta o xa doutor, atraeu a atención de varios grupos científicos internacionais “e foi e segue sendo unha das primeiras ferramentas de anotación web capaces de xestionar desprazamentos ou offsets en textos html enriquecidos”. Na súa tese de doutoramento, o investigador do campus de Ourense presenta “un conxunto de metodoloxías e funcionalidades desenvolvidas e incorporadas en Markyt Annotation que fan deste sistema unha ferramenta versátil e efectiva para a mellora sistemática da calidade dos procesos de anotación de entidades e/ou relacións”.

Melloras e probas

No seu traballo, o enxeñeiro informático creou novos módulos da plataforma Markyt centrados no desenvolvemento de novas metodoloxías de anotación e mellora da calidade final do corpora, do conxunto de documentos anotados. Concretamente, Martín Pérez creou un módulo que soporta a produción de corpora con anotacións semánticas de relacións entre entidades biomédicas, o que inclúe a capacidade de definir de forma parametrizada os tipos de relacións de interese e a visualización e anotación de relacións con distinto nivel de detalle (como por exemplo a co-mención en frase). Ademais, o investigador desenvolveu Markyt Evaluation, plataforma que “é capaz de avaliar de forma simple, intuitiva e interactiva, a capacidade que teñen os distintos modelos automáticos de procesamento de texto para recoñecer as entidades semánticas dun determinado problema”. Esta funcionalidade, afirma o enxeñeiro informático, ofrece a posibilidade de optimizar os modelos de anotación automática actuais de forma dirixida, “o cal permite unha mellora sinxela dos sistemas de predición actuais”. Markyt Evaluation, comenta o seu creador, “tivo, e ten, unha boa acollida por parte da comunidade internacional debido en gran medida á posibilidade de avaliar os modelos baixo demanda”.

En canto á creación de modelos de clasificación de relevancia de documentos dentro un ámbito específico, a tese, explica o seu autor, desenvolve unha metodoloxía eficaz para o tratamento de grandes volumes de documentos, a fin de atopar aqueles que son relevantes dentro dun dominio concreto. Na súa investigación, Martín Pérez introduciu tamén un estratexia que combina a minaría de textos e a minaría de redes no contexto da análise eficiente e detallada de contidos de interese biomédico publicados na literatura científica. “Esta estratexia aplicouse á recompilación e curación semi-automáticas de información sobre substancias con mecanismos de acción capaces de inhibir ou atenuar os mecanismos de comunicación usados polas bacterias cando forman comunidades”, comenta. O caso de estudo elixido, detalla Marín Pérez, substancias capaces de atenuar/inhibir a comunicación entre células de Pseudomonas aeruginosa, é de grande interese clínico posto que esta bacteria é co-responsable dun gran número de infeccións nosocomiais e manifesta unha resistencia significativa e crecente aos antibióticos tradicionais. “A través da plataforma online PCQuorum pódese navegar pola amplia rede de coñecemento desenvolvida e analizar, mediante distintas técnicas de visualización intelixentes, as evidencias experimentais existentes, pondo de relevo liñas de investigación potencialmente novas e/ou pouco estudadas”, subliña o investigador.

Na tese tamén se demostra a aplicabilidade práctica da plataforma Markyt Annotation e Markyt Evaluation describindo a súa participación no BioCreative Chemdner, “unha competición internacional e de recoñecido prestixio que promove a mellora dos modelos e algoritmos de minaría de texto de interese no eido da biomedicina”, segundo explica Martín Pérez. “A retroalimentación dos organizadores e dos participantes na competición serviu para validar e ampliar as funcionalidades da plataforma, á vez que permitiu impulsar o seu uso dentro desta comunidade científica”, sinala o investigador. Neste caso de aplicación, engade por último o enxeñeiro informático, “o soporte ofrecido por estas dúas plataformas nesta competición permitiron o desenvolvemento de novas métricas de avaliación e de novas funcionalidades de cara a dar soporte a outros certames como o IberEval Barr e o BeCalm Tips”.