DUVI

Diario da Universidade de Vigo

Jorge Fernández desenvolveu na súa tese unha mellora das plataformas de filtrado existentes

Os buscadores web teñen en WSF2 un novo aliado contra as páxinas lixo

O modelo foi elaborado no Grupo de Investigación Sing da Escola Superior de Enxeñaría Informática

Etiquetas
  • Ourense
  • Investigación
Rosa Tedín DUVI 15/09/2016

Para acceder a Internet os usuarios e usuarias empregan maioritariamente os motores de busca, sitios web como Google especializados en localizar e listar un conxunto de páxinas que se axustan ás palabras clave indicadas. Durante os últimos anos, estes buscadores víronse seriamente ameazados por páxinas con contido lixo que intentan coarse dentro dos primeiros resultados proporcionados en cada consulta. Na súa tese de doutoramento, o enxeñeiro informático Jorge Fernández desenvolveu WSF2, unha plataforma “potente e flexible” de filtrado das chamadas web spam que "mellora os sistemas existentes".

O maior desafío actual

A tese, titulada Intelligent System for Web Spam Detection, estivo dirixida por Reyes Pavón e Rosalía Laza, e foi elaborada no Grupo de Investigación Sing da Escola Superior de Enxeñaría Informática do campus de Ourense durante catro anos. “O grupo ten levado a cabo nos últimos anos importantes traballos sobre spam no correo electrónico. Motivados polos resultados neste campo decidiuse trasladar os avances obtidos ao ámbito da web”, explica o investigador. Con este obxectivo na súa tese centrouse no chamado web spam, o intento artificial de manipulación dunha páxina web co fin de enganar aos motores de busca e así conseguir posicionarse no máis alto da lista de resultados que se proporcionan ao usuario.

Os investigadores, subliña o xa doutor pola Universidade de Vigo, “cualifican o problema do web spam como o maior desafío actual nas buscas web, xa que os motores ven seriamente afectadas as súas operacións por culpa deste tipo de páxinas”. Estudos feitos recentemente, sinala Fernández González, indican que a cantidade de lixo na web está “aumentando drasticamente”, detectando Google arredor de 9500 novas webs spam cada día, que afectan de 12 a 14 millóns de consultas diarias. Para estas páxinas maliciosas, explícase na tese, “non é suficiente con encontrarse indexado polos motores de busca, senón que a web debe aparecer situada o máis arriba posible xa que o 75% dos usuarios non pasa da primeira páxina de resultados e dentro da primeira páxina, a posición ocupada é moi importante”. Trátase en definitiva, apunta o enxeñeiro, dunha “lacra” que supón moitos inconvenientes tanto para os usuarios finais, que non atopan o que precisan, como para as compañías, que perden credibilidade e consumen recursos.

Aprendizaxe dinámica

Tendo en conta esta problemática, na súa tese de doutoramento, Jorge Fernández desenvolveu un modelo hi?brido de intelixencia artificial destinado a solventar o problema da deteccio?n e filtrado de dominios web que ofrecen contido ili?cito. Concretamente, o modelo proposto, denominado WSF2, implementa un sistema baseado en regras, que vai a ser o encargado de xestionar e executar os distintos algoritmos de clasificación incorporados ao sistema. Segundo explica o investigador, este conxunto de regras constitúen a base de coñecemento, que sera? utilizada polo modelo deseñado á hora de determinar a lexitimidade dun dominio web. Adicionalmente, co fin de manexar correctamente a natureza evolutiva do spam, o modelo incorpora un mo?dulo de aprendizaxe capaz de axustar automaticamente os para?metros de configuracio?n, permitindo asi? manter o rendemento de filtrado ao longo do tempo. Para levar a cabo este cometido, engade, o modelo proposto foi desen?ado utilizando una metodoloxi?a IBR, de razoamento baseado en instancias.

“O motor de regras reutilizara? estes resultados xunto con diferentes para?metros definidos polo usuario para levar a cabo a toma de decisións. Ademais, coa finalidade de dotar ao modelo desenvolvido dunha gran capacidade de adaptacio?n ao efecto provocado polo paso do tempo, sobre o motor de regras descrito implántase un sistema IBR, onde o conxunto de regras constitúe a base de coñecemento sobre a cal se vai a aplicar os mecanismos necesarios para conseguir unha aprendizaxe dina?mica”, explica o investigador. O sistema desenvolvido na tese iría integrado no buscador, detectando as páxinas con contido malicioso e evitando o seu procesamento por parte do buscador. Unha vez configurado o filtro por parte do usuario, aclara Jorge Fernández, o sistema compórtase de forma auto?noma e non require supervisio?n humana en ningunha das súas fases.

Mellora cualitativa e cuantitativamente

Segundo explica o investigador ourensán, as probas realizadas con este modelo “demostraron a superioridade do sistema proposto sobre os distintos modelos analizados dentro do marco do problema estudado, tanto a nivel de precisio?n como de rapidez á hora de levar a cabo a tarefa de clasificacio?n". O sistema IBR desenvolvido, engade, “mellora cualitativa e cuantitativamente a todos os modelos contra os que se comparou”, sendo capaz de producir "clasificacións ma?is acertadas e con maior precisio?n e rapidez". Ademais, engade, o traballo realizado durante a tese estableceu “as bases para a creacio?n de te?cnicas para o filtrado do spam na web, tendo en consideracio?n conceptos tan importantes neste a?mbito como o desbalanceo de clase, xunto co desenvolvemento dun modelo capaz de sacar partido ás achegas da investigacio?n realizada”.