A proposta de Noemí Pérez baséase no emprego de conxuntos aproximados

Unha tese presenta un novo modelo para a identificación do correo lixo que está na “rexión fronteira”

A investigación foi desenvolvida na Escola Superior de Enxeñaría Informática ourensá

Etiquetas

Ourense
Investigación

Rosa Tedín DUVI 15/11/2016

Os datos indican que arredor da metade de todos os correos electrónicos en circulación son correo lixo ou spam, é dicir mensaxes non solicitadas, non desexadas e/ou de remitente descoñecido que os usuarios reciben nas súas contas de correo electrónico ou noutro medio de transmisión de información, como foros, mensaxería instantánea ou blogs, e que teñen por finalidade realizar publicidade, obtención de datos persoais, estafas económicas, introdución de virus ou outros prexuízos para o receptor. Dada a “enorme problemática asociada a eles”, Noemí Pérez desenvolveu na súa tese de doutoramento un novo modelo de clasificación do spam máis eficiente e tres algoritmos para clasificar os correos lixo que están na “rexión fronteira”, aqueles que non se poden clasificar con ningunha regra das que aplican os actuais clasificadores.

A tese, titulada Modelo intelixente para a clasificación de correos spam baseado no emprego de conxuntos aproximados, foi dirixida polo profesor José Ramón Méndez Reboredo e presentada na Escola Superior de Enxeñaría Informática do campus de Ourense. “Durante a realización deste traballo de investigación estudouse a efectividade de distintas técnicas populares no filtrado de correos lixo. Ademais, desenvolveuse un estudo sobre a inclusión de conxuntos aproximados na detección de correos ilexítimos e a súa posible combinación coas metodoloxías xa existentes para a mellora do filtrado”, explica a xa doutora.

Un enfoque novo

A técnica dos conxuntos aproximados, indica a investigadora, é unha técnica que permite a partir dunha cantidade de datos xerar unha serie de regras de decisión. Unha desas regras de decisión pode ser, por exemplo, que se no correo aparece "buy" ou "viagra" é clasificado como correo lixo. Esta técnica, apunta, “posúe características que se adaptan á perfección ao dominio do filtrado de correo lixo: habilidade para descubrir patróns ocultos, identificación de relacións que os métodos estatísticos non proporcionan, xeración do conxunto de atributos mínimo para a clasificación e a posibilidade de xerar regras de decisión”. A pesar destas propiedades, os conxuntos aproximados constitúen unha técnica apenas usada neste ámbito ata o momento, segundo salienta a enxeñeira informática. “O traballo que realizamos introduce un novo modelo para o filtrado de correos lixo baseado no emprego de conxuntos aproximados xunto cunha nova aproximación para a rexión fronteira combinado con outras técnicas de aprendizaxe automática así como unha avaliación das técnicas máis usadas comunmente e unha comparativa destas co novo modelo proposto”, resume Noemí Pérez.

No estudo realizado, engade Noemí Pérez, proponse “unha estratexia para a clasificación daqueles correos electrónicos que están na chamada rexión fronteira, aqueles que non se poden clasificar con ningunha regra”. Para acadalo, a investigadora desenvolveu tres heurísticas diferentes, ou algoritmos, que foron sometidas á comparación cos mellores clasificadores existentes para demostrar a súa efectividade. “En todos os casos a aplicación de conxuntos aproximados obtivo un maior número de correos correctamente clasificados e unha baixa taxa de erros de tipo falso positivo, só superado nalgúns casos polos clasificadores SVM e Flexible Bayes”, comenta.

Dando resposta á natureza cambiante do spam

O modelo proposto pola investigadora combina métodos de aprendizaxe automática, o conxunto de regras xerado mediante a utilización de conxuntos aproximados e a aproximación máis eficaz para clasificar correos na rexión fronteira desenvolvida durante a a elaboración da tese de doutoramento. A proposta resultante, indica Noemí Pérez, “saca partido da rápida execución das técnicas de aprendizaxe automática e a gran precisión alcanzada mediante o uso de conxuntos aproximados”. No estudo realizado, precisa a doutora, póñense de manifesto dúas conclusións moi importantes á hora de realizar a avaliación do correo lixo, como son a importancia dos erros de tipo falso positivo e todos os problemas asociados ao chamado “concept drift”, concepto que se refire á natureza cambiante do correo lixo. As técnicas que implementan aprendizaxe continua, indica neste senso a investigadora, “son máis tolerantes aos cambios da natureza do spam debido á actualización constante do coñecemento manexado polo modelo”.

“Debe terse en conta que os remitentes de correo lixo acumulan cada vez máis experiencia e agudizan o seu inxenio para que os seus correos non sexan detectables con facilidade. Isto, xunto coa natureza cambiante do contido destes correos e o enorme custe que esta práctica supón a empresas e usuarios, fai necesaria unha constante innovación nas técnicas de detección de spam”, comenta Noemí Pérez. Ademais, engade por último, resulta importante analizar de modo exacto a súa efectividade para non desperdiciar recursos e tempo en técnicas que non poidan proporcionar información útil.