DUVI

Diario da Universidade de Vigo

Está liderado por un equipo de investigación do campus de Ourense

Un proxecto busca filtrar mellor o correo lixo con técnicas baseadas nas intencións e temáticas dos correos

Realízase en colaboración coa Escola Politécnica Superior Mondragón Unibertsitatea

Etiquetas
  • Estudantes
  • Medios
  • PAS
  • PDI
  • Público externo
  • Ourense
  • TIC
  • Investigación
DUVI Ourense 30/05/2019

Analizar, experimentar e desenvolver novas técnicas de extracción de información, selección de características e clasificación que usen información semántica para mellorar a precisión e configurabilidade dos filtros de correos lixo ou spam. Con este obxectivo, persoal investigador da Escola Superior de Enxeñaría Informática do campus de Ourense e da Escola Politécnica Superior de Mondragón Unibertsitatea están a desenvolver o proxecto Integración de Coñecemento Semántico para o Filtrado de Spam Baseado en Contido (SKI4Spam).

SKI4Spam está financiado polo Ministerio de Economía, Industria e Competitividade a través da convocatoria de Proxectos Retos do ano 2017 con un total de 123.178 euros, 59.532 dos cales son para o grupo ourensán. Coordinado polo profesor da Escola Superior de Enxeñaría Informática José Ramón Méndez, o equipo da Universidade de Vigo complétase con Reyes Pavón, Rosalía Laza, Silvana Gómez e Tomás Raimundo. Os equipos implicados, comenta José Ramón Méndez, unen o coñecemento acumulado en materia de sistemas antispam de varios grupos de investigación, como son o grupo de Sistemas Informáticos de Nova Xeración (Sing) da Universidade de Vigo e do grupo Sistemas Intelixentes para Sistemas Industriais (Sisi) da Escola Politécnica Superior de Mondragon Unibertsitatea, liderado por Urko Zurutuza Ortega.

A hipótese de partida deste proxecto que se desenvolve ata finais do ano 2020, detalla o seu coordinador, é que mediante o uso de información semántica en todas as fases da clasificación pódese mellorar significativamente a precisión de filtrado de lixo alcanzada en esquemas baseados en contido e conseguir así unha mellor personalización dos mesmos. De validar esta hipótese durante o proxecto, apunta, “sería posible o deseño, implementación e despregue de filtros con maior precisión e máis configurables para o usuario final”.

Máis eficacia e personalización

No proxecto, de carácter coordinado, o equipo da Universidade de Vigo céntrase concretamente na selección de características baseada en información semántica e técnicas de clasificación para o filtrado de contidos lixo de diversas fontes. “Ata a actualidade, a maioría de filtros lixo baseados en contido usan técnicas de aprendizaxe automática empregando como entrada características sobre a presenza ou frecuencia de palabras concretas nos textos”, comentan os responsables do traballo. Considerando que esta solución é mellorable, SKI4Spam “céntrase en determinar intencionalidades e/ou temáticas dos contidos que se usarán como entrada para as técnicas de aprendizaxe automática”.

A iniciativa contempla tamén o desenvolvemento de clasificadores de correo lixo capaces de utilizar eficazmente este coñecemento xunto con información semántica complementaria para a mellora do filtrado. Coa idea de que os intereses dun usuario polos contidos poden variar en función do servizo de Internet empregado e das súas preferencias persoais (por exemplo, disposición a recibir chistes en redes sociais pero non na conta de correo electrónico corporativo), o proxecto tamén propón o filtrado de temáticas configurable en función do usuario e do servizo de Internet.

“Esta proposta, que contempla o uso de técnicas avanzadas de información semántica, pretende a creación dun sistema capaz de recoñecer as temáticas principais dos contidos para ser capaz de realizar a súa clasificación en distintos perfís de comunicación configurables polo usuario”, detallan os seus responsables. Este tipo de filtros por temáticas, engaden, “será moi efectivo na loita contra o spam á vez que poderá ser empregado nun futuro para a agrupación automática de contidos por temática (e segundo as preferencias do usuario)”. Esta agrupación automática de contidos, subliñan por último os responsables de SKI4Spam, “poderá ser facilmente explotado en gran cantidade de ámbitos (médico, universitario, etc.) para aumentar significativamente a produtividade dos usuarios”.