Cover Page
The handle http://hdl.handle.net/1887/44953 holds various files of this Leiden University dissertation.
Author: Pinho Rebelo de Sá, C.F.
Title: Pattern mining for label ranking Issue Date: 2016-12-16
Resumo
E comum lidarmos com preferˆ´ encias no nosso dia-a-dia. Quando compramos um carro, procuramos uma casa ou mesmo quando decidimos o que comer, es- tamos a tomar decis˜oes que revelam informa¸c˜ao sobre as nossas preferˆencias.
Nos dias que correm, cada vez mais dados s˜ao recolhidos, onde se incluem tamb´em dados sobre preferˆencias.
A extrac¸c˜ao e a cria¸c˜ao de modelos de preferˆencias, podem fornecer in- forma¸c˜oes valiosas sobre determinados grupos ou indiv´ıduos. Em ´areas de neg´ocio como o com´ercio electr´onico, que lidam com informa¸c˜oes de milhares de utilizadores, a modela¸c˜ao de preferˆencias pode constituir um desafio. Por isso, m´etodos de Inteligˆencia Artificial (em particular, machine learning), tˆem sido cada vez mais usados para a descoberta e aprendizagem autom´atica de modelos sobre preferˆencias.
A ´area de machine learning que lida a modela¸c˜ao e estudo de preferˆencias
´e chamada de Preference Learning (PL). O tema deste doutoramento, foca em uma sub-´area de PL denominada de Label Ranking (LR). Em LR, os dados consistem em observa¸c˜oes constitu´ıdas por atributos (vari´aveis inde- pendentes) e rankings de um conjunto finito de objetos (target ou vari´aveis dependentes). O objectivo ´e prever esses rankings para novas observa¸c˜oes, baseando-se nos valores fornecidos das vari´aveis independentes. Neste traba- lho, foram propostas v´arias abordagens ao problema de LR.
Exploramos as Label Ranking Association Rules (LRAR), que s˜ao equivalen- tes `as Class Association Rules no contexto de LR. Por defini¸c˜ao, uma LRAR
´e uma regra de associa¸c˜ao onde o antecedente ´e um conjunto de itens base- ados nos valores das vari´aveis independentes, e o consequente ´e um ranking.
Com uma estrutura semelhante, tamb´em propusemos as Pairwise Associa- tion Rules (PAR), definidas como regras de associa¸c˜ao onde o consequente
´e um conjunto de pairwise comparisons. Tal como as LRAR, as PAR po- dem ser usadas como abordagens descritivas e como modelos de previs˜ao.
No entanto, a nossa an´alise foca-se nas propriedades descritivas das PAR,
155
156 RESUMO
enquanto que as LRAR foram usadas como modelos preditivos.
M´etodos de pr´e-processamento s˜ao uma parte essencial nos processos de ma- chine learning. As LRAR, tal como regras de associa¸c˜ao comuns, n˜ao con- seguem lidar directamente com vari´aveis num´ericas, que, por sua vez, tˆem que ser discretizadas `a priori. Dado que n˜ao existiam m´etodos de discre- tiza¸c˜ao especificamente para dados de LR, foram propostas duas abordagens baseadas em medidas de entropia de rankings.
Apesar de a maior parte deste trabalho focar em m´etodos de pattern mining, tendo em conta a popularidade de m´etodos como ´arvores de decis˜ao e pela forma clara como expressam informa¸c˜ao, propusemos as Entropy Ranking Trees. Mesmo j´a existindo ´arvores de decis˜ao para LR, uma vez que tinha sido proposta a medida de entropia de rankings, achamos natural estudar a sua integra¸c˜ao neste modelos. Outra abordagem tamb´em muito popular em machine learning ´e ensemble learning. Nomeadamente, um algoritmo denominado Random Forests (RF), tem sido bem sucedido, mas nunca tinha sido adaptado para LR. O m´etodo de RF, combina v´arios modelos de ´arvores de decis˜ao que s˜ao geradas usando algumas t´ecnicas de randomiza¸c˜ao. Por isso, propusemos ensembles de ´arvores de decis˜ao, baseados em RF, que chamamos de Label Ranking Forests.
Continuamos a nossa jornada na ´area de PL, combinando-a com t´ecnicas de local pattern mining. O m´etodo, a que chamamos de Exceptional Preferen- ces Mining (EPM), pode ser visto como uma t´ecnica de local pattern mining que encontra sub-conjuntos de observa¸c˜oes onde as preferˆencias se desviam do normal. Por outras palavras, ´e uma variante de Subgroup Discovery, em que os rankings s˜ao o target. Par isso, foram propostas trˆes medidas (quality measures) que procuram sub-conjuntos que apresentem preferˆencias consi- deradas excepcionais. Os resultados obtidos real¸cam tamb´em uma forma proposta de representar preferˆencias, a Preference Matrix.
Por ´ultimo, apresentamos formas de testar a rela¸c˜ao entre vari´aveis indepen- dentes e rankings, em dados de LR. Uma t´ecnica denominada target swap randomization, tamb´em aplicada em problemas de classifica¸c˜ao, foi imple- mentada para este tipo de testes. Al´em disso, tamb´em foram propostas duas variantes, baseadas em target swap randomization, para se adequarem melhor ao problema.
Os resultados experimentais apresentados demonstram o potencial dos m´etodos aqui propostos.