Cover Page The handle

(1)

Cover Page

The handle http://hdl.handle.net/1887/44953 holds various files of this Leiden University dissertation.

Author: Pinho Rebelo de Sá, C.F.

Title: Pattern mining for label ranking Issue Date: 2016-12-16

(2)

Resumo

E comum lidarmos com preferˆ´ encias no nosso dia-a-dia. Quando compramos um carro, procuramos uma casa ou mesmo quando decidimos o que comer, es- tamos a tomar decisões que revelam informa¸cão sobre as nossas preferências.

Nos dias que correm, cada vez mais dados são recolhidos, onde se incluem também dados sobre preferências.

A extraçcão e a cria¸cão de modelos de preferências, podem fornecer informa¸cões valiosas sobre determinados grupos ou indiv´ıduos. Em áreas de negócio como o comércio electrónico, que lidam com informa¸cões de milhares de utilizadores, a modela¸cão de preferências pode constituir um desafio. Por isso, métodos de Inteligência Artificial (em particular, machine learning), têm sido cada vez mais usados para a descoberta e aprendizagem automática de modelos sobre preferências.

A área de machine learning que lida a modela¸cão e estudo de preferências

é chamada de Preference Learning (PL). O tema deste doutoramento, foca em uma sub-área de PL denominada de Label Ranking (LR). Em LR, os dados consistem em observa¸cões constitu´ıdas por atributos (variáveis independentes) e rankings de um conjunto finito de objetos (target ou variáveis dependentes). O objectivo é prever esses rankings para novas observa¸cões, baseando-se nos valores fornecidos das variáveis independentes. Neste trabalho, foram propostas várias abordagens ao problema de LR.

Exploramos as Label Ranking Association Rules (LRAR), que são equivalen- tes às Class Association Rules no contexto de LR. Por defini¸cão, uma LRAR

é uma regra de associa¸cão onde o antecedente é um conjunto de itens baseados nos valores das variáveis independentes, e o consequente é um ranking.

Com uma estrutura semelhante, tamb´em propusemos as Pairwise Associa- tion Rules (PAR), definidas como regras de associa¸c˜ao onde o consequente

´e um conjunto de pairwise comparisons. Tal como as LRAR, as PAR podem ser usadas como abordagens descritivas e como modelos de previs˜ao.

No entanto, a nossa an´alise foca-se nas propriedades descritivas das PAR,

155

(3)

156 RESUMO

enquanto que as LRAR foram usadas como modelos preditivos.

Métodos de pré-processamento são uma parte essencial nos processos de machine learning. As LRAR, tal como regras de associa¸cão comuns, não con- seguem lidar directamente com variáveis numéricas, que, por sua vez, têm que ser discretizadas à priori. Dado que não existiam métodos de discre- tiza¸cão especificamente para dados de LR, foram propostas duas abordagens baseadas em medidas de entropia de rankings.

Apesar de a maior parte deste trabalho focar em métodos de pattern mining, tendo em conta a popularidade de métodos como árvores de decisão e pela forma clara como expressam informa¸cão, propusemos as Entropy Ranking Trees. Mesmo já existindo árvores de decisão para LR, uma vez que tinha sido proposta a medida de entropia de rankings, achamos natural estudar a sua integra¸cão neste modelos. Outra abordagem também muito popular em machine learning é ensemble learning. Nomeadamente, um algoritmo denominado Random Forests (RF), tem sido bem sucedido, mas nunca tinha sido adaptado para LR. O método de RF, combina vários modelos de árvores de decisão que são geradas usando algumas técnicas de randomiza¸cão. Por isso, propusemos ensembles de árvores de decisão, baseados em RF, que chamamos de Label Ranking Forests.

Continuamos a nossa jornada na área de PL, combinando-a com técnicas de local pattern mining. O método, a que chamamos de Exceptional Preferen- ces Mining (EPM), pode ser visto como uma técnica de local pattern mining que encontra sub-conjuntos de observa¸cões onde as preferências se desviam do normal. Por outras palavras, é uma variante de Subgroup Discovery, em que os rankings são o target. Par isso, foram propostas três medidas (quality measures) que procuram sub-conjuntos que apresentem preferências consi- deradas excepcionais. Os resultados obtidos real¸cam também uma forma proposta de representar preferências, a Preference Matrix.

Por último, apresentamos formas de testar a rela¸cão entre variáveis independentes e rankings, em dados de LR. Uma técnica denominada target swap randomization, também aplicada em problemas de classifica¸cão, foi imple- mentada para este tipo de testes. Além disso, também foram propostas duas variantes, baseadas em target swap randomization, para se adequarem melhor ao problema.

Os resultados experimentais apresentados demonstram o potencial dos m´etodos aqui propostos.