Un albero decisionale è un modello che permette di prendere una decisione in base ad un sistema di classificazione.
Cos’è un albero decisionale?
Gli alberi decisionali sono una tecnica per risolvere alcune tipologie di problemi di classificazione. Nei problemi di classificazione abbiamo tipicamente una serie di dati, definibili storici perché già in nostro possesso e già classificati da esperti del dominio applicativo, e vogliamo essere in grado di classificare le nuove istanze di dati.
Il grande vantaggio è la sua interpretabilità: a differenza di tante tecniche di analisi dati, spesso basate su somme ponderate di valori, il criterio con cui opera un albero decisionale è chiarissimo. In ogni nodo dell’albero c’è un criterio in base al quale si prosegue per uno dei rami sottostanti, fino ad arrivare ad una decisione.
Per comprendere il funzionamento di un albero decisionale utilizzeremo l’esempio dello Spam.
Un esempio classico di problema di classificazione è riuscire a distinguere i messaggi di posta elettronica “autentici” dallo Spam, la posta indesiderata.
Un algoritmo di classificazione cerca delle regolarità nei dati da poter sfruttare per riconoscere i nuovi dati. Sempre facendo riferimento al problema dello Spam, si cercano dei tratti caratteristici, come ad esempio la presenza di diversi link o di errori grammaticali, per poter identificare con certezza l’e-mail come Spam.
Che relazione c’è tra data mining ed alberi decisionali?
Gli alberi decisionali sono una delle tante tecniche che vengono impiegate nel Data Mining, ovvero quell’analisi statistica che ha come scopo l’estrazione semi automatica di conoscenza nascosta in voluminose basi di dati al fine di renderla disponibile e direttamente utilizzabile.
Qual è la differenza fra classificazione e regressione?
Gli alberi decisionali, a seconda della natura della variabile di risposta, vengono definiti alberi di classificazione o alberi di regressione. Nel primo caso la variabile di risposta sarà qualitativa (ad es. Si/No) mentre nel secondo caso sarà quantitativa, ovvero un numero. Nei problemi di classificazione devo assegnare una categoria ai nuovi dati che mi arrivano, ad esempio devo decidere se un’e-mail è Spam oppure no. Nei problemi di regressione invece devo stimare un valore numerico: ad esempio, devo assegnare il valore a un’auto usata sulla base di un database di prezzi a cui ho venduto in precedenza auto usate.
Cos’è in breve e quali innovazioni ha portato la tecnologia del ‘random forest’?
Come abbiamo già detto uno dei vantaggi degli alberi decisionali è la produzione di regole chiare di classificazione e la loro facilità di interpretazione. Tuttavia spesso presentano una scarsa performance predittiva. Per ovviare a ciò sono state messe a punto delle tecnologie di model ensemble, in cui cioè la fase di training (l’addestramento degli alberi a partire da dati esistenti) viene effettuato su diversi training set presi casualmente. Una delle tecniche utilizzate è quella denominata ‘random forest’.
La tecnica del “random forest” consiste nell’utilizzare, per un dato problema di classificazione, diversi alberi di decisione, da usare insieme: si usa poi la decisione scelta dalla maggioranza degli alberi come decisione finale. Questa tecnica consente di avere diversi punti di vista (alberi decisionali) sullo stesso problema e questo, per parecchi problemi, garantisce risultati migliori. Tuttavia si perde la capacità di generare in output quelle regole che rendono gli alberi decisionali uno strumento di facile interpretazione.
Redatto da Lucia D’Adamo, in collaborazione con Luigi Laura, supervisionato da Marco Pirrone