17 ENE 2018

¿Qué es un árbol de decisión?

Un árbol de decisión es un modelo que permite tomar una decisión basándose en un sistema de clasificación.

¿Qué es un árbol de decisión?

Los árboles de decisión son una manera para resolver algunas tipologías de problemas de clasificación. En los problemas de clasificación se suele tener varios datos, que se definen “históricos”, porque ya disponemos de estos o porque ya han sido clasificados por expertos del dominio de las aplicaciones y queremos ser capaces de clasificar las nuevas instancias de datos.

La grande ventaja es su nivel de interpretación: al contrario de tantas técnicas de análisis de datos, a menudo basadas en sumas ponderadas de valores, el criterio que usa un árbol de decisión para funcionar es muy claro. En cada nudo del árbol hay un criterio por el cual se procede con uno de los ramos subyacentes, hasta llegar a una decisión.

Para entender el funcionamiento de un árbol de decisión vamos a usar el ejemplo del correo basura.

Un problema clásico de clasificación es lograr distinguir los correos electrónicos “autenticos” de los basura.

Un algoritmo de clasificación busca unas regularidades en los datos que se pueden explotar para reconocer los nuevos datos. Siempre haciendo referencia al problema del correo basura, se buscan algunos rasgos característicos, como por ejemplo la presencia de diferentes enlances o de errores gramaticales, para poder detectar con seguridad los correos basura.

¿Qué relación hay entre la minería de datos y los árboles de decisión?

Los árboles de decisión son una de las tantas técnicas que se usan en la minería de datos, es decir aquella análisis estadística cuya finalidad es la extracción semiautomática de conocimiento escondido en grandes bases de datos para que sea disponible y directamente utilizable.

¿Cuál es la diferencia entre la clasificación y la regresión?

Los árboles de decisión, dependiendo del tipo de variable de respuesta, se definen árboles de clasificación o de regresión. En el primer caso la variable de respuesta será cualitativa (por ejemplo sí/no), mientras que en el segundo caso será cuantitativa, es decir un número. En los problemas de clasificación tengo que asignar una categoría a los nuevos datos que me llegan, por ejemplo tengo que decidir si un correo es basura o menos. En los problemas de regresión, en cambio, tengo que estimar un valor numérico: por ejemplo, tengo que asignar el valor a un coche usado basándome en una base de datos de precios que usé para vender otros coches usados antes.

¿En definitiva qué es la tecnología del “random forest” y hacia cuáles innovaciones ha conducido?

Como ya hemos dicho, una de las ventajas de los árboles de decisión es la producción de reglas claras de clasificación y su facilidad de interpretación. Sin embargo a menudo presentan un escaso rendimiento predictivo. Para obviar a este problema, se han desarollado algunas tecnologías de “model ensemble” donde la fase de entrenamiento (con referencia a los árboles que se costruyen usando datos que ya se poseen) se hace en diferentes conjuntos de entrenamiento decididos casualmente. Una de las técnicas usadas es la llamada “random forest”.

La técnica del “random forest” consiste en usar, para un específico problema de clasificación, diferentes árboles de decisión, que se usan juntos: la decisión final es la elegida por la mayoria de los árboles. Esta técnica permite tener diferentes puntos de vista (árboles de decisión) sobre el mismo probema y por eso, para muchos problemas, garantiza resultados mejores. Sin embargo pierde la capacidad de generar de salida aquellas reglas que hacen que los árboles de decisión sean un instrumento de fácil interpretación.

Elaborado por Lucia D’Adamo, en colaboración con Luigi Laura, supervisado por Marco Pirrone

Últimas Noticias