Selección con árboles de decisión

Una de las ventajas de los árboles de decisión es que proporcionan información sobre la importancia de cada característica en la predicción. Para estimar esta importancia existen diferentes métricas entre las que se incluyen:

  • Importancia basada en la ganancia de información: esta métrica mide la ganancia de información que se obtiene al dividir los datos en función de una característica determinada. Cuanto mayor sea la ganancia de información, más importante se considera la característica. Esta métrica está disponible en algunos algoritmos de árboles de decisión (como el algoritmo CART -Classification and Regression Trees-).

  • Importancia basada en la reducción de la impureza: esta métrica mide la reducción de la impureza que se produce al dividir los datos en función de una característica determinada. Cuanto mayor sea la reducción de la impureza, más importante se considera la característica. Esta métrica está disponible en algunos algoritmos de árboles de decisión (como el algoritmo ID3 -Iterative Dichotomiser 3- y el algoritmo C4.5).

  • Importancia basada en la permutación: esta métrica mide la reducción en el rendimiento del modelo al permutar aleatoriamente los valores de una característica. Cuanto mayor sea la reducción en el rendimiento, más importante se considera la característica. Esta métrica se puede utilizar con cualquier algoritmo de árboles de decisión y se basa en la premisa de que las características importantes deberían tener un impacto significativo en el rendimiento del modelo.