Los árboles de decisiones son utilizados frecuentemente.
- Permiten hacer búsqueda no exhaustivas, en un espacio de versiones.
- Reciben en sus atributos parametros nominales y continuos. Pero siempre es recomendado discretizar los parametros continuos, para que tenga mejor desempeño, y el porcentaje de correctitud sea mejor.
- Dependiendo de los parámetros de entrada, -c en weka varía la confianza y tomando en cuenta si el conjunto de datos pasó por un preprocesamiento de datos (discretizar, filtrar, limpiar datos, manejo de missing values) el porcentaje de correctitud mejorará.
- Para visualizar el sobreajuste que realizan los árboles de decisiones se realizó un experimento, donde se variaba la confianza desde 0.01 hasta 0.5 en 0.01 los resultados obtenidos en cuanto a correctitud y profundidad del árbol fueron graficados. y se pudo observar que existe un pto en el cual el porcentaje de correctitud con el conjunto de datos de prueba llega a estar cerca del porcentaje de correctitud con el conjunto de datos de entrenamiento. Siendo este punto el mejor arbol ya que no se sobreajusta a la data de entrenamiento, sino más bien por su generalidad al momento de utilizar la data de prueba permite mantener de forma cercana los porcentajes de correctitud.
- Es un algoritmo robusto, en cuando a factores de ruido (falsos positivos) y atributos con sin valores (missing values)
Los scripts utilizados están en: git hub
No es la mejor forma de realizarlo, se usó de todo, por el poco tiempo y como es necesaria la entrega de resultados. Se terminó así. :)
Los conceptos son tomados de libro Machine learning , Mitchell