Thursday, August 16, 2012

Sobre árboles, específicamente j48.


Los árboles de decisiones son utilizados frecuentemente.

- Permiten hacer búsqueda no exhaustivas, en un espacio de versiones.

- Reciben en sus atributos parametros nominales y continuos. Pero siempre es recomendado discretizar los parametros continuos, para que tenga mejor desempeño, y el porcentaje de correctitud sea mejor.

- Dependiendo de los parámetros de entrada, -c en weka varía la confianza y tomando en cuenta si el conjunto de datos pasó por un preprocesamiento de datos (discretizar, filtrar, limpiar datos, manejo de missing values) el porcentaje de correctitud mejorará.

- Para visualizar el sobreajuste que realizan los árboles de decisiones se realizó un experimento, donde se variaba la confianza desde 0.01 hasta 0.5 en 0.01 los resultados obtenidos en cuanto a correctitud y profundidad del árbol fueron graficados. y se pudo observar que existe un pto en el cual el porcentaje de correctitud con el conjunto de datos de prueba llega a estar cerca del porcentaje de correctitud con el conjunto de datos de entrenamiento. Siendo este punto el mejor arbol ya que no se sobreajusta a la data de entrenamiento, sino más bien por su generalidad  al momento de utilizar la data de prueba permite mantener de forma cercana los porcentajes de correctitud.

- Es un algoritmo robusto, en cuando a factores de ruido (falsos positivos) y atributos con sin valores (missing values)

Los scripts utilizados están en: git hub

No es la mejor forma de realizarlo, se usó de todo, por el poco tiempo y como es necesaria la entrega de resultados. Se terminó así. :)

Los conceptos son tomados de libro Machine learning , Mitchell