La imagen me encanta resumen bien, muchas de las cosas que se ven muy amenudo en Datamining.
Organizando, decidí recopilar muchas de las cosas que tenía impresa inecesariamente, y reciclarlas : D
así que en este post colocaré artículos, papers, información impresa que me gustaría tener un registro de ella:
Papers:
"Discovery of interesting Usage Patterns from Web data"
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.33.1543&rep=rep1&type=pdfData"
Interesante :O, usan logs para analizar el comportamiento del usuario, es viejísimo el paper pero es
como el paper que es mencionado constantemente, también uno de los que escribió el paper es el
escritor del libro:
http://www.cse.msu.edu/~ptan/
Si quieres saber de Datamining y Web, es un buen punto para leer.
"The class imbalance problem in pattern classfication and learning"
http://marmota.dlsi.uji.es/WebBIB/papers/2007/1_GarciaTamida2007.pdf
Notas:
alternativas que se pueden realizar cuando está desbalanceado el conjunto de datos, bien sea over o under sampling, medidas de ganancia empleada, soluciones a nivel del algoritmo, mejora con ensembles, no siempre compensar la clase desbalanceada ayuda a clasificar, es mejor tener la medida de ganancia de modelo generado por ensembles, curva ROC, precisión y recall.
Este artículo está bueno leer.
http://www.datasciencecentral.com/profiles/blogs/66-job-interview-questions-for-data-scientists
"Aprendizaje Automático: Algoritmos genéticos" 2004
Quintairos
Notas: Metaheuritica, tiene buen esquema de los pasos de un algoritmo genético y no es tan viejo.
"Data Preparation for Mining World Wide Web Browsing Patterns"
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.11.3835&rep=rep1&type=pdf
Notas:
Información sobre como procesar datos provenientes de la Web, medidas como lift, confianza, belief (creencia), conjunto de creencias, las creencias pueden ser generadas manualmente en base al dominio del conocimiento, siendo esto No práctico. El dominio del conocimiento puede ser usado para automáticamente crear evidencia sobre las creencias.
Cobertura/ Coverage: es la medida de la fracción total del número de transacciones que contienen al menos un item del itemset. count (A y B) / NT
Este paper propone un modelo basado en el soporte lógico.
Establece el criterio para medir el interes o lo interesante de un atributo. pudiendo ser:
objetivo: soporte, lift, confianza. subjetivo: novelty o unexpectedness.
Web Mining tiene los siguientes tipos de dominio de información:
- contenido
- estructura
- usabilidad
Fundamental en web mining es el descubrimiento del conocimiento, y alguna expectacion definida del conocimiento (creencias)
belief utiliza un framework de lógica difusa (Baldwin's support logic) manejando multiples fuentes de evidencia. y busca reglas que no contradigan una creencia existente.
Define evidencia como cada pieza de información (regla, termino o medida).
cada creencia posee una escala de evidencia, o evidencia necesaria. y cada creencia tiene una cantidad de ignorancia acerca de la creencia. La evidencia se clasifica en: evidencia necesaria, evidencia posible.
Las evidencias son interesantes cuando:
las creencias entran en conflicto con la evidencia.
las creencias con evidencia de la fuente.
Clasificadores Basados en Reglas:
Ripper: analiza la ganancia de la información, el conjunto de datos más pequeños, como clasificación positiva y el resto como clasificación negativa.
Prims: No toma en cuenta el tamaño de la clase, sino que a medida que va iterando va añadiendo atributos de la clase como condición por lo que tiende a sobreajustar los datos y para ello puede hacerse prunning en cada iteración o prunning global.
Sobre Metaheuristica:
"Improving User Profiles for E-Commerce by Genetic Algorithms"
Paper Yi-Shin and Cyrus Shanabi
Notas: meciona diferentes tipos de sistema de recomendación, técnicas de análisis de datos.
técnicas de filtrado: content-based filtering, collaborative filtering. Cada uno tiene sus puntos beneficios y sus puntos débiles. Cabe destacar que el sistema es susceptible en generar soluciones no adecuadas si el comportamiento del usuario no es consistente, en cuanto al flujo de su navegación. Y mencionan que no existe algún mecanismo de aprendizaje automático que pueda lidiar con comportamientos inconsistentes.
El cromosoma será decodificado en un perfil del usuario.
La función fitness toma en cuenta dos factores, promedio de satisfacción de usuarios con la lista generada, y la lista de deseos estimada para el usuario, midiendo la similaridad entre estos dos factores, mientras más parecido mejor es la lista de deseos del usuario.
"A Review of evolutionary Algorithms for E-Commmerce"
Paper Alex. A Freitas
Menciona varios papers que tratan de algoritmos evolutivos y su aplicación para ecommerce, tiene una aplicación muy clara de programación genética con una estructura de datos de árboles. definiciones variasGA = algoritmo evolutivo, PG = programación genética. cada iteración es una generación, la función fitness filtra los individuos que estarán en la siguiente generación. La tasa de mutación, crossover definirá los cambios que se realizan sobre la población.
"Genetic Algorithms for credit card fraud detection"
SATVIK VATS, SURYA KANT DUBEY, NAVEEN KUMAR PANDEY
"Review on evolutionary algorithms in Datamining"
A. Freitas
"A review on evolutionary algorithms in Bayesian network learning and inference tasks"
A review on evolutionary algorithms in Bayesian network learning and inference tasks
"Integración de técnicas de Minería de datos y metaheurísticas en sitios de comercio electrónico"
Barragan Edgar, Giraldo Fabián Andres.