Sunday, November 24, 2013

Referencias sobre papers que hablan de datamining.


La imagen me encanta resumen bien, muchas de las cosas que se ven muy amenudo en Datamining.

Organizando, decidí recopilar muchas de las cosas que tenía impresa inecesariamente, y reciclarlas : D
así que en este post colocaré artículos, papers, información impresa que me gustaría tener un registro de ella:

Papers:

"Discovery of interesting Usage Patterns from Web data"
 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.33.1543&rep=rep1&type=pdfData"
Interesante :O,  usan logs para analizar el comportamiento del usuario, es viejísimo el paper pero es
como el paper que es mencionado constantemente, también uno de los que escribió el paper es el
escritor del libro:
http://www.cse.msu.edu/~ptan/
Si quieres saber de Datamining y Web, es un buen punto para leer.

"The class imbalance problem in pattern classfication and learning"
http://marmota.dlsi.uji.es/WebBIB/papers/2007/1_GarciaTamida2007.pdf
Notas:
alternativas que se pueden realizar cuando está desbalanceado el conjunto de datos,  bien sea over o under sampling, medidas de ganancia empleada, soluciones a nivel del algoritmo, mejora con ensembles, no siempre compensar la clase desbalanceada ayuda a clasificar, es mejor tener la medida de ganancia de modelo generado por ensembles, curva ROC, precisión y recall.

Este artículo está bueno leer.
http://www.datasciencecentral.com/profiles/blogs/66-job-interview-questions-for-data-scientists

"Aprendizaje Automático: Algoritmos genéticos" 2004
Quintairos
Notas: Metaheuritica, tiene buen esquema de los pasos de un algoritmo genético y no es tan viejo.

"Data Preparation for Mining World Wide Web Browsing Patterns"
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.11.3835&rep=rep1&type=pdf
Notas:
Información sobre como procesar datos provenientes de la Web, medidas como lift, confianza, belief (creencia), conjunto de creencias, las creencias pueden ser generadas manualmente en base al dominio del conocimiento, siendo esto  No práctico.  El dominio del conocimiento puede ser usado para automáticamente crear evidencia sobre las creencias.
Cobertura/ Coverage:  es la medida de la fracción total del número de transacciones que contienen al menos un item del itemset.  count (A y B) / NT
Este paper propone un modelo basado en el soporte lógico.
Establece el criterio para medir el interes o lo interesante de un atributo. pudiendo ser:
objetivo: soporte, lift, confianza. subjetivo: novelty o unexpectedness.

Web Mining tiene los siguientes tipos de dominio de información:
  1. contenido
  2. estructura
  3. usabilidad
La meta es identificar a un conjunto de creencias y usar este conjunto como filtro para identificar reglas interesantes.

Fundamental en web mining es el descubrimiento del conocimiento, y alguna expectacion definida del conocimiento  (creencias)

belief utiliza un framework de lógica difusa (Baldwin's support logic) manejando multiples fuentes de evidencia. y busca reglas que no contradigan una creencia existente.

Define evidencia como cada pieza de información (regla, termino o medida).
cada creencia posee una escala de evidencia, o evidencia necesaria. y cada creencia tiene una cantidad de ignorancia acerca de la creencia. La evidencia se clasifica en: evidencia necesaria, evidencia posible.

Las evidencias son interesantes cuando:
las creencias entran en conflicto con la evidencia.
las creencias con evidencia de la fuente.

Clasificadores Basados en Reglas:
Ripper: analiza la ganancia de la información, el conjunto de datos más pequeños, como clasificación positiva y el resto como clasificación negativa.
Prims:  No toma en cuenta el tamaño de la clase, sino que a medida que va iterando va añadiendo atributos de la clase como condición por lo que tiende a sobreajustar los datos y para ello puede hacerse prunning en cada iteración  o prunning global.

Sobre Metaheuristica:

"Improving User Profiles for E-Commerce by Genetic Algorithms"

Paper Yi-Shin and Cyrus Shanabi
Notas: meciona diferentes tipos de sistema de recomendación, técnicas de análisis de datos.
técnicas de filtrado: content-based filtering, collaborative filtering.  Cada uno tiene sus puntos beneficios y sus puntos débiles. Cabe destacar que el sistema es susceptible en generar soluciones no adecuadas si el comportamiento del usuario no es consistente, en cuanto al flujo de su navegación. Y mencionan que no existe algún mecanismo de aprendizaje automático que pueda lidiar con  comportamientos inconsistentes.
El cromosoma será decodificado en un perfil del usuario.
La función fitness toma en cuenta dos factores, promedio de satisfacción de usuarios con la lista generada, y la lista de deseos estimada para el usuario, midiendo la similaridad entre estos dos factores, mientras más parecido mejor es la lista de deseos del usuario.

"A  Review of evolutionary Algorithms for E-Commmerce"
Paper Alex. A Freitas
Menciona varios papers que  tratan de algoritmos evolutivos y su aplicación para ecommerce, tiene una aplicación muy clara de programación genética con una estructura de datos de árboles. definiciones variasGA = algoritmo evolutivo, PG = programación genética. cada iteración es una generación, la función fitness filtra los individuos que estarán en la siguiente generación. La tasa de mutación, crossover definirá los cambios que se realizan sobre la población.


"Genetic Algorithms for credit card fraud detection"
SATVIK VATS, SURYA KANT DUBEY, NAVEEN KUMAR PANDEY


"Review on evolutionary algorithms in Datamining"
A. Freitas

"A review on evolutionary algorithms in Bayesian network learning and inference tasks"
A review on evolutionary algorithms in Bayesian network learning and inference tasks

"Integración de técnicas de Minería de datos y metaheurísticas en sitios de comercio electrónico"
Barragan Edgar, Giraldo Fabián Andres. 

Modelado de Tópicos.


Cosas que me gustaría tener como referencia sobre el Modelado de Tópicos.


Papers: 
"On Smoothing and Inference for Topic Models"
http://www.ics.uci.edu/~asuncion/pubs/UAI_09.pdf
Notas:
para el cálculo de la Probabilidad Apriori utilizan PLSA ó LDA.
para el cáculo de la Probabilidad Posteriori mencionan:  Gibbs sampling, Collapsed variational Bayesian Inference, Inference Variational Bayesian, Maxímo Likehood Estimation (ME), Maximo Posteriori Estimation.

"An Estimate of an Upper Bound for the Entropy of English "
http://acl.ldc.upenn.edu/J/J92/J92-1002.pdf
Notas:
La definición de entropía como medida sobre que tan bueno o no es un modelo, por su representación en bits. cuantos bits utiliza un modelo. bits/palabras, bits/trigrams, bits/bigrams.


"Probabilistic topic models"
http://www.cs.princeton.edu/~blei/papers/Blei2012.pdf
Notas:
Una revisión bien completa y que define de forma fácil cómo funciona el modelado de tópicos.


"Latent Dirichlet Allocation"
http://www.cs.princeton.edu/~blei/papers/BleiNgJordan2003.pdf
Notas:
¿Cuantos tópicos son apropiados?, ¿Cuantas iteraciones de muestreo son necesarias?, ¿Cómo puede ser optimizado?
Exchangeability: NO significa que las variables aleatorias son independientes e identicamente distribuidas. se le define como "condicionalmente independientes" e identicamente distribuidas.
La distribución conjunta de variables aleatoriaas es simple y calculada cn la probabilidad marginal ajustada a la distribución LDA.
Los Documentos son representados como una mezcla aleatoria de tópicos donde cada tópico es caracterizado por una distribución sobre palabras.
Para variar el alfa y beta ( utiliza Newton-Rapson) estos parametros influyen en la perplejidad del modelo.
Perplejidad es una métrica que mide que tan bueno es el modelo,
Si perplejidad es menor el modelo es mejor, tiende a ser más general, y se define que el modelo hace un mejor trabajo de comprensión de la data de prueba.
Si la perplejidad incrementa, se diría que desmejora. La perplejidad es una medida de la teoría de la información, Este es el paper que da base al software de modelado de tópicos Mallet.
LDA utiliza: Distribución de probabilidad conjunta observada y aleatoria.

Algunas definiciones, creo que es de la wikipedia, son anotaciones personales:

Gibbs Samplings: Es un algoritmo del tipo MCMC (Markov Chain Monte Carlo) que permite obtener una secuencia de observaciones. Donde sus valores son una distribución de probabilidad multivariada (es decir la unión de distribuciones e probabilidades diferentes de 2 o más variables) .
Esta secuencia puede ser usada para aproximar distribuciones que no siguen una distribución conocida sino que contiene partes de varias.

Gibbs Samplings es comúnmente usado en la estadística de inferencia, especialmente por la inferencia bayesiana. Es un algoritmo de resultados aleatorios por lo que en cada ejecución arroja diferentes resultados.
Gibbs Samplings genera una cadena de Markov donde cada elemento está relacionado con el inmediato siguiente, y no con el resto de eventos pasados. (ley de memoria distribución exponencial, La probabilidad de ocurrencia de eventos presentes o futuros no depende (eventos independientes) de los que hayan ocurrido en el pasado)
Gibbs para datos continuos --> se divide en carpetas (bin) y se utiliza ME (expectation maximization)
para datos discretos --> Maximun Posteriori. Mallet utiliza Gibbs Sampling por defecto, sin embago se puede modificar.
tf-idf,  valora palabras basado en cuan especial son ellas a un documento en particular con un gran corpus. LSA utiliza este score con una matriz de documentos y términos.  otra forma es a través del SVD (singular value descomposition) permite descubrir como una palabra se encuentra relacionada con la otra.
pLSA asume  que un documento es un conjunto de tópicos, más no de palabras (los tópicos son generados primeros que los documentos.).