Wednesday, August 15, 2012

Utilizando algoritmo apriori. con R


En síntesis:

cuando nos entregan la data, (tablas) 

- Limpiar, strings, colocar todo en minuscula, establecer formato de fechas iguales, ordenar, eliminar o analizar datos que pudiesen ser outlier, establecer formato de precios iguales, establecer formato de cantidades, limpiar los string que contienen ubicaciones, y comentarios.

- Discretizar los valores continuos, se dice de los valores continuos la edad, precios, cantidades ya que "Apriori" sólo trabaja con valores nominales. Se utilizó el algoritmo de clusters k-means para agrupar los valores en rangos. ver clustering.r

- Establecer un archivo con las uniones de las tablas, este archivo próximamente será una matriz de transacciónes, donde las columnas corresponden al producto y cada fila es una transacción. Realmente se realizaron varios archivos y se crearon columnas nuevas conforme requeriamos conocer más sobre el comportamiento de las compras del cliente.

- Para obtener los formatos se utilizó un script muy muy básico en python, requiere mejoras.. xD pero es funcional a nuestra data.

- Se instalaron los paquetes arules, arulessecuences, y "arulesViz" para graficar las reglas.

- Ejecutar script arules.r cambiando los parametros de entrada, por ejemplo el archivo que va a leer, este archivo tiene que tener formato basket también admite single. En weka el formato es arff, por ende tiene que ser preprocesado, el csv tiene un formato tabular. En el modeler recibe el formato single, y basket no difuso.

- Ejeutar script arulessecuences.r para ver que productos implican una compra a futuro. es decir por ejemplo si alguién compra una pizarra acrílica entonces próximamente necesitará nuevos marcadores..


scripts en R y alguno en python

acá u post en inglés un poco más largo: algoritmo Apriori R