cuando nos entregan la data, (tablas)
-
Limpiar, strings, colocar todo en minuscula, establecer formato de
fechas iguales, ordenar, eliminar o analizar datos que pudiesen ser
outlier, establecer formato de precios iguales, establecer formato de
cantidades, limpiar los string que contienen ubicaciones, y comentarios.
-
Discretizar los valores continuos, se dice de los valores continuos la
edad, precios, cantidades ya que "Apriori" sólo trabaja con valores nominales. Se utilizó el algoritmo de clusters k-means para agrupar los valores en rangos. ver clustering.r
- Establecer
un archivo con las uniones de las tablas, este archivo próximamente será
una matriz de transacciónes, donde las columnas corresponden al
producto y cada fila es una transacción. Realmente se realizaron varios
archivos y se crearon columnas nuevas conforme requeriamos conocer más
sobre el comportamiento de las compras del cliente.
- Para obtener los formatos se utilizó un script muy muy básico en python, requiere mejoras.. xD pero es funcional a nuestra data.
- Se instalaron los paquetes arules, arulessecuences, y "arulesViz" para graficar las reglas.
- Ejecutar
script arules.r cambiando los parametros de entrada, por ejemplo el
archivo que va a leer, este archivo tiene que tener formato basket también admite single. En
weka el formato es arff, por ende tiene que ser preprocesado, el csv
tiene un formato tabular. En el modeler recibe el formato single, y
basket no difuso.
- Ejeutar script
arulessecuences.r para ver que productos implican una compra a futuro.
es decir por ejemplo si alguién compra una pizarra acrílica entonces
próximamente necesitará nuevos marcadores..
scripts en R y alguno en python
acá u post en inglés un poco más largo: algoritmo Apriori R