Es una técnica para tratar documentos que no tienen alguna categorización,
y asume que cada documento es una
mezcla aleatorias de categorías o tópicos
donde cada categoría es definida por la preferencia de algunas palabras
sobre otras. Finalmente pretendemos que vamos a generar cada palabra
en cada documento desde 0 una y otra vez, y aleatoriamente escogemos una
categoría y de esta categoría escogemos una palabra que representen dicha
categoría basado en la preferencia de esta palabra sobre otras.
Un tópico en el contexto de modelado de tópicos es una distribución
de probabilidades de palabras para un conjunto, e indica la probabilidad
que una palabra aparezca en un documento sobre un tópico en particular.
Resumen.
1 - El modelado de tópicos asume que las palabras que comprende el texto
fueron generadas aleatoriamente. (mmmjum si claro, y en la luna ha oxigeno.)
2 - Su objetivo es Inferir una convincente respuesta bajo la asunción que el punto
1 siempre es verdadero.
Poco creíble ¿no?, pero lo cierto es que segun lo leído en su mayoría funciona.
Comentan que el potencial del modelado de tópicos no se observa en cada
documento individualmente, sino más bien en un enfoque global analizando
grandes cantidades de documentos para visualizar patrones entre ellos. Esto
me trae buenos recuerdo de Bertalanffy y su teoría general de sistemas.
Para definir un proyecto de modelado, consta de 5 atributos:
1 - ¿cual es el corpus a analizar?
2 - ¿qué técnica o algoritmo de modelado se va a aplicar?
3 - ¿Cual es la unidad de Análisis?
4 - ¿Como fue el postprocesamiento?
5 -¿Puedo visualizarlo mediante y gráfico y cómo?
Los Proyectos de modelado de tópicos se dividen en:
Proyectos de enfoque sincrónico: en el cual el valor de la unidad de análisis
no posee límite de tiempo, o mejor dicho no se identifica con una brecha de
tiempo.
Proyecto de enfoque diacrónico: La unidad de analisis de tiempo se genera
en un fecha o rango de fecha definido.
Respondiendo esto de acuerdo a un proyecto que tengo actualmente:
1 - ¿cual es el corpus a analizar?
noticias, artículos y opiniones de 10 periódicos en internet,
bajo la sección de economía, sin tomar en cuenta la fecha
en la que se hizo el fetch de la url.
2 - ¿qué técnica o algoritmo de modelado se va a aplicar?
Vanilla LDA Mallet. (Distribution Dirichlet?)
3 - ¿Cual es la unidad de Análisis?
1 documento = 1 noticia.
4 - ¿Como fue el postprocesamiento?
si el tiempo es generoso con nosotros hacer cluster en R
en base a esta data de tópicos.
5 - ¿visualización?
un heapmap sería una buena opción. Si murphy no anda cerca.
un gráfico de líneas, con variable x = tiempo y scoring
de relevancia y cada línea sería un tópico diferente.
Referencia.
topic-modeling-in-the-humanities-an-overview