Nueva propuesta para el ajuste del rango interno en el agrupamiento de documentos mediante Factorizaciones No Negativas de Matrices
Palabras clave:
Corpus, Factorización, AgrupamientoResumen
Las técnicas de agrupamiento de documentos han recibido mucha atención como herramienta fundamental para la organización eficiente, navegación, recuperación y resumen de grandes volúmenes de textos. Con un método de agrupamiento robusto se pueden organizar los documentos en una jerarquía de grupos que permita la búsqueda y navegación eficiente a través de un corpus, lo cual es un valioso complemento a las deficiencias de las tecnologías tradicionales de recuperación de información. En este trabajo se presenta un software desarrollado en MATLAB que incorpora un procedimiento adaptativo para determinar el rango en la Factorización no negativa de la matriz TF-IDF de un corpus. El software agrupa los documentos según las temáticas y muestra las palabras más importantes de cada grupo. Para ello se suponen conocidos los conjuntos de palabras por temáticas.Descargas
Citas
D. D. Lee, S. H. Seung : Algorithms for non-negative matrix factorization. Advances in Neural Information Processing Systems 401. 2001.
T. H. Cormen, C. E. Leiserson, R. L. Rivest, C. Stein: Introduction to Algorithms. The Massachusetts Institute of Technology. 2001.
Z-Y. Zhang: Nonnegative Matrix Factorization: Models, Algorithms and Applications. 2001.
I. S. Dhillon: Concept decompositions for large sparse text data using clustering. Machine Learning, 42(1/2). 2001.
J. Atencia, R. Nestar: Aprenda Matlab 6.0 como si estuviera en primero. Escuela Superior de Ingenieros Industriales, Universidad de Navarra, San Sebastián. 2001.
S. Wild: Seeding non-negative matrix factorizations with spherical k-means clustering. Master’s thesis, University of Colorado. 2003.
D. Donoho, V. Stodden: When Does Non-Negative Matrix Factorization Give a Correct Decomposition into Parts?. 2003.
R. Mitkov: The Oxford Handbook of Computational Linguistics. Oxford University Press. 2003.
A. N. Langville: Experiments with the nonnegative matrix factorization and the reuters10 dataset. Slides from SAS Meeting. 2005.
A. N. Langville, C. D. Meyer, R. Albright: Initializations for the Nonnegative Matrix Factorization. 2006.
C-J. Lin: Projected Gradient Methods for Non-negative Matrix Factorization. 2006.
C. Boutsidis, E. Gallopoulos: SVD based initialization: A head start for nonnegative matrix factorization. Computer Engineering and Informatics Departament, Patras University. 2007.
H. Kim, H. Park: Sparse non-negative matrix factorizations via alternatingnon-negativity-constrained least squares for microarraydata analysis. 2007.
D. O. Barragán: Manual de Interfaz Gráfica de Usuario en MATLAB (Parte I). 2008.
A. N. Langville, C. D. Meyer, R. Albright, J. Cox, D. Duling: Algorithms, Initializations, and Convergence for the Nonnegative Matrix Factorization. 2008.
A. Cichocki, R. Zdunek, A. H. Phan, S. I. Amari: Nonnegative matrix and tensor factorizations. John Wiley Sons, Ltd. 2009.
J. Yoo, S. Choi: Orthogonal nonnegative matrix trifactorization for co-clustering: Multiplicative updates on Stiefel manifolds. Information Processing and Management 46. Elsevier Ltd. 2010.
N. Gillis: The Why and How of Nonnegative Matrix Factorization. 2014.
J. M. Rodríguez y R. Hausdorff: Selección de β en Factorización de Matrices No Negativas usando la β − divergencia. Tesis de Grado en Licenciatura en Matemáticas Aplicadas. Instituto Tecnológico Autónomo de México. 2014.
M. Á. Pérez: Técnicas de Factorización No-negativa de Matrices en Sistemas de Recomendación. Tesis de grado en Ingeniería de las Tecnologías de Telecomunicación, Escuela Técnica Superior de Ingeniería, Universidad de Sevilla. 2017.
M. Calvo: Text Analytics para Procesado Semántico. Trabajo Fin de Máster en Técnicas Estadísticas. Universidad de Vigo. 2017.
N. Del Buono, G. Pio: Non-Negative Matrix TriFactorization for co-clustering: an analysis of the block matrix. Information Sciences. 2017.
R. Díaz: Análisis Factorial y Factorizaciones no Negativas de Matrices en Lingüística de Corpus. Tesis de Diploma. Facultad ed Matemática y Computación, Universidad de La Habana. 2018.
I. Alfonso: Una aplicación de las Factorizaciones no Negativas de Matrices a la Minería de Textos. Tesis de Diploma. Facultad ed Matemática y Computación, Universidad de La Habana. 2020.
J. Gamboa: Text Mining: Análisis de sentimientos para la toma de decisiones. Presentación en VISIÓN, Congreso Internacional de Ingeniería, Ciencias Aeronáuticas y Arquiford. XXI Edición.
Descargas
Publicado
Cómo citar
Número
Sección
Licencia

Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
Esta licencia permite copiar y redistribuir el material en cualquier medio o formato bajo los siguientes términos: se debe dar crédito de manera adecuada, no se puede hacer uso del material con propósitos comerciales, y si remezcla, transforma o crea a partir del material, no podrá distribuir el material modificado. Bajo la licencia mencionada, los autores mantienen los derechos de autor de su trabajo.

