Recuperación de información para artículos científicos soportada en el agrupamiento de documentos XML
Palabras clave:
Recuperación de Información, Agrupamiento, XMLResumen
Cada día más datos electrónicos en formato semiestructurado específicamente en XML se encuentran disponibles en el World Wide Web, intranets corporativas, y otros medios de comunicación. Debido a que la información por sí sola tiene pocas ventajas, gestionar el conocimiento a partir de ella es esencial para dar mejores condiciones de trabajo a los investigadores e incrementar su productividad científica. En el laboratorio de Inteligencia Artificial se han obtenido varios sistemas que permiten manipular la información, como: SATEX, GARLucene y LucXML, este último da tratamiento de forma específica a los documentos XML aunque no garantiza gestionar los documentos desde un repositorio en la red. A su vez en el Centro de Estudios de Informática existen un gran número de artículos científicos de variados temas. En este trabajo se implementó una herramienta Web que ha utilizado las técnicas de recuperación inteligente soportada en un algoritmo de agrupamiento de documentos XML que explota las ventajas de estos documentos utilizando el contenido y la estructura existente en ellos. La evaluación del sistema a través de los casos de estudios definidos corrobora la validez de la implementación realizada.
Descargas
Citas
ARCO, L. 2009. Agrupamiento basado en la intermediación diferencial y su valoración utilizando la teoría de los conjuntos aproximados. Doctorado en Ciencias Técnicas, Universidad Central "Marta Abreu" de Las Villas.
ARCO, L., ARTÍLES, M. & BELLO, R. 2008a. Sistema para la Gestión de Artículos científicos Recuperados usando Lucene (GARLucene). Cuba patent application.
ARCO, L., MAGDALENO, D. & BELLO, R. E. 2008b. Sistema para el agrupamiento y evaluación de colecciones textuales (SATEX). Cuba patent application.
ARTILES, M. 2011. Herramientas de Minería de Textos e Inteligencia Artificial aplicadas a la gestión de la información científico-técnica. Máster en Ciencia de la Computación, Universidad Central "Marta Abreu" de Las Villas.
BUETTCHER, S., CLARKE, C. L. A. & CORMACK, G. V. 2010. Information Retrieval: Implementing and Evaluating Search Engines, MIT Press.
CAMPOS, L. M. D., FERNÁNDEZ-LUNA, J. M. & J.F. HUETE, A. E. R. 2009. Probabilistic methods for link-based classification at INEX’08. Proceedings of Initiative for the Evaluation of XML Retrieval, 5631, 453–459.
CHEN, S. & ZHANG, K. 2012. An improved algorithm for tree edit distance with applications for RNA secondary structure comparison. Combinatorial Optimization, 27, 778-797.
CHOWDHURY, G. 2010. Introduction to Modern Information Retrieval, Third Edition, Facet Publishing.
CHRISS, A., M. & ZITTING, J. L. 2012. Tika in Action, 20 Baldwin Road PO Box 261 Shelter Island, NY 11964, Manning Publications Co.
COSTA, G., DFDSFDF, G., GFDGDFG, F., GDFGDF, G. G. G., FDGDFG, D. & DF, D. G. G. Hierarchical clustering of XML documents focused on structural components. Data & Knowledge Engineering, 2013. 26-46.
CROFT, W. B., METZLER, D. & STROHMAN, T. 2010. Search Engines Information Retrieval in Practice Pearson Education.
DALAMAGAS, T., CHENG, T., WINKEL, K.-J. & SELLIS, T. 2006. A Methodology for Clustering XML Documents by Structure. Information Systems.
DENOYER, L. & GALLINARI, P. 2009. Overview of the inex 2008 XML mining track. In Advances in Focused Retrieval. Proceedings of Initiative for the Evaluation of XML Retrieval, 5631, 401–411.
DOUCET, A. & AHONEN-MYKA, H. 2002. Naive clustering of a large XML document collection. INEX, 84-89.
FUENTES, I. E. 2013. Nuevo modelo de agrupamiento para documentos XML utilizando estructura y contenido. Licenciatura en Ciencia de la Computación Tesis de grado, Universidad Central "Marta Abreu" de Las Villas.
HATCHER, E., GOSPODNETIC, O. & MCCANDLESS, M. 2009. Lucene in Action.
KAUFMAN, L. & ROUSSEEUW, P. J. 1990. Finding groups in data: an introduction to cluster analysis, John Wiley and Sons.
KRUSE, R., DÖRING, C. & LESOR, M.-J. 2007. Fundamentals of Fuzzy Clustering. In: OLIVEIRA, J. V. D. & PEDRYCZ, W. (eds.) Advances in Fuzzy Clustering and its Applications. Est Sussex, England: John Wiley and Sons.
LEWIS, D. D. 1992. Representation and learning in information retrieval. PhD. tesis, University of Massachusetts.
MAGDALENO, D., FUENTES, I. E., ARCO, L., ARTILES, M., FERNANDEZ, J. M. & HUETE, J. 2011. New Textual Representation using Structure and Contents. Research in Computing Science, 54, 117-130.
MAGDALENO, D., FUENTES, I. E. & GARCÍA, M. M. 2013. Sistema para el agrupamiento de artículos científicos en formato XML usando Lucene (LucXML). Cuba patent application.
MAGDALENO, D., FUENTES, I. E. & GARCÍA, M. M.. Clustering XML Documents using Structure and Content Based in a Proposal Similarity Function (OverallSimSUX). Computación y Sistemas, 2015, 19(1).
MANNING, C. D., RAGHAN, P. & SCHÜTZE, H. 2008. Introduction to Information Retrieval, Cambridge University Press.
PINTO, D., TOVAR, M. & VILARIÑO, D. BUAP: Performance of K-Star at the INEX’09 Clustering Task. In: GEVA, S., KAMPS, J. & TROTMAN, A., eds. INEX 2009 Workshop Pre-proceedings, 2009 Woodlands of Marburg, Ipswich, Queensland, Australia. 391-398.
SALTON, G., WONG, A. & YANG, C. S. 1975. A vector space model for automatic text retrieval. Communications of the ACM, 18, 613-620.
SHIN, K. & HAN, S. Y. 2003. Fast clustering algorithm for information organization. In:Proc. of the CICLing Conference. Lecture Notes in Computer Science, Springer Verlag (2003).
STEINBACH, M., KARYPIS, G. & KUMAR, V. A comparison of document clustering techniques. Proceedings of 6th ACM SIGKDD World Text Mining Conference, 2000 Boston. ACM Press, 1-20.
TEKLI, J. M. & CHBEIR, R. 2011. A Novel XML Document Structure Comparison Framework based-on Subtree Commonalities and Label Semantics. Elsevier, 11.
TIEN T., R. N. 2007. Evaluating the Performance of XML Document Clustering by Structure only. 5th International Workshop of the Initiative for the Evaluation of XML Retrieval.
WATANABE, Y., KAMIGAITO, H. & YOKOTA, H. 2013. Similarity search for office XML documents based on style and structure data. International Journal of Web Information Systems, 9, 7.
WILCOXON, F. 1945. Individual comparisons by ranking methods. Biometrics Bulletin, 1, 80-83.
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2015 Ciencias Matemáticas

Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
Esta licencia permite copiar y redistribuir el material en cualquier medio o formato bajo los siguientes términos: se debe dar crédito de manera adecuada, no se puede hacer uso del material con propósitos comerciales, y si remezcla, transforma o crea a partir del material, no podrá distribuir el material modificado. Bajo la licencia mencionada, los autores mantienen los derechos de autor de su trabajo.

