Conjunto de herramientas que auxilian el desarrollo de sistemas gestores de información en dominios textuales
Palabras clave:
gestión documental, gestión del conocimiento, automatización de la informaciónResumen
En el Centro de Estudios de Informática (CEI) de la Universidad Central “Marta Abreu” de las Villas (UCLV) se han desarrollado sistemas para la gestión de la información y el conocimiento como parte de su estrategia de informatización. Algunos de estos sistemas son CorpusMiner, SATEX y GARLucene, los cuales brindan amplias ventajas para la gestión de la información y del conocimiento. Sin embargo, el diseño de estos sistemas no permite la utilización de algunos de sus módulos en otras aplicaciones, o la incorporación de otras formas de representación textual, u otros métodos de indexado y recuperación de la información. Por otra parte, estas aplicaciones son de escritorio, limitándose significativamente los procesos de indexado y recuperación de la información.
Por tales motivos, en este trabajo se presenta un conjunto de herramientas creadas con el objetivo de auxiliar el desarrollo de sistemas gestores de información en dominios textuales. Estas herramientas trabajan de forma independiente, son extensibles y facilitan el intercambio de información. La información se intercambia mediante documentos textos con un formato estructurado, descritos usando el Lenguaje de Marcado Extensible (XML) y validados usando esquemas de XML. Las herramientas desarrolladas son: listar recursos, extraer contenido, indexar contenido extraído, recuperar información, transformar información y estructurar información. El desarrollo de las mismas se basó en las facilidades brindadas por sistemas anteriores y en sus conexiones con repositorios de información científico-técnica.
Descargas
Citas
R. M. Müller, et al., "Electronic marketplaces of knowledge: Characteristics and sharing of knowledge assets," in Proceedings of the International Conference on Advances in Infrastructure for e-Business (SSGRR 2002), L'Aquila, Italy, 2002.
L. A. García, "Agrupamiento basado en la intermediación diferencial y su valoración utilizando la teoría de los conjuntos aproximados," CEI-AI, Universidad Central "Marta Abreu" de las Villas, Santa Clara, 2008.
G. Salton, et al., "A vector space model for automatic text retrieval," Communications of the ACM, vol. 18, pp. 613-620, 1975.
C. Lanquillon, "Enhancing Text Classification to Improve Information Filtering," PhD. thesis, Research Group Neural Networks and Fuzzy Systems, University of Magdeburg "Otto von Guericke", Magdeburg, 2001.
G. Salton and C. Buckley, "Term weighting approaches in automatic text retrieval," Information Processing and Management, vol. 24, pp. 513-523, 1988.
D. D. Lewis and M. Ringuette, "A comparison of two learning algorithms for text classification," in Proceedings of the Third Annual Symposium on Document Analysis and Information Retrieval, University of Nevada, Las Vegas, 1994, pp. 81-93.
E. Levine and E. Domany, "Resampling method for unsupervised estimation of cluster validity," Neural Computation, vol. 13, pp. 2573-2593, 2001.
M. R. Anderberg, Clustering Analysis for Applications: New York: Academic, 1973.
A. K. Jain, et al., "Data clustering: a review," ACM Computing Surveys, vol. 31, pp. 264-323, 1999.
S. Theodoridis and K. Koutroubas, Pattern Recognition: Academic Press, 1999.
M. Halkidi, et al., "Clustering validity checking methods: Part II," ACM SIGMOD Record, vol. 31, pp. 19-27, 2002.
F. Höppner, et al., Fuzzy cluster analysis: methods for classification, data analysis and image recognition. West Sussex, England: John Wiley & Sons Ltd., 1999.
J. Sturm, Developing XML Solutions, 2000.
E. Hatcher, et al., Lucene in Action, 2010.
M. W. Berry, Survey of Text mining: Clustering, Classification, and Retrieval. New York, USA: Springer Verlag, 2004.
Descargas
Publicado
Cómo citar
Número
Sección
Licencia

Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
Esta licencia permite copiar y redistribuir el material en cualquier medio o formato bajo los siguientes términos: se debe dar crédito de manera adecuada, no se puede hacer uso del material con propósitos comerciales, y si remezcla, transforma o crea a partir del material, no podrá distribuir el material modificado. Bajo la licencia mencionada, los autores mantienen los derechos de autor de su trabajo.

