ITERATIVE MULTIPLE COMPONENT ANALYSIS WITH AN ENTROPY-BASED DISSIMILARITY MEASURE
Keywords:
Categorical data, Self Organized Map, clusteringAbstract
En este trabajo estudiamos la noción de entropía para un conjunto de atributos de una tabla y proponemos un novedoso
método para medir la disimilitud de datos categóricos. Experimentos muestran que nuestro método de estimación mejora la
acuracidad si el popular Self Organized Map (SOM) no supervisado, en comparación al las distancias Euclidiana o de
Mahalanobis. La comparación de las distancias es aplicado para el clustering de tablas multidimensionales de contingencia.
Dos factores hacen de nuestra función de distancia atractiva: primero, el marco de trabajo general el que puede ser
extendido a otras clases de problemas; segundo, puede normalizar esta medida para obtener un coeficiente similar por
ejemplo para el coeficiente de Pearson de contingencia


