Valores atípicos en los datos, ¿cómo identificarlos y manejarlos?

Autores/as

  • Leneidy Pérez Pelea Departamento de Biología Vegetal, Facultad de Biología, Universidad de La Habana, Calle 25, N° 455, e/ J e I, Vedado, Plaza de la Revolución, La Habana, Cuba. C.P. 10400

Palabras clave:

valores extremos, pruebas de detección de anomalías, pruebas de discordancia

Resumen

En el análisis de datos experimentales, es frecuente encontrar variables biológicas con distribución no normal, en las cuales no se cumplen también, otras de las premisas planteadas en los métodos estadísticos tradicionales. En ocasiones, la falta de normalidad puede atribuirse a la presencia de uno o más valores atípicos (outliers) en los datos, los cuales se desvían mucho del resto de los valores y caen fuera del patrón general de distribución de la variable. Varios autores han propuesto diferentes definiciones para estos valores y han desarrollado métodos muy variados para identificarlos y manejarlos. Los métodos más empleados están basados en análisis de distancia, agrupamientos, varianza, ángulos entre vectores y densidad en la vecindad de las observaciones. También varían en depencia de si los valores atípicos están presentes en experimentos que analizan una o múltiples variables. Existe una gran controversia en la literatura en relación con la eliminación de los valores atípicos. Se ha planteado que se debe conocer su causa y la influencia que pueden tener en los resultados de los experimentos, antes de tomar la decisión de eliminarlos o incluirlos en el análisis, porque cambian las inferencias que se obtienen y, en ocasiones, su eliminación puede conducir a la pérdida de una información importante. En el presente artículo se hace una revisión de las principales causas que pueden provocar la aparición de estos valores atípicos, y algunos de los métodos que se han propuesto para identificarlos y manejarlos.

Citación: Pérez Pelea, L. 2019. Valores atípicos en los datos, ¿cómo identificarlos y manejarlos? Revista Jard. Bot. Nac. Univ. Habana 40: 99-107.

Recibido: mayo 2019.  Aceptado: noviembre 2019.  Publicado online: 31 de diciembre de 2019. Editor encargado: José Angel García-Beltrán.

Descargas

Los datos de descargas todavía no están disponibles.

Citas

Aggarwal, C.C. 2013. Outlier Analysis. Springer, IBM T.J. Watson Research Center, Yorktown Heights. New York, USA.

Aguinis, H., Gottfredson, R.K. & Joo, H. 2013. Best-practice recommendations for defining, identifying and handling outliers. Organ. Res. Methods 16(2): 270-301.

Angiulli, F., Basta, S. & Pizzuti, C. 2006. Distance-based detection and prediction of outliers. IEEE T. Knowl. Data En. 18: 145-160.

Barnett, V. & Lewis, T. 1994. Outliers in Statistical Data. 3er Ed. John Wiley & Sons. New York, USA.

Breunig, M.M., Kriegel, H.P., Ng, R.T. & Sander, J. 2000. LOF: identifying density-based local outliers. SIGMOD Rec. 29(2): 93-104.

Cleophas, T.J. & Zwinderman, A.H. 2019. Outliers assessed as dependent adverse effects. En: Analysis of safety data of drug trials: An Update. Springer Nature Switzerland AG. Cham, Switzerland.

Dan, E. & Ijeoma, O.A. 2013. Statistical analysis/methods of detecting outliers in a univariate data in a regression analysis model. International Journal of Education and Research 1(5): 302-337.

De Armas, A.A. 2015. Detección de outliers en grandes bases de datos. Tesis de Maestría. Universidad Argentina de la Empresa, Argentina.

Evans, V.P. 1999. Strategies for detecting outliers in regression analysis: An introductory primer. En: Advances in Social Science Methodology. B. Thompson (Ed.). JAI Press, Stamford, Connecticut, USA.

Finch, W.H. 2012. Distribution of variables by method of outlier detection. Front. Psychology 3: 211.

Frumosu, F.F.& Kulahci, M. 2019. Outliers detection using an iterative strategy for semi-supervised learning. Qual Reliab Engng Int. 1-16.

García, Ch. 2017. How to Find Outliers in a Data Set. Academy Resources. www.http://blog.socialcops.com/academy/resources/find-deal-outliers-data-set/. 10 de septiembre de 2019.

Garson, G.D. 2012. Testing Statistical Assumptions. G.D. Garson and Statistical Associates Publishing. Asheboro, North Carolina, USA.

Hawkins D.M. 1980. Identification of outliers. Champman & Hall. London, UK.

Herrera, M., Guerra, C.W., Sarduy, L., García, Y. & Martínez, C.E. 2012. Diferentes métodos estadísticos para el análiis de variables discretas. Una aplicación en las ciencias agrícolas y técnicas. Rev. Cie. Tec. Agr. 21(1): 58-62.

Iglewicz, B. & Hoaglin, D. 1993. How to detect and handle outliers. ASQC Quality Press. Milwaukee, Wisconsin, USA.

Johnson, R.A. & Wichern, D.W. 1992. Applied Multivariate Statistical Analysis. 3rd Ed. Prentice Hall, Englewood Cliffs. New Jersey, USA.

Judd, C.M., McClelland, C.H. & Ryan, C.S. 2009. Data analysis: a model-comparison approach. 2nd Ed. Routledge. New York, USA.

Knorr, E. M. & Ng, R.T. 1998. Algorithms for mining distance-based outliers in large datasets. Pp. 392-403. En: Proceedings of the 24th International Conference on Very Large Data Bases. New York, USA.

Kulich, C., Trojanowski, G., Ryan, M.K., Haslam, S.A. & Renneboog, L.D.R. 2011. Who gets the carrot and who gets the sick? Evidence of gender disparities in executive remuneration. Strategic Manage. J. 32: 301-321.

Kwak, S.K. & Kim, J.H. 2017. Statistical data preparation: management of missing values and outliers. Korean Journal of Anesthesiology 70(4): 407-411.

Muñoz, J.A. & Amón, I. 2013. Técnicas para detección de outliers multivariantes. Revista en Telecomunicaciones e Informática 3(5): 11-25.

Murphy, T. & Lau, A.T. 2008. Manejo de valores atípicos. ¿Cómo se evalúa un valor aberrante o inconsistente único? ASTM Standarization News.

Osborne, J.W. & Overbay, A. 2004. The power of outliers (and why researches should always check for them). Pract. Assess. Res. Eval. 9(6): 1-8.

Osborne, J.W. 2002. Notes on the use of data transformations. Pract. Assess. Res. Eval. 8(6): 1-9.

Osborne, J.W., Christiansen, W.R.I. & Gunter, J.S. 2001. Educational Psychology from a statistician’s perspective: A review of the quantitative quality of our field. En: Proceedings of the Annual Meeting of the American Educational Research Association. Seattle, Washington, USA.

Pamula, R., Deka, J.K. & Nandi, S. 2011. An Outlier Detection Method based on Clustering. Second International Conference on Emerging Applications of Information Technology. Pp. 253-256. IEEE Computer Socierty, Kolkata, India.

Parrinello, C.M., Grams, M.E., Sang, Y., Couper, D., Wruck, L.M., Li, D., Eckfeldt, J.H., Selvin, E. & Coresh, J. 2016. Iterative Outlier Removal: A Method for Identifying Outliers in Laboratory Recalibration Studies. Clin. Chem. 62(7): 966-972.

Pérez, L. 2018. ¿Cómo proceder ante el incumplimiento de las premisas de los métodos paramétricos? o ¿Cómo trabajar con variables biológicas no normales? Revista Jard. Bot. Nac. Univ. Habana 39: 1-12.

Ramaswamy, S., Rastogi, R. & Shim, K. 2000. Efficient algorithms for mining outliers form large data sets. Pp. 427-438. En: Proceedings of International Conference on Management of Data, Dallas, Texas, USA.

Rousseeuw, P.J. & Leroy, A.M. 2003. Robust Regression and Outlier Detection. John Wiley & Sons. New York, USA.

Rousseeuw, P.J. & van Driessen, K. 1999. A fast algorithm for the minimum covariance determinant estimator. Technometrics 41: 212-223.

Sandbhor, S. & Chaphalkar, N.B. 2019. Impact of outlier on neural networks based property value prediction. Advances in Intelligent systems and Computing 862: 481-495.

Seo, S. 2006. A review and comparison of methods for detecting outliers in univariate data sets. Tesis de Maestría. University of Pittsburg, USA.

Sykacek, P. 1997. Equivalent Error Bars for Neural Network Classifiers Trained By Bayesian Inference. Pp. 121-126. En: Proceedings of the European Symposium on Artificial Neural Networks. Bruges, Belgium.

Van der Loo, M.P.J. 2010. Distribution based outlier detection in univariate data. Statistics Netherlands. The Hague/Heerlen, Netherlands.

Whitlock, M.C. & Schluter, D. 2009. The Analysis of Biological Data. Roberts and Company Publishers. Grenndwood Village, Colorado, USA.

Wilcox, R.R. 2005. Introduction to Robust Estimation and Hypothesis Testing. Elsevier Academic Press. Burlington, Massachussets, USA.

Zar, J.H. 2010. Biostatistical Analysis. 5th Ed. Pearson Prentice Hall. New Jersey, USA.

Zhang, J. 2013. Advancements of Outlier Detection: A Survey. ICST Transactions on Scalable Information Systems 13(01-03): e2.

Zhang, K., Hutter, M. & Jin, H. 2009. A new local distance-based outlier detection approach for scattered real-world data. En: Proceedings of the 13th Pacific-Asia Conference on Knowledge Discovery and Data Mining, Bangkok, Thailand. 813-822.

Descargas

Publicado

31-12-2019

Cómo citar

Pérez Pelea, L. (2019). Valores atípicos en los datos, ¿cómo identificarlos y manejarlos?. Revista Del Jardín Botánico Nacional, 40, 99–107. Recuperado a partir de https://revistas.uh.cu/rjbn/article/view/6537

Número

Sección

Metodología de la Investigación

Categorías

Artículos similares

1 2 3 4 5 6 7 > >> 

También puede Iniciar una búsqueda de similitud avanzada para este artículo.

Artículos más leídos del mismo autor/a