IEBSchool - La Escuela de los Negocios y los Emprendedores

Contenido destacado del mes

Fidelización vs Inactivos

Si una empresa tiene un programa de fidelización que crece un 35% de clientes anualmente, pero tiene una tasa de inactivos del 40%, ¿cómo lo valorarías? ¿qué propondrías?    Objetivo: Ser capaz de entender los principales ratios de un programa de … [ leer más ]

Lo más leído

Tags

Métodos K-means/Jerárquico

10 marzo, 2020, en Datos y Marketing por Joels Hidalgo


1 Star2 Stars3 Stars4 Stars5 Stars (1 votes, average: 4,00 out of 5)
Loading...

¿Qué ventajas y dificultades en la operación con datos se deriva de los métodos de agrupamiento k-means y jerárquico?

Objetivo: Debatir acerca de los diferentes casos de uso donde dos de los métodos de aprendizaje máquina no supervisado más comunes son utilizados.

En cuanto a k-means, como todo procedimiento algorítmico, presentará más o menos eficiencia según lo que se busque o según los parámetros definidos para su inicialización. 

Los algoritmos basados en iteracciónes son bastante conocidos y manejados en el cálculo numérico. Resultan en una vía heurística confiable, en algunos casos, para lograr soluciones los suficientemente aproximadas u óptimas a una convergencia buscada, determinando un error calculable y previamente definido. Métodos como el de Newton o el de la Bisección permiten llegar a buenas aproximaciones al determinar la raíz o ceros de una cierta función siguiendo unos pasos iterados, todo ello independientemente del nivel de complejidad de la misma. El algoritmo de k-means presenta ventajas en este sentido. Es simple de ejecutar y utiliza varios métodos de medición de distancias (la forma estándar usa la distancia Euclídea o cuadrática); sin embargo, presenta dificultades inherentes a su naturaleza aleatoria.

Es interesante que tanto el método de la Bisección y del de Newton ya citados, dependan en gran medida del acercamiento inicial al cero de la función o la precisión y tamaño del intervalo previamente definido a biseccionar de manera repetida; el algoritmo k-means presenta una problemática similar relacionada con la cantidad de clusters o grupos a formar en un inicio, además de problemas relacionados con elección de los centroides iniciales (Existen métodos de mejoras para este proceso como k-means++. Sería al k-means lo que Aitkens al Punto fijo, con la diferencia que solo mejora, no acelera ). De igual manera el aumento de las interacciones ajusta los resultados pero hace al procedimiento largo, lento y tedioso para su procesamiento.

Tomando en cuenta que la idea detrás del algoritmo es minimizar la suma del cuadrado de las distancias entre los puntos de cada grupo y a la vez hacer que la distancia o inercia inter grupal sea cada vez mayor, al momento de empezar a desarrollarlo podemos tener una guía medianamente orientativa. Esta guía se puede crear siguiendo un procedimiento de ensayo y error al hacer variar el número de clusters y verificando cómo cambia la distancia inter grupal; mientras esta última aumenta, se entiende que el número de clusters es más eficiente para comenzar el proceso de iteración. Llegados a este punto sería prudente evaluar el nivel de entropía del sistema como indicador de la heterogeneidad o diversidad del sistema y grupos. En todo caso, la utilización de este método no garantiza encontrar una solución óptima global más que local.

En cuanto a los métodos jerárquicos, estos presentan ventajas relacionadas con la forma en que se organizan los datos, salvo por el hecho que estos mismos procesos de orden no siempre son tan simples. Ambas metodologías jerárquicas, aglomerativas y divisivas son viables siempre que no sea un grupo considerable de datos, de esta forma la velocidad del procesamiento compensa el esfuerzo. De igual manera, todas las medidas de distancias pueden ser usadas. El hecho de que el método busque maximizar medidas de similitud o minimizar alguna distancia lo hace claramente ventajoso en cuanto a este punto.

Algunos de los algoritmos basados en esta técnica presentan desventajas específicas, referidas a la secuencialidad, lo cual puede generar réplicas de elementos y re-asignación a diferentes grupos; también ramificaciones dobles o clones e incorrecta ubicación de elementos dentro de los nodos en los árboles.

 

clus-1

 

 

 

 

Os dejo algunas fuentes consultadas para este análisis:

Técnicas multivariadas aplicadas a las ciencias del comportamiento, de  Guillermo Vallejo Seco. 

Análisis Estadístico de Datos de Caracterización Morfológica de Recursos Fitogenéticos, de  Tito L. Franco.

Introducción a Apache Spark, de Mario Macías, Mauro Gómez, Ruben Tous, Jordi Torres

 

https://www.researchgate.net/profile/Ignacio_Benitez/publication/239526131_Tecnicas_de_Agrupamiento_para_el_Analisis_de_Datos_Cuantitativos_y_Cualitativos/links/00b7d51c15cca2cb1f000000/Tecnicas-de-Agrupamiento-para-el-Analisis-de-Datos-Cuantitativos-y-Cualitativos.pdf

http://www.ugr.es/~gallardo/pdf/cluster-3.pdf

 

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *

comentarios para esta entrada