El análisis de conglomerados es una técnica estadística utilizada para identificar cómo se pueden agrupar varias unidades, como personas, grupos o sociedades, debido a las características que tienen en común. También conocido como agrupamiento, es una herramienta exploratoria de análisis de datos que tiene como objetivo clasificar diferentes objetos en grupos de tal manera que cuando pertenecen al mismo grupo tienen un grado máximo de asociación y cuando no pertenecen al mismo grupo su grado de asociación es mínimo. A diferencia de otros técnicas estadísticas, las estructuras que se descubren a través del análisis de conglomerados no necesitan explicación o interpretación: descubre la estructura en los datos sin explicar por qué existen.
¿Qué es la agrupación?
La agrupación existe en casi todos los aspectos de nuestra vida diaria. Tome, por ejemplo, artículos en una tienda de comestibles. Siempre se muestran diferentes tipos de artículos en el mismo lugar o en lugares cercanos: carne, verduras, refrescos, cereales, productos de papel, etc. Los investigadores a menudo quieren hacer lo mismo con los datos y agrupar objetos o temas en grupos que tengan sentido.
Para tomar un ejemplo de las ciencias sociales, digamos que estamos viendo países y queremos agruparlos en grupos basados en características tales como División del trabajo, militares, tecnología o población educada. Encontraríamos que Gran Bretaña, Japón, Francia, Alemania y Estados Unidos tienen características similares y estarían agrupados. Uganda, Nicaragua y Pakistán también se agruparían en un grupo diferente porque comparten un conjunto diferente de características, incluyendo bajos niveles de riqueza, divisiones de trabajo más simples, instituciones políticas relativamente inestables y antidemocráticas, y baja tecnología desarrollo.
El análisis de conglomerados se usa típicamente en la fase exploratoria de la investigación cuando el investigador no tiene hipótesis preconcebidas. Por lo general, no es el único método estadístico utilizado, sino que se realiza en las primeras etapas de un proyecto para ayudar a guiar el resto del análisis. Por esta razón, la prueba de significación generalmente no es relevante ni apropiada.
Existen varios tipos diferentes de análisis de conglomerados. Los dos más utilizados son la agrupación K-means y la agrupación jerárquica.
Agrupación K-means
La agrupación K-means trata las observaciones en los datos como objetos que tienen ubicaciones y distancias entre sí (tenga en cuenta que las distancias utilizadas en la agrupación a menudo no representan distancias espaciales). Separa los objetos en K grupos mutuamente excluyentes para que los objetos dentro de cada grupo sean tan lo más cerca posible entre sí y al mismo tiempo, lo más lejos posible de los objetos en otros grupos. Cada grupo se caracteriza por su punto medio o central.
Agrupación jerárquica
La agrupación jerárquica es una forma de investigar agrupaciones en los datos simultáneamente en una variedad de escalas y distancias. Lo hace creando un árbol de clúster con varios niveles. A diferencia de la agrupación K-means, el árbol no es un conjunto único de agrupaciones. Más bien, el árbol es una jerarquía de niveles múltiples donde los grupos en un nivel se unen como grupos en el siguiente nivel superior. El algoritmo que se usa comienza con cada caso o variable en un grupo separado y luego combina grupos hasta que solo quede uno. Esto le permite al investigador decidir qué nivel de agrupamiento es el más apropiado para su investigación.
Realizar un análisis de clúster
Más programas de software de estadísticas puede realizar análisis de conglomerados. En SPSS, seleccione analizar del menú, entonces clasificar y análisis de conglomerados. En SAS, el clúster de proceso Se puede utilizar la función.
Actualizado por Nicki Lisa Cole, Ph. D.