Anexo Segmentación

Anexo 1. Análisis avanzado de la segmentación

En esta sección se realiza un análisis avanzado con un doble objetivo. Primero, validar la robustez de la estructura de segmentación mediante técnicas de aprendizaje no supervisado (Análisis Clúster). Segundo, profundizar en las variables clave que definen y separan dichos segmentos mediante técnicas de clasificación (Análisis Discriminante).

1. Validación de segmentos

El primer paso es someter nuestra segmentación a un “test de estrés”. La pregunta a responder es: Si no conociéramos de antemano los cuatro segmentos, ¿un algoritmo de clustering sería capaz de identificarlos por sí solo basándose únicamente en las actitudes de los encuestados?

Para ello, utilizaremos el algoritmo K-Means.

Interpretación

  1. Número óptimo de clústeres: El gráfico del “Método del Codo” no es inequívoco. Muestra una ligera inflexión (un “codo”) en el punto K=4, pero probablemente lo vemos más por tener hipótesis previa. No es concluyente aunque proporciona un fuerte respaldo empírico a nuestra estructura teórica de cuatro segmentos.

  2. Matriz de validación: La tabla de contingencia que cruza los segmentos originales (diseñados por nosotros) con los clústeres descubiertos por el algoritmo es la prueba definitiva. No se observa una diagonal casi perfecta, aunque si diríamos que existe una alta correspondencia entre ambos. Por ejemplo, la gran mayoría de los individuos del segmento “Functionalist Stressed” han sido agrupados por el algoritmo en el clúster 3, los del “Social Connector” en el clúster 2, y así sucesivamente.

Conclusión de la validación: El análisis clúster K-Means confirma con un alto grado de fiabilidad que la estructura de cuatro segmentos no es una construcción artificial, sino que emerge de forma natural a partir de los patrones de respuesta de los consumidores. Esto valida la solidez de la segmentación como base para la estrategia de negocio.

Para poder interpretar la “personalidad” de cada clúster descubierto, a continuación se presentan sus puntuaciones medias en las variables de actitud.

La tabla de caracterización nos permite ponerle nombre a cada clúster. Por ejemplo, el clúster con la media más alta en mean_breq_guilty y mean_spas_anxious se corresponde con nuestro “Functionalist Stressed”. Esta correspondencia nos permitirá, en el siguiente paso, utilizar el Análisis Discriminante para profundizar en las variables que mejor los definen.

Criterio estadístico (NbClust)

Para confirmar la decisión visual, utilizamos NbClust que calcula 30 índices diferentes.

Decisión: La votación mayoritaria de los índices estadísticos en NbClust si permitimos cualquier clasificación entre 2 y 6, es abrumadoramente 2, pero esos dos, posteriomente se genan a 4, que sería un solución también robusta y natural para estos datos. Par ello, lo que hemos hecho es valorar entre 4 y 6.

2. Explicación de segmentos

Una vez que el análisis clúster ha validado que nuestros cuatro segmentos son estructuras que emergen de forma natural de los datos, el siguiente paso es profundizar en su “ADN”. Queremos responder a una pregunta de negocio fundamental:

Dado que sabemos que estos cuatro grupos existen, ¿cuáles son exactamente las actitudes clave que mejor los definen y los separan entre sí? ¿Podemos crear una “fórmula” para predecir a qué segmento pertenece un consumidor basándonos en su mentalidad?

Para ello, utilizaremos una potente técnica de clasificación supervisada: el Análisis discriminante lineal (LDA).

LDA nos permite encontrar los aspectos que mejor diferencian un segmento de otro. Estos aspectos se llaman funciones discriminantes. No son más que combinaciones lineales de nuestras variables de actitud originales. Por ejemplo, el LDA podría descubrir que la mejor forma de separar a los segmentos es a través de dos grandes ejes:

  1. Función 1 (LD1): Un eje que contrapone la motivación por “placer y pisfrute” frente a la motivación por “culpa y obligación”.
  2. Función 2 (LD2): Un eje que contrapone el enfoque en el “rendimiento individual” frente al enfoque en la “socialización y el bienestar”.

El LDA nos dice qué variables de actitud son las más importantes en cada una y, finalmente, nos permite visualizar cómo de bien separados quedan nuestros cuatro segmentos en este nuevo “mapa de sabores”.

Interpretación del modelo

Procedemos a ejecutar el modelo utilizando nuestra variable segment como la variable a explicar y todas las variables de actitud como predictoras.

Interpretación del Modelo Numérico

1. Prior probabilities of groups

%Pertenencia según segmento
Functionalist Stressed       Social Connector  Performance Optimizer        Wellness Seeker 
             0.2740113              0.2881356              0.1949153              0.2429379 

Simplemente, el tamaño de cada uno de nuestros segmentos en la muestra de análisis. Antes de empezar, confirmamos que el mercado está bastante repartido. No hay un único grupo que domine abrumadoramente. El grupo más grande son los ‘Conectores Sociales’ (28.8%), pero los otros tres tienen un peso muy significativo. Esto refuerza la idea de que no podemos ignorar a ninguno de ellos a la ligera.

2. Coefficients of linear discriminants y Proportion of trace

Aquí es donde descubrimos los elementos que definen el mercado.

Coefientes discriminantes

Proportion of trace

Proportions of varianza: 
[1] "LD1 (75.6%)"  "LD2 (15.74%)" "LD3 (8.65%)" 

Nos dice qué porcentaje de las diferencias totales entre los cuatro segmentos es explicado por cada Función Discriminante (LD). LD1 explica el 75.6%: Tres cuartas partes de lo que diferencia a un consumidor de otro en este mercado se pueden resumir en una única gran dimensión psicológica. Si entendemos este eje, entendemos el mercado. LD2 explica el 15.7%: Existe una segunda dimensión, menos potente pero todavía muy relevante, que nos ayuda a matizar y separar a los grupos que se parecen en la primera dimensión. LD3 explica el 8.7%: Esta tercera dimensión tiene un poder explicativo muy bajo. Para tomar decisiones de negocio, nos centraremos en las dos primeras, que capturan más del 91% de la historia.

Coefficients of linear discriminants (El Significado de cada Eje):

Ahora vamos a ponerle nombre a esos ejes mirando los coeficientes más altos.

  • LD1 (Eje principal del perfilado):
    • Coeficientes negativos más altos: spas_anxious_seen (-0.59) y tam_is_stressful (-0.58). También son negativos, aunque menos, breq_guilty y breq_should_exercise.
    • Coeficientes positivos más altos: breq_pleasure (0.29) y tam_is_fun (0.24).
    • Conclusión para Reebok: El principal eje que define la mentalidad del consumidor es la tensión entre el deporte como una fuente de ansiedad y obligación (polo negativo) y el deporte como una fuente de placer y disfrute (polo positivo). En un extremo tenemos a la gente que se siente juzgada, estresada por la tecnología y motivada por la culpa. En el otro, a quienes lo hacen por puro placer. Toda nuestra estrategia de comunicación debe decidir en qué lado de este eje queremos posicionar a Reebok.
  • LD2 (Eje de diferenciación):
    • Coeficientes Positivos más altos: soq_enjoy_competing (0.70), tam_useful_for_goals (0.23) y breq_value_benefits (0.22).
    • Coeficientes negativos más altos: breq_enjoy_session (-0.20) y tam_is_fun (-0.14).
    • Conclusión para Reebok: Este segundo eje nos ayuda a diferenciar a los consumidores que, aunque disfrutan del deporte, lo hacen por razones distintas. Este eje representa la tensión entre el deporte como un medio para un fin competitivo y de rendimiento (polo positivo) y el deporte como una experiencia placentera en sí misma (polo negativo). En un extremo tenemos a la gente que disfruta compitiendo, que usa la tecnología para alcanzar metas y valora los beneficios. En el otro, a quienes simplemente disfrutan de la sesión por el mero hecho de hacerla.

Consecuencias prácticas: Group means**

  • Qué es: La puntuación media de cada segmento en cada una de las variables de actitud originales.
  • Interpretación para Reebok (conectando ejes con segmentos):
    • Functionalist Stressed: “Este grupo es la encarnación del polo negativo de LD1. Tienen las puntuaciones más altas en culpa (3.70), deber (3.87) y ansiedad social (3.72), y las más bajas en placer (1.82). Son el segmento que sufre el deporte.”
    • Social Connector: “Este grupo está en el polo positivo de LD1 (placer = 3.96) y en el polo negativo de LD2. Disfrutan de la sesión (3.93) y de la tecnología como algo divertido (3.21), pero no están obsesionados con la competición (3.03) ni con la mejora del rendimiento (3.17).”
    • Performance Optimizer: “Este grupo es la encarnación del polo positivo de LD2. Tienen las puntuaciones más altas en disfrutar de la competición (4.06), en la utilidad de la tecnología (3.88) y en la importancia de los beneficios (3.64). Para ellos, el deporte es un sistema a optimizar.”
    • Wellness Seeker: “Este grupo es interesante porque está en el polo positivo de LD1 (placer = 3.55, disfrute de la sesión = 3.97) pero, a diferencia del ‘Social Connector’, está más orientado a la superación personal (puntuación más alta en soq_set_goals = 3.94) que a la competición contra otros (puntuación más baja en soq_enjoy_competing = 1.66).”

Evaluación de la capacidad predictiva del modelo

Ahora, usamos el modelo que hemos creado para predecir a qué segmento pertenece cada individuo basándonos únicamente en sus actitudes. La comparación entre el segmento real y el predicho nos da una medida de la robustez del modelo.

Matriz de Confusión: Original vs. Predicho
row_labels predicted_segment|Functionalist Stressed predicted_segment|Social Connector predicted_segment|Performance Optimizer predicted_segment|Wellness Seeker
segment|Functionalist Stressed 94 2 1
segment|Social Connector 1 71 10 20
segment|Performance Optimizer 2 7 53 7
segment|Wellness Seeker 14 2 70
segment|#Total cases 97 94 65 98

**Precisión general del modelo:** 81.36%

La matriz de confusión muestra una diagonal muy fuerte, indicando una alta correspondencia entre los segmentos originales y los predichos por el modelo. La precisión general del modelo es del 81.36%. En el contexto de la segmentación de mercados, donde los perfiles de consumidor son constructos psicológicos con fronteras inherentemente difusas, una precisión de este nivel se considera muy buena y robusta. Supera masivamente tanto la clasificación por azar (25%) como la clasificación por la clase mayoritaria (31.5%), demostrando que las variables de actitud medidas tienen un alto poder predictivo. Esto significa que, con solo conocer las respuestas de un individuo a los ítems de actitud, el modelo es capaz de predecir a qué “tribu” de consumidor pertenece en más de 8 de cada 10 casos. La segmentación es, por tanto, muy robusta y discriminante.

La mejor forma de entender el poder del LDA es visualmente. El siguiente gráfico representa a cada encuestado en el “mapa de sabores” creado por las dos funciones discriminantes principales.

El mapa perceptual muestra cuatro “nubes” de puntos más o menos separadas, lo que confirma visualmente la validez de la segmentación.

  • Eje Horizontal (LD1 - Placer vs. Obligación): Este es el eje principal que estructura el mercado. Separa de forma contundente a los segmentos en dos grandes mentalidades:
    • A la izquierda (valores negativos), encontramos al “Functionalist Stressed”. Este segmento se define por su relación con el deporte basada en la Obligación y la Ansiedad.
    • A la derecha (valores positivos), se agrupan los otros tres segmentos: “Social Connector”, “Performance Optimizer” y “Wellness Seeker”. Aunque son diferentes entre sí, todos comparten una motivación fundamental basada en el Placer y el Disfrute.
  • Eje Vertical (LD2 - Rendimiento vs. Bienestar/Social): Este eje se encarga de diferenciar a los tres segmentos que se sitúan en la zona del “Placer”.
    • Arriba (valores positivos), se posiciona claramente el “Performance Optimizer”. Este segmento se define por su alto enfoque en el Rendimiento Individual y la superación.
    • Abajo (valores negativos), se sitúan el “Social Connector” y el “Buscador de Bienestar”. Ambos comparten un menor interés por la competición pura y se definen más por una dimensión de Bienestar y/o Socialización.

Así pues, el LDA no solo ha validado la segmentación con una alta precisión, sino que nos ha proporcionado el “ADN” de cada grupo. Sabemos que las dos palancas clave que definen a los consumidores son (1) si el deporte es un placer o un deber, y (2) si lo enfocan hacia el rendimiento o hacia el bienestar. Esto proporciona a Reebok un mapa claro de los “botones emocionales” que debe pulsar su estrategia de comunicación para conectar con cada uno de ellos.