los prueba de bondad de ajuste de chi-cuadrado es útil para comparar un modelo teórico a los datos observados. Esta prueba es un tipo de prueba de chi-cuadrado más general. Al igual que con cualquier tema de matemática o estadística, puede ser útil trabajar con un ejemplo para comprender lo que está sucediendo, con un ejemplo de la prueba de bondad de ajuste de chi-cuadrado.
Considere un paquete estándar de M & Ms de chocolate con leche. Hay seis colores diferentes: rojo, naranja, amarillo, verde, azul y marrón. Supongamos que tenemos curiosidad acerca de la distribución de estos colores y preguntamos, ¿se producen los seis colores en la misma proporción? Este es el tipo de pregunta que se puede responder con una prueba de bondad de ajuste.
Ajuste
Comenzamos observando el entorno y por qué la prueba de bondad de ajuste es apropiada. Nuestra variable de color es categórica. Hay seis niveles de esta variable, que corresponden a los seis colores que son posibles. Asumiremos que los M&M que contamos serán una muestra aleatoria simple de la población de todos los M&M.
Hipótesis nulas y alternativas
los hipótesis nulas y alternativas nuestra prueba de bondad de ajuste refleja la suposición que estamos haciendo sobre la población. Como estamos probando si los colores se producen en proporciones iguales, nuestra hipótesis nula será que todos los colores se producen en la misma proporción. Más formalmente, si pag1 es la proporción poblacional de dulces rojos, pag2 es la proporción de la población de caramelos de naranja, y así sucesivamente, entonces la hipótesis nula es que pag1 = pag2 =... = pag6 = 1/6.
La hipótesis alternativa es que al menos una de las proporciones de la población no es igual a 1/6.
Recuentos reales y esperados
Los recuentos reales son la cantidad de dulces para cada uno de los seis colores. El recuento esperado se refiere a lo que esperaríamos si la hipótesis nula fuera cierta. Vamos a dejar norte Ser del tamaño de nuestra muestra. El número esperado de dulces rojos es pag1 norte o norte/6. De hecho, para este ejemplo, el número esperado de dulces para cada uno de los seis colores es simplemente norte veces pagyoo norte/6.
Estadística de chi-cuadrado para bondad de ajuste
Ahora calcularemos una estadística de chi-cuadrado para un ejemplo específico. Supongamos que tenemos una muestra aleatoria simple de 600 dulces M&M con la siguiente distribución:
- 212 de los dulces son azules.
- 147 de los dulces son de color naranja.
- 103 de los dulces son verdes.
- 50 de los dulces son rojos.
- 46 de los dulces son amarillos.
- 42 de los dulces son marrones.
Si la hipótesis nula fuera cierta, los recuentos esperados para cada uno de estos colores serían (1/6) x 600 = 100. Ahora usamos esto en nuestro cálculo de la estadística de chi-cuadrado.
Calculamos la contribución a nuestra estadística a partir de cada uno de los colores. Cada uno tiene la forma (real - esperado)2/Expected.:
- Para el azul tenemos (212 - 100)2/100 = 125.44
- Para naranja tenemos (147 - 100)2/100 = 22.09
- Para el verde tenemos (103 - 100)2/100 = 0.09
- Para rojo tenemos (50-100)2/100 = 25
- Para el amarillo tenemos (46-100)2/100 = 29.16
- Para marrón tenemos (42-100)2/100 = 33.64
Luego sumamos todas estas contribuciones y determinamos que nuestra estadística de chi-cuadrado es 125.44 + 22.09 + 0.09 + 25 +29.16 + 33.64 = 235.42.
Grados de libertad
El número de grados de libertad para una prueba de bondad de ajuste es simplemente uno menos que el número de niveles de nuestra variable. Como había seis colores, tenemos 6 - 1 = 5 grados de libertad.
Tabla de Chi-cuadrado y valor P
La estadística de chi-cuadrado de 235.42 que calculamos corresponde a una ubicación particular en una distribución de chi-cuadrado con cinco grados de libertad. Ahora necesitamos un valor p, para determinar la probabilidad de obtener un estadístico de prueba al menos tan extremo como 235.42 mientras se supone que la hipótesis nula es verdadera.
Excel de Microsoft se puede usar para este cálculo. Encontramos que nuestra estadística de prueba con cinco grados de libertad tiene un valor p de 7.29 x 10-49. Este es un valor p extremadamente pequeño.
Regla de decisión
Tomamos nuestra decisión sobre si rechazar la hipótesis nula en función del tamaño del valor p. Como tenemos un valor p muy minúsculo, rechazamos la hipótesis nula. Concluimos que los M&M no están distribuidos de manera uniforme entre los seis colores diferentes. Se podría usar un análisis de seguimiento para determinar un intervalo de confianza para la proporción de población de un color en particular.