Muchas veces cuando estudiamos un grupo, realmente estamos comparando dos poblaciones. Dependiendo de la parámetro de este grupo en el que estamos interesados y las condiciones con las que estamos lidiando, hay varias técnicas disponibles. Estadístico inferencia Los procedimientos que se refieren a la comparación de dos poblaciones generalmente no se pueden aplicar a tres o más poblaciones. Para estudiar más de dos poblaciones a la vez, necesitamos diferentes tipos de herramientas estadísticas. Análisis de variación, o ANOVA, es una técnica de interferencia estadística que nos permite tratar con varias poblaciones.
Comparación de medias
Para ver qué problemas surgen y por qué necesitamos ANOVA, consideraremos un ejemplo. Supongamos que estamos tratando de determinar si el media los pesos de los caramelos M&M verdes, rojos, azules y naranjas son diferentes entre sí. Estableceremos los pesos medios para cada una de estas poblaciones, μ1, μ2, μ3 μ4 y respectivamente. Podemos usar el apropiado prueba de hipotesis varias veces, y prueba C (4,2), o seis diferentes hipótesis nulas:
- H0: μ1 = μ2 para verificar si el peso medio de la población de los caramelos rojos es diferente al peso medio de la población de los caramelos azules.
- H0: μ2 = μ3 para verificar si el peso medio de la población de los caramelos azules es diferente al peso medio de la población de los caramelos verdes.
- H0: μ3 = μ4 para verificar si el peso medio de la población de caramelos verdes es diferente del peso medio de la población de caramelos naranjas.
- H0: μ4 = μ1 para verificar si el peso medio de la población de los caramelos de naranja es diferente al peso medio de la población de los caramelos rojos.
- H0: μ1 = μ3 para verificar si el peso medio de la población de los caramelos rojos es diferente al peso medio de la población de los caramelos verdes.
- H0: μ2 = μ4 para verificar si el peso medio de la población de los caramelos azules es diferente al peso medio de la población de los caramelos naranjas.
Hay muchos problemas con este tipo de análisis. Tendremos seis pag-valores. Aunque podemos probar cada uno a un 95% nivel de confianza, nuestra confianza en el proceso general es menor porque las probabilidades se multiplican: .95 x .95 x .95 x .95 x .95 x .95 es aproximadamente .74, o un nivel de confianza del 74%. Por lo tanto, la probabilidad de un error tipo I ha aumentado.
En un nivel más fundamental, no podemos comparar estos cuatro parámetros en su conjunto si los comparamos de dos en dos. Las medias de los M&M rojos y azules pueden ser significativas, con el peso medio del rojo siendo relativamente mayor que el peso medio del azul. Sin embargo, cuando consideramos los pesos medios de los cuatro tipos de dulces, puede que no haya una diferencia significativa.
Análisis de variación
Para lidiar con situaciones en las que necesitamos hacer comparaciones múltiples, usamos ANOVA. Esta prueba nos permite considerar los parámetros de varias poblaciones a la vez, sin entrar en algunos de los problemas que enfrentamos por realización de pruebas de hipótesis en dos parámetros a la vez.
Para realizar ANOVA con el ejemplo de M&M anterior, probaríamos la hipótesis nula H0:μ1 = μ2 = μ3= μ4. Esto indica que no hay diferencia entre los pesos medios de los M&M rojos, azules y verdes. La hipótesis alternativa es que hay alguna diferencia entre los pesos medios de los M&M rojos, azules, verdes y naranjas. Esta hipótesis es realmente una combinación de varias declaraciones Hun:
- El peso medio de la población de caramelos rojos no es igual al peso medio de la población de caramelos azules, O
- El peso medio de la población de caramelos azules no es igual al peso medio de la población de caramelos verdes, O
- El peso medio de la población de caramelos verdes no es igual al peso medio de la población de caramelos naranjas, O
- El peso medio de la población de caramelos verdes no es igual al peso medio de la población de caramelos rojos, O
- El peso medio de la población de caramelos azules no es igual al peso medio de la población de caramelos naranjas, O
- El peso medio de la población de caramelos azules no es igual al peso medio de la población de caramelos rojos.
En este caso particular, para obtener nuestro valor p, utilizaríamos un Distribución de probabilidad conocido como el Distribución F. Los cálculos que involucran la prueba ANOVA F se pueden hacer a mano, pero generalmente se calculan con un software estadístico.
Comparaciones múltiples
Lo que separa a ANOVA de otras técnicas estadísticas es que se usa para hacer comparaciones múltiples. Esto es común en todas las estadísticas, ya que hay muchas veces en las que queremos comparar más que solo dos grupos. Por lo general, una prueba general sugiere que hay algún tipo de diferencia entre los parámetros que estamos estudiando. Luego seguimos esta prueba con algún otro análisis para decidir qué parámetro difiere.