El número de grados de libertad La independencia de dos variables categóricas viene dada por una fórmula simple: (r - 1)(C - 1). aquí r es el número de filas y C es el número de columnas en el mesa de dos vías de los valores de la variable categórica. Siga leyendo para obtener más información sobre este tema y comprender por qué esta fórmula proporciona el número correcto.
Antecedentes
Un paso en el proceso de muchos pruebas de hipótesis es la determinación del número de grados de libertad. Este número es importante porque para distribuciones de probabilidad que involucran una familia de distribuciones, como la distribución de chi-cuadrado, el número de grados de Freedom señala la distribución exacta de la familia que deberíamos usar en nuestra hipótesis prueba.
Los grados de libertad representan el número de elecciones libres que podemos hacer en una situación dada. Una de las pruebas de hipótesis que nos obliga a determinar los grados de libertad es la chi-cuadrado prueba de independencia para dos variables categóricas.
Pruebas de independencia y tablas de dos vías
La prueba de chi-cuadrado para la independencia nos exige construir una tabla de dos vías, también conocida como tabla de contingencia. Este tipo de mesa tiene r filas y C columnas, que representan el r niveles de una variable categórica y el C niveles de la otra variable categórica. Por lo tanto, si no contamos la fila y la columna en la que registramos los totales, hay un total de rc celdas en la tabla de dos vías.
La prueba de chi-cuadrado para la independencia nos permite probar la hipótesis de que el categórico Las variables son independientes entre sí. Como mencionamos anteriormente, el r filas y C las columnas en la tabla nos dan (r - 1)(C - 1) grados de libertad. Pero puede que no esté claro de inmediato por qué este es el número correcto de grados de libertad.
El número de grados de libertad
Para ver por qué (r - 1)(C - 1) es el número correcto, examinaremos esta situación con más detalle. Supongamos que conocemos los totales marginales para cada uno de los niveles de nuestras variables categóricas. En otras palabras, sabemos el total de cada fila y el total de cada columna. Para la primera fila, hay C columnas en nuestra tabla, entonces hay C células. Una vez que conocemos los valores de todas las celdas menos una, entonces porque sabemos el total de todas las celdas, es un simple problema de álgebra determinar el valor de la celda restante. Si estuviéramos completando estas celdas de nuestra tabla, podríamos ingresar C - 1 de ellos libremente, pero luego la celda restante está determinada por el total de la fila. Por lo tanto hay C - 1 grado de libertad para la primera fila.
Continuamos de esta manera para la siguiente fila, y hay otra vez C - 1 grados de libertad. Este proceso continúa hasta llegar a la penúltima fila. Cada una de las filas, excepto la última, contribuye C - 1 grados de libertad al total. En el momento en que tenemos todos menos la última fila, entonces, debido a que conocemos la suma de la columna, podemos determinar todas las entradas de la fila final. Esto nos da r - 1 filas con C - 1 grado de libertad en cada uno de estos, para un total de (r - 1)(C - 1) grados de libertad.
Ejemplo
Vemos esto con el siguiente ejemplo. Supongamos que tenemos una tabla de dos vías con dos variables categóricas. Una variable tiene tres niveles y la otra tiene dos. Además, supongamos que conocemos los totales de fila y columna para esta tabla:
Nivel A | Nivel B | Total | |
Nivel 1 | 100 | ||
Nivel 2 | 200 | ||
Nivel 3 | 300 | ||
Total | 200 | 400 | 600 |
La fórmula predice que hay (3-1) (2-1) = 2 grados de libertad. Vemos esto de la siguiente manera. Supongamos que llenamos la celda superior izquierda con el número 80. Esto determinará automáticamente toda la primera fila de entradas:
Nivel A | Nivel B | Total | |
Nivel 1 | 80 | 20 | 100 |
Nivel 2 | 200 | ||
Nivel 3 | 300 | ||
Total | 200 | 400 | 600 |
Ahora, si sabemos que la primera entrada en la segunda fila es 50, entonces se completa el resto de la tabla, porque sabemos el total de cada fila y columna:
Nivel A | Nivel B | Total | |
Nivel 1 | 80 | 20 | 100 |
Nivel 2 | 50 | 150 | 200 |
Nivel 3 | 70 | 230 | 300 |
Total | 200 | 400 | 600 |
La tabla está completamente llena, pero solo teníamos dos opciones libres. Una vez que se conocieron estos valores, se determinó completamente el resto de la tabla.
Aunque normalmente no necesitamos saber por qué hay tantos grados de libertad, es bueno saber que realmente solo estamos aplicando el concepto de grados de libertad a una nueva situación.