Intervalo de confianza para la diferencia de dos proporciones de población

Intervalos de confianza son una parte de Estadística inferencial. La idea básica detrás de este tema es estimar el valor de una población desconocida parámetro mediante el uso de una muestra estadística. No solo podemos estimar el valor de un parámetro, sino que también podemos adaptar nuestros métodos para estimar la diferencia entre dos parámetros relacionados. Por ejemplo, es posible que deseemos encontrar la diferencia en el porcentaje de la población con derecho a voto masculino de EE. UU. Que apoya una legislación particular en comparación con la población con derecho a voto femenino.

Veremos cómo hacer este tipo de cálculo construyendo un intervalo de confianza para la diferencia de dos proporciones de población. En el proceso examinaremos algunas de las teorías detrás de este cálculo. Veremos algunas similitudes en cómo construimos un intervalo de confianza para una sola proporción poblacional así como un intervalo de confianza para la diferencia de dos medias poblacionales.

Generalidades

instagram viewer

Antes de ver la fórmula específica que usaremos, consideremos el marco general en el que se ajusta este tipo de intervalo de confianza. La forma del tipo de intervalo de confianza que veremos está dada por la siguiente fórmula:

Estimación +/- Margen de error

Muchos intervalos de confianza son de este tipo. Hay dos números que necesitamos calcular. El primero de estos valores es la estimación del parámetro. El segundo valor es el margen de error. Este margen de error explica el hecho de que tenemos una estimación. El intervalo de confianza nos proporciona un rango de valores posibles para nuestro parámetro desconocido.

Condiciones

Debemos asegurarnos de que se cumplan todas las condiciones antes de hacer cualquier cálculo. Para encontrar un intervalo de confianza para la diferencia de dos proporciones de población, debemos asegurarnos de que se cumpla lo siguiente:

  • Tenemos dos muestras aleatorias simples de grandes poblaciones. Aquí "grande" significa que la población es al menos 20 veces mayor que el tamaño de la muestra. Los tamaños de muestra se denotarán por norte1 y norte2.
  • Nuestros individuos han sido elegidos independientemente uno del otro.
  • Hay al menos diez éxitos y diez fracasos en cada una de nuestras muestras.

Si el último elemento de la lista no está satisfecho, entonces puede haber una forma de evitarlo. Podemos modificar el intervalo de confianza más cuatro construcción y obtención resultados robustos. A medida que avanzamos, asumimos que se han cumplido todas las condiciones anteriores.

Muestras y proporciones de población

Ahora estamos listos para construir nuestro intervalo de confianza. Comenzamos con la estimación de la diferencia entre las proporciones de nuestra población. Ambas proporciones de población se estiman por una proporción de muestra. Estas proporciones de muestra son estadísticas que se encuentran dividiendo el número de éxitos en cada muestra y luego dividiendo por el tamaño de muestra respectivo.

La primera proporción de la población se denota por pag1. Si el número de éxitos en nuestra muestra de esta población es k1, entonces tenemos una proporción de muestra de k1 / n1.

Denotamos esta estadística por p̂1. Leemos este símbolo como "p1-hat "porque se parece al símbolo p1 con un sombrero en la parte superior.

De manera similar, podemos calcular una proporción de muestra de nuestra segunda población. El parámetro de esta población es pag2. Si el número de éxitos en nuestra muestra de esta población es k2, y nuestra proporción de muestra es p̂2 = k2 / n2.

Estas dos estadísticas se convierten en la primera parte de nuestro intervalo de confianza. La estimación de pag1 es p̂1. La estimación de pag2 es p̂2. Entonces la estimación de la diferencia pag1 - pag2 es p̂1 - pag2.

Distribución muestral de la diferencia de proporciones muestrales

Luego necesitamos obtener la fórmula para el margen de error. Para hacer esto, primero consideraremos el distribución muestral de p̂1 . Esta es una distribución binomial con probabilidad de éxito. pag1 y norte1 juicios. La media de esta distribución es la proporción. pag1. La desviación estándar de este tipo de variable aleatoria tiene una varianza de pag1 (1 - pag1 )/norte1.

La distribución muestral de p̂2 es similar a la de p̂1 . Simplemente cambie todos los índices de 1 a 2 y tenemos una distribución binomial con media de p2 y varianza de pag2 (1 - pag2 )/norte2.

Ahora necesitamos algunos resultados de estadísticas matemáticas para determinar la distribución muestral de p̂1 - pag2. La media de esta distribución es pag1 - pag2. Debido al hecho de que las variaciones se suman, vemos que la variación de la distribución de muestreo es pag1 (1 - pag1 )/norte1 + pag2 (1 - pag2 )/norte2. La desviación estándar de la distribución es la raíz cuadrada de esta fórmula.

Hay un par de ajustes que debemos hacer. El primero es que la fórmula para la desviación estándar de p̂1 - pag2 utiliza los parámetros desconocidos de pag1 y pag2. Por supuesto, si realmente supiéramos estos valores, entonces no sería un problema estadístico interesante en absoluto. No necesitaríamos estimar la diferencia entre pag1 y pag2.. En cambio, simplemente podríamos calcular la diferencia exacta.

Este problema se puede solucionar calculando un error estándar en lugar de una desviación estándar. Todo lo que necesitamos hacer es reemplazar las proporciones de la población por proporciones de muestra. Los errores estándar se calculan a partir de estadísticas en lugar de parámetros. Un error estándar es útil porque efectivamente estima una desviación estándar. Lo que esto significa para nosotros es que ya no necesitamos saber el valor de los parámetros pag1 y pag2. .Como se conocen estas proporciones de muestra, el error estándar viene dado por la raíz cuadrada de la siguiente expresión:

pag1 (1 - p̂1 )/norte1 + p̂2 (1 - p̂2 )/norte2.

El segundo elemento que debemos abordar es la forma particular de nuestra distribución de muestreo. Resulta que podemos usar una distribución normal para aproximar la distribución de muestreo de p̂1 - pag2. La razón de esto es algo técnica, pero se describe en el siguiente párrafo.

Ambos p̂1 y P2 tener una distribución de muestreo que es binomial. Cada una de estas distribuciones binomiales puede aproximarse bastante bien por una distribución normal. Así p̂1 - pag2 es una variable aleatoria Se forma como una combinación lineal de dos variables aleatorias. Cada uno de estos se aproxima por una distribución normal. Por lo tanto, la distribución de muestreo de p̂1 - pag2 También se distribuye normalmente.

Fórmula de intervalo de confianza

Ahora tenemos todo lo que necesitamos para armar nuestro intervalo de confianza. La estimación es (p̂1 - pag2) y el margen de error es z * [pag1 (1 - p̂1 )/norte1 + p̂2 (1 - p̂2 )/norte2.]0.5. El valor que ingresamos para z * está dictado por el nivel de confianza C. Valores utilizados comúnmente para z * son 1.645 para 90% de confianza y 1.96 para 95% de confianza. Estos valores para z * denotar la parte de la distribución normal estándar donde exactamente C por ciento de la distribución es entre -z * y z *.

La siguiente fórmula nos da un intervalo de confianza para la diferencia de dos proporciones de población:

(pag1 - pag2) +/- z * [pag1 (1 - p̂1 )/norte1 + p̂2 (1 - p̂2 )/norte2.]0.5

instagram story viewer