Cómo estimar desviaciones estándar (SD)

La desviación estándar y el rango son ambas medidas de la difusión de un conjunto de datos. Cada número nos dice a su manera qué tan espaciados están los datos, ya que ambos son una medida de variación. Aunque no existe una relación explícita entre el rango y desviación estándar, hay un regla de oro eso puede ser útil para relacionar estas dos estadísticas. Esta relación a veces se conoce como la regla de rango para la desviación estándar.

La regla del rango nos dice que la desviación estándar de una muestra es aproximadamente igual a un cuarto del rango de los datos. En otras palabrass = (Máximo - Mínimo) / 4. Esta es una fórmula muy sencilla de usar, y solo debe usarse como un método muy aproximado. estimación de la desviación estándar.

Un ejemplo

Para ver un ejemplo de cómo funciona la regla de rango, veremos el siguiente ejemplo. Supongamos que comenzamos con los valores de datos de 12, 12, 14, 15, 16, 18, 18, 20, 20, 25. Estos valores tienen un media de 17 y una desviación estándar de aproximadamente 4.1. Si en cambio calculamos primero el rango de nuestros datos como 25 - 12 = 13 y luego dividimos este número entre cuatro tenemos nuestra estimación de la desviación estándar como 13/4 = 3.25. Este número está relativamente cerca de la verdadera desviación estándar y es bueno para una estimación aproximada.

instagram viewer

¿Por qué funciona?

Puede parecer que la regla de rango es un poco extraña. Por que funciona ¿No parece completamente arbitrario dividir el rango entre cuatro? ¿Por qué no dividimos por un número diferente? En realidad, hay una justificación matemática entre bastidores.

Recordemos las propiedades de la curva de campana y las probabilidades de un distribución normal estándar. Una característica tiene que ver con la cantidad de datos que cae dentro de un cierto número de desviaciones estándar:

  • Aproximadamente el 68% de los datos está dentro de una desviación estándar (mayor o menor) de la media.
  • Aproximadamente el 95% de los datos están dentro de dos desviaciones estándar (mayor o menor) de la media.
  • Aproximadamente el 99% está dentro de tres desviaciones estándar (mayor o menor) de la media.

El número que usaremos tiene que ver con el 95%. Podemos decir que el 95% de dos desviaciones estándar por debajo de la media a dos desviaciones estándar por encima de la media, tenemos el 95% de nuestros datos. Por lo tanto, casi toda nuestra distribución normal se extendería sobre un segmento de línea que es un total de cuatro desviaciones estándar de largo.

No todos los datos se distribuyen normalmente y tienen forma de campana. Pero la mayoría de los datos se comportan lo suficientemente bien como para alejarse dos desviaciones estándar de la media y capturan casi todos los datos. Estimamos y decimos que cuatro desviaciones estándar son aproximadamente del tamaño del rango, por lo que el rango dividido entre cuatro es una aproximación aproximada de la desviación estándar.

Usos para la regla de rango

La regla de rango es útil en varias configuraciones. Primero, es una estimación muy rápida de la desviación estándar. La desviación estándar requiere que primero encontremos la media, luego restemos esta media de cada punto de datos, cuadrado las diferencias, agregue estas, divida por uno menos que el número de puntos de datos, luego (finalmente) tome el cuadrado raíz. Por otro lado, la regla de rango solo requiere una resta y una división.

Otros lugares donde la regla de rango es útil es cuando tenemos información incompleta. Las fórmulas como esa para determinar el tamaño de la muestra requieren tres piezas de información: la deseada margen de error, el nivel de confianza y la desviación estándar de la población que estamos investigando. Muchas veces es imposible saber lo que la población Desviación Estándar es. Con la regla de rango, podemos estimar esta estadística y luego saber qué tan grande deberíamos hacer nuestra muestra.

instagram story viewer