La prueba de carreras para secuencias aleatorias

Dado un secuencia de datos, una pregunta que podemos preguntarnos es si la secuencia ocurrió por fenómenos casuales, o si los datos no son aleatorios. La aleatoriedad es difícil de identificar, ya que es muy difícil simplemente observar los datos y determinar si se produjeron por casualidad o no. Un método que puede usarse para ayudar a determinar si una secuencia realmente ocurrió por casualidad se llama prueba de ejecución.

La prueba de ejecución es una prueba de importancia o prueba de hipotesis. El procedimiento para esta prueba se basa en una ejecución, o una secuencia, de datos que tienen un rasgo particular. Para entender cómo funciona la prueba de carreras, primero debemos examinar el concepto de una carrera.

Secuencias de datos

Comenzaremos mirando un ejemplo de carreras. Considere la siguiente secuencia de dígitos aleatorios:

6 2 7 0 0 1 7 3 0 5 0 8 4 6 8 7 0 6 5 5

Una forma de clasificar estos dígitos es dividirlos en dos categorías, pares (incluidos los dígitos 0, 2, 4, 6 y 8) o impares (incluidos los dígitos 1, 3, 5, 7 y 9). Observaremos la secuencia de dígitos aleatorios y denotaremos los números pares como E y los números impares como O:

instagram viewer

E E O E E O O E O E E E E E O E E O O

Las ejecuciones son más fáciles de ver si reescribimos esto para que todos los Os estén juntos y todos los Es estén juntos:

EE O EE OO E O EEEEE O EE OO

Contamos el número de bloques de números pares o impares y vemos que hay un total de diez ejecuciones para los datos. Cuatro carreras tienen longitud uno, cinco tienen longitud dos y una tiene longitud cinco

Condiciones

Con cualquier prueba de significación, es importante saber qué condiciones son necesarias para realizar la prueba. Para la prueba de corridas, podremos clasificar cada valor de datos de la muestra en una de dos categorías. Contaremos la cantidad total de ejecuciones en relación con la cantidad de valores de datos que se incluyen en cada categoría.

La prueba será un prueba de dos lados. La razón de esto es que muy pocas ejecuciones significan que probablemente no haya suficiente variación y el número de ejecuciones que ocurrirían de un proceso aleatorio. Se producirán demasiadas ejecuciones cuando un proceso alterna entre las categorías con demasiada frecuencia para ser descrito por casualidad.

Hipótesis y valores P

Cada prueba de importancia tiene un nula y una hipótesis alternativa. Para la prueba de carreras, la hipótesis nula es que la secuencia es una secuencia aleatoria. La hipótesis alternativa es que la secuencia de datos de muestra no es aleatoria.

El software estadístico puede calcular el valor p eso corresponde a una estadística de prueba particular. También hay tablas que dan números críticos en un determinado nivel de significancia para el número total de carreras.

Ejecuta ejemplo de prueba

Trabajaremos en el siguiente ejemplo para ver cómo funciona la prueba de ejecución. Suponga que, para una tarea, se le pide a un estudiante que arroje una moneda 16 veces y observe el orden de cara y cruz que apareció. Si terminamos con este conjunto de datos:

H T H H H T T H T T H T H T H H

Podemos preguntarnos si el estudiante realmente hizo su tarea, o si hizo trampa y escribió una serie de H y T que se ven al azar. La prueba de carreras puede ayudarnos. Los supuestos se cumplen para la prueba de corridas ya que los datos se pueden clasificar en dos grupos, ya sea como cabeza o cola. Seguimos contando el número de carreras. Reagrupando, vemos lo siguiente:

H T HHH TT H TT H T H T HH

Hay diez corridas para nuestros datos con siete colas y nueve cabezas.

La hipótesis nula es que los datos son aleatorios. La alternativa es que no es aleatorio. Para un nivel de significancia de alfa igual a 0.05, vemos al consultar la tabla apropiada que rechazamos la hipótesis nula cuando el número de carreras es menor que 4 o mayor que 16. Como hay diez corridas en nuestros datos, nosotros fallo para rechazar la hipótesis nula H₀.

Aproximación normal

La prueba de ejecución es una herramienta útil para determinar si es probable que una secuencia sea aleatoria o no. Para un conjunto de datos grande, a veces es posible usar una aproximación normal. Esta aproximación normal requiere que usemos el número de elementos en cada categoría y luego calculemos la media y la desviación estándar de la apropiada distribución normal.