Análisis y estadísticas de regresión lineal

La regresión lineal es una técnica estadística que se utiliza para aprender más sobre la relación entre una variable independiente (predictor) y una variable dependiente (criterio). Cuando tiene más de una variable independiente en su análisis, esto se conoce como regresión lineal múltiple. En general, la regresión le permite al investigador hacer la pregunta general "¿Cuál es el mejor predictor de ???"

Por ejemplo, digamos que estábamos estudiando las causas de obesidad, medido por el índice de masa corporal (IMC). En particular, queríamos ver si las siguientes variables eran predictores significativos del IMC de una persona: cantidad de comida rápida comidas que se comen por semana, número de horas de televisión que se ven por semana, número de minutos dedicados a hacer ejercicio por semana y los padres " IMC La regresión lineal sería una buena metodología para este análisis.

La ecuación de regresión

Cuando realiza un análisis de regresión con una variable independiente, la ecuación de regresión es Y = a + b * X donde Y es la variable dependiente, X es la variable independiente, a es la constante (o intercepción) y b es el

instagram viewer
pendiente de la línea de regresión. Por ejemplo, supongamos que el GPA se predice mejor con la ecuación de regresión 1 + 0.02 * IQ. Si un estudiante tuviera un coeficiente intelectual de 130, entonces, su GPA sería 3.6 (1 + 0.02 * 130 = 3.6).

Cuando realiza un análisis de regresión en el que tiene más de una variable independiente, la ecuación de regresión es Y = a + b1 * X1 + b2 * X2 +... + bp * Xp. Por ejemplo, si quisiéramos incluir más variables en nuestro análisis de GPA, como medidas de motivación y autodisciplina, usaríamos esto ecuación.

R Plaza

R-cuadrado, también conocido como el coeficiente de determinación, es una estadística de uso común para evaluar el ajuste del modelo de una ecuación de regresión. Es decir, ¿qué tan buenas son todas sus variables independientes para predecir su variable dependiente? El valor de R-cuadrado varía de 0.0 a 1.0 y se puede multiplicar por 100 para obtener un porcentaje de diferencia explicado. Por ejemplo, volviendo a nuestra ecuación de regresión GPA con solo una variable independiente (IQ)... Digamos que nuestro El cuadrado R para la ecuación fue 0.4. Podríamos interpretar que esto significa que el 40% de la varianza en el GPA se explica por IQ Si luego agregamos nuestras otras dos variables (motivación y autodisciplina) y el cuadrado R aumenta a 0.6, esto significa que el coeficiente intelectual, la motivación y la autodisciplina juntos explican el 60% de la variación en el GPA puntuaciones.

Los análisis de regresión generalmente se realizan utilizando software estadístico, como SPSS o SAS, por lo que el R-cuadrado se calcula para usted.

Interpretación de los coeficientes de regresión (b)

Los coeficientes b de las ecuaciones anteriores representan la fuerza y ​​la dirección de la relación entre las variables independientes y dependientes. Si observamos la ecuación de GPA e IQ, 1 + 0.02 * 130 = 3.6, 0.02 es el coeficiente de regresión para la variable IQ. Esto nos dice que la dirección de la relación es positiva, de modo que a medida que aumenta el coeficiente intelectual, el GPA también aumenta. Si la ecuación fuera 1 - 0.02 * 130 = Y, esto significaría que la relación entre IQ y GPA fue negativa.

Supuestos

Existen varios supuestos sobre los datos que deben cumplirse para realizar un análisis de regresión lineal:

  • Linealidad: Se supone que la relación entre las variables independientes y dependientes es lineal. Aunque esta suposición nunca puede confirmarse por completo, observando un gráfico de dispersión de sus variables puede ayudar a tomar esta determinación. Si hay una curvatura en la relación, puede considerar transformar las variables o permitir explícitamente componentes no lineales.
  • Normalidad: Se supone que el derechos residuales de autor de sus variables se distribuyen normalmente. Es decir, los errores en la predicción del valor de Y (la variable dependiente) se distribuyen de una manera que se aproxima a la curva normal. Puedes mirar histogramas o gráficos de probabilidad normal para inspeccionar la distribución de sus variables y sus valores residuales.
  • Independencia: Se supone que los errores en la predicción del valor de Y son independientes entre sí (no correlacionados).
  • Homocedasticidad: Se supone que la varianza alrededor de la línea de regresión es la misma para todos los valores de las variables independientes.

Fuente

  • StatSoft: Libro de texto de estadísticas electrónicas. (2011). http://www.statsoft.com/textbook/basic-statistics/#Crosstabulationb.