Una vez que haya adaptado un modelo lineal utilizando análisis de regresión, ANOVA o Planes de Experimento (DOE), debe determinar hasta qué punto el modelo S ‘ajusta los datos. Para ayudarlo, el software estadístico Minitab tiene una variedad de estadísticas de ajuste de ajuste. En este artículo, exploraremos la estadística R-Square (R²), algunos de sus límites, y descubriremos algunas sorpresas en el camino. Por ejemplo, los valores bajos de R cuadrado no siempre son malos y los valores de alta R-cuadrado no siempre son buenos!

¿Cuál es la adaptación del ajuste para un modelo lineal?

Definición: valor residual y observado – valor ajustado

La regresión lineal calcula una ecuación que minimiza la distancia entre la línea ajustada y todos los puntos de datos. Técnicamente, la regresión de mínimos cuadrados ordinarios (OLS) minimiza la suma de los residuos en el cuadrado.

En general, un modelo corresponde a los datos si las diferencias entre los valores observados y los valores predichos del modelo es bajo. y no sesgado.

Antes de examinar las medidas estadísticas para la adaptación del ajuste, debe verificar los gráficos de los valores residuales. Los valores residuales los gráficos pueden revelar esquemas / tendencias no deseadas que indican los resultados sesgados de manera más eficiente que los números. Cuando sus marcadores de valores residuales validan las diferentes hipótesis del modelo, puede confiar en sus resultados numéricos y verificar las estadísticas de ajuste

¿Qué es el R-Square?

la r- La plaza es una medida estadística de la proximidad de los datos a la línea de regresión ajustada. También se conoce como el coeficiente de determinación, o el múltiple coeficiente de determinación para la regresión múltiple.

La definición de la R-Square es bastante simple; Este es el porcentaje de variación de la variable de respuesta que se explica por un modelo lineal. O:

r-cuadrado = variación explicada / variación total

El cuadrado R siempre está entre 0 y 100%:

  • 0% indica que el modelo explica ninguna de las variabilidad de los datos de respuesta alrededor de su promedio.
  • El 100% indica que el modelo explica toda la variabilidad de los datos de respuesta alrededor de su promedio.

En general, cuanto mayor sea el R-Square, el mejor es el modelo que se ajusta a sus datos. Sin embargo, hay condiciones importantes para esta recomendación de que estoy dejando tanto en este artículo como en mi próximo artículo.

Representación gráfica de R-Square

Dibujar valores ajustados según los valores observados Ilustra gráficamente los diferentes valores cuadrados de R para los modelos de regresión.

El modelo de regresión a la izquierda representa el 46.1% de la varianza, mientras que la de la derecha representa el 71.7%. Cuanto mayor sea la varianza explicada por el modelo de regresión, más cercano los puntos de datos se acercarán a la línea de regresión ajustada. Teóricamente, si un modelo podría explicar el 100% de la varianza, los valores ajustados siempre serían iguales a los valores observados y, por lo tanto, todos los puntos de datos caen en la línea de regresión ajustada.

Préstamo (E) Para una demostración del software de análisis de datos de Minitab? Escríbanos >

Límites principales de la R-Square

El R-Square no puede determinar si las estimaciones de los coeficientes y el Los pronósticos son sesgados, por lo que debe evaluar los gráficos de los valores residuales.

El R-Square no indica si un modelo de regresión es adecuado. Puede tener un bajo valor R-Square para un buen modelo, o un alto valor del R-Square para un modelo que no se ajusta a los datos!

El cuadrado R en sus resultados es un sesgado Estimación del cuadrado R de la población.

¿son los valores bajos de R-Square intrínsecamente malos?

¡No! Hay dos razones principales por las que puede ser muy bueno tener valores bajos de R-cuadrados.

En algunas áreas, espera que sus valores cuadrados de R sea menor. Por ejemplo, cualquier dominio que intente predecir el comportamiento humano, como la psicología, generalmente tiene valores cuadrados de R inferiores al 50%. Los humanos son simplemente más difíciles de predecir que, digamos, procesos físicos.

Además, si su valor R-Square es bajo, pero que tiene predictores estadísticamente significativos, siempre puede obtener conclusiones importantes sobre cómo los cambios en los predictores están asociados con los cambios. En el valor de respuesta. En el valor de respuesta. Independientemente de la R-Square, los coeficientes significativos siempre representan el cambio promedio en la respuesta para una unidad de cambio en el predictor mientras se mantiene los otros predictores en el modelo constante. Obviamente, este tipo de información puede ser extremadamente valiosa.

Un Débido R-cuadrado es más problemático cuando desea producir pronósticos que son razonablemente precisos (que tienen un intervalo de pronóstico bastante pequeño). ¿Cuál debería ser el valor del R-Square para el pronóstico? Bueno, depende de sus necesidades para el ancho del intervalo de pronóstico y la cantidad de variabilidad presente en sus datos. Aunque se necesita un cuadrado alto para pronósticos precisos, no es suficiente en sí mismo, como veremos.

¿Son los altos valores de R-cuadrado intrínsecamente bueno?

NO ! Una alta R-Square no significa necesariamente que el modelo tenga un buen ajuste. Esto podría ser una sorpresa, pero observar la curva ajustada y la gráfica de los valores residuales a continuación. La courbe ajustée montre la relation entre la mobilité des électrons semi-conducteurs et le logarithme népérien de la densité pour de vraies données expérimentales.

La courbe ajustée montre que ces données suivent une belle fonction cubique et le R-carré est de 98,5%, ce qui semble plutôt bien. Sin embargo, observe más de cerca para ver cómo la curva de regresión continuará sistemáticamente y, predecirá los datos (sesgos) en diferentes puntos a lo largo de la curva. También puede ver las tendencias en valores residuales de acuerdo con los valores ajustados, en lugar de la aleatoriedad que desea observar. Esto indica un mal ajuste, y sirve como una llamada de vuelta por qué debe verificar las tablas de los valores residuales.

Este ejemplo proviene de mi artículo sobre la elección entre la regresión lineal y no lineal. En este caso, la respuesta es utilizar la regresión no lineal porque los modelos lineales no pueden adaptarse a la curva específica que siguen estos datos.

Sin embargo, los sesgos similares pueden producir cuando su modelo lineal no incluye Predictores significativos, términos polinomiales y términos de interacción. Los estadísticos lo llaman el sesgo de la especificación, y es causado por un modelo subspecificado. Para este tipo de sesgo, puede corregir los residuos agregando los términos apropiados al modelo.

Para obtener más información sobre cómo una alta R-Square no siempre es algo bueno, lea mi artículo cinco razones por las cuales Su R-Square puede ser demasiado alto.

Reflexiones finales en el R-Square

El R-Square es una medida práctica, aparentemente intuitiva de la forma cuyo modelo lineal se ajusta a un Conjunto de observaciones. Sin embargo, como hemos visto, el R-Square no nos dice toda la historia. Debe evaluar los valores cuadrados en R conjuntamente con los valores residuales, otras estadísticas del modelo y el conocimiento práctico / físico del sujeto para completar la historia.

aunque el R-Square. Proporciona un Estimación de la fuerza de la relación entre su modelo y la variable de respuesta, no proporciona una prueba formal de hipótesis para esta relación. La prueba F de importancia global determina si esta relación es estadísticamente significativa.

En mi próximo artículo, continuaremos con el tema que el R-Square por sí mismo está incompleto y veremos otros dos tipos de R-Square : Ajustado R-Square y R-Square. Estas dos medidas permiten superar problemas específicos para proporcionar información adicional que le permita evaluar el poder explicativo de su modelo de regresión.

Dejar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *