Unha vez que adaptou un modelo lineal usando a análise de regresión, os plans de ANOVA ou experimentos (DOE), debe determinar a medida en que o modelo S ‘axusta os datos. Para axudarche, o software estatístico MiniTab ten unha variedade de estatísticas de xogo de axuste. Neste artigo, imos explorar a estatística de R-Square (r²), algúns dos seus límites e descubrir algunhas sorpresas no camiño. Por exemplo, os valores de R-Square baixos non sempre son malos e os valores de R-Square Altos non sempre son bos!

Cal é a adaptación do axuste dun modelo lineal?

Definición: valor residual e observado – valor axustado

A regresión lineal calcula unha ecuación que minimiza a distancia entre a liña axustada e todos os puntos de datos. Técnicamente, a regresión de mínimos cadrados ordinarios (OLS) minimiza a suma dos residuos da praza.

En xeral, un modelo corresponde aos datos se as diferenzas entre os valores observados e os valores previstos do modelo son baixos. e non parcial.

Antes de examinar medidas estatísticas para a adaptación do axuste, debes consultar os gráficos dos valores residuais. Os gráficos de valores residuais poden revelar esquemas / tendencias non desexadas que indican resultados parcializados de forma máis eficiente que os números. Cando as túas listas de valores residuais validen as diferentes hipóteses do modelo, podes confiar nos teus resultados numéricos e comprobar as

Estatísticas de axuste que é o R-Square?

o r- Praza é unha medida estatística da proximidade dos datos á liña de regresión axustada. Tamén é coñecido como o coeficiente de determinación ou o coeficiente de determinación múltiple para a regresión múltiple.

A definición da Praza R é moi sinxela; Esta é a porcentaxe de variación da variable de resposta que se explica por un modelo lineal. Ou:

r-square = variación explicada / variación total

A R-SQUARE está sempre entre 0 e 100%:

  • 0% indica que o modelo explica ningunha da variabilidade dos datos de resposta ao redor da súa media.
  • 100% indica que o modelo explica toda a variabilidade dos datos de resposta ao redor da súa media.

En xeral, canto maior sexa o R-Square, o mellor é o modelo que se adapta aos seus datos. Non obstante, hai condicións importantes para esta recomendación que estou deixando tanto neste artigo como o meu próximo artigo.

Representación gráfica de R-Square

Debuxar valores axustados en función dos valores observados ilustra graficamente diferentes valores de R ao cadrado para modelos de regresión.

O modelo de regresión da esquerda representa o 46,1% da varianza, mentres que a do dereito representa o 71,7%. Canto maior sexa a varianza explicada polo modelo de regresión, canto máis preto dos puntos de datos achegarase á liña de regresión axustada. Teoricamente, se un modelo podería explicar o 100% da varianza, os valores axustados sempre serían iguais aos valores observados e, polo tanto, todos os puntos de datos caerían na liña de regresión axustada.

Préstamo (e) para unha demostración do software de análise de datos minitab? Escríbenos >

Os límites principais do R-Square

O R-Square non pode determinar se as estimacións dos coeficientes e os Previsións Estas están parcializadas, polo que ten que avaliar as cartas dos valores residuais.

A R-SQUARE non indica se un modelo de regresión é adecuado. Pode ter un valor de R-Square baixo para un bo modelo ou un alto valor do R-Square para un modelo que non encaixa nos datos.

O R-Square nos seus resultados é un sesgado Estimación da Praza R da poboación.

Os valores de R-Square baixos intrínsecamente malos?

non! Hai dúas razóns principais por que pode ser moi bo ter valores de R-Square baixos.

Nalgunhas áreas, esperas que os teus valores de R-Square sexan baixos. Por exemplo, calquera dominio que trata de predecir o comportamento humano, como a psicoloxía, xeralmente ten valores de R-Square inferior ao 50%. Os seres humanos son simplemente máis difíciles de predecir que, por exemplo, os procesos físicos.

Ademais, se o seu valor de R-Square é baixo, pero que ten predictores estadísticamente significativos, sempre pode sacar conclusións importantes sobre como os cambios nos predictores están asociados a cambios. No valor de resposta. Independentemente da Praza R, os coeficientes significativos sempre representan o cambio medio na resposta dunha unidade de cambio no predictor mentres mantén os outros predictores do modelo constante. Obviamente, este tipo de información pode ser moi valioso.

Un débil R-Square é máis problemático cando desexa producir previsións que son razoablemente precisas (que teñen un intervalo de previsión bastante pequeno). Cal debe ser o valor da Praza R para a previsión? Ben, depende das súas necesidades para o ancho do intervalo de previsión e a cantidade de variabilidade presente nos seus datos. Aínda que se necesita un cadrado alto para previsións precisas, non é suficiente en si mesmo, como veremos.

Os valores de R-Square intrinsecamente?

Non ! Unha alta Praza R que non indica necesariamente que o modelo ten un bo axuste. Esta podería ser unha sorpresa, pero observa a curva axustada e o gráfico dos valores residuais a continuación. A curva axustada mostra a relación entre a mobilidade electrónica de semicondutores eo logaritmo de neperiana da densidade por datos experimentais reais.

d.

A curva axustada mostra que estes datos seguen unha fermosa función cúbica e o R-Square é do 98,5%, que parece bastante bo. Non obstante, observe máis de cerca para ver como a curva de regresión continuará sistematicamente e preverá os datos (sesgo) en diferentes puntos ao longo da curva. Tamén pode ver as tendencias nos valores residuais segundo os valores axustados, en vez de a aleatoriedade que desexa observar. Isto indica un mal axuste e serve como unha chamada de volta por que sempre debe comprobar os gráficos dos valores residuais.

Este exemplo provén do meu artigo sobre a elección entre a regresión lineal e non lineal. Neste caso, a resposta é usar a regresión non lineal porque os modelos lineais non son capaces de adaptarse á curva específica que estes datos seguen.

Con todo, os prexuízos similares poden ser producindo cando o seu modelo lineal non inclúe Predictores significativos, termos polinómicos e termos de interacción. Os estatísticos chámanlle o sesgo de especificación, e é causado por un modelo subpecificado. Para este tipo de prexuízo, pode corrixir os residuos engadindo os termos axeitados ao modelo.

Para obter máis información sobre como un alto cadrado r non é sempre bo, lea o meu artigo cinco razóns polas que A súa Praza R pode ser moi alta.

Reflexións finais sobre o R-Square

A R-Square é unha medida práctica e aparentemente intuitiva do xeito que se axusta a un modelo lineal a un Conxunto de observacións. Non obstante, como vimos, o R-Square non nos di toda a historia. Debes avaliar os valores de R-Square en conxunto cos valores residuais, outras estatísticas de modelo e o coñecemento práctico / físico da materia para completar a historia.

Aínda que a Praza R. Ofrece un Estimación da forza da relación entre o seu modelo ea variable de resposta, non proporciona unha proba de hipótese formal para esta relación. A proba F de importancia global determina se esta relación é estatisticamente significativa.

No meu próximo artigo, continuaremos no tema que o R-Square por si só está incompleto e vexa dous outros tipos de R-Square : Axustado R-Square e R-Square. Estas dúas medidas permiten superar problemas específicos para proporcionar información adicional que permita avaliar a potencia explicativa do seu modelo de regresión.

Leave a comment

O teu enderezo electrónico non se publicará Os campos obrigatorios están marcados con *