Un cop hagueu adaptat un model lineal mitjançant l’anàlisi de regressió, els plans d’ANOVA o experimentar (DOE), heu de determinar la mesura que el model S ‘ajusta les dades. Per ajudar-vos, el programari estadístic MINITAB té diverses estadístiques de concordança d’ajust. En aquest article, explorarem l’estadística R-Plaça (R²), alguns dels seus límits i descobrirem algunes sorpreses en el camí. Per exemple, els valors baixos de R-Square no sempre són dolents i els valors d’alta r-quadrat no sempre són bons!

Quina és l’adaptació de l’ajust per a un model lineal?

Definició: valor residual i observat – Valor ajustat – Valor ajustat

La regressió lineal calcula una equació que minimitza la distància entre la línia ajustada i tots els punts de dades. Tècnicament, la regressió ordinària de mínims quadrats (OLS) minimitza la suma dels residus a la plaça.

En general, un model correspon a les dades si les diferències entre els valors observats i els valors previstos del model són baixos. I no parcial.

Abans d’examinar les mesures estadístiques per a l’adaptació de l’ajust, haureu de comprovar els gràfics dels valors residuals. Els gràfics de valors residuals poden revelar esquemes / tendències no desitjades que indiquen resultats esbiaixats de manera més eficient que els números. Quan els vostres gràfics de valors residuals validen les diferents hipòtesis del model, podeu confiar en els vostres resultats numèrics i comprovar els

Estadístiques d’ajustament Què és la R-Square?

El r- Quadrat és una mesura estadística de la proximitat de les dades a la línia de regressió ajustada. També es coneix com el coeficient de determinació, o el coeficient de determinació múltiple per a la regressió múltiple.

La definició de la R-Square és bastant simple; Aquest és el percentatge de variació de la variable de resposta que s’explica per un model lineal. O:

r-square = Variació explicada / variació total

La plaça r és sempre entre 0 i 100%:

  • 0% indica que el model explica cap de la variabilitat de les dades de resposta al voltant de la seva mitjana.
  • 100% indica que el model explica tota la variabilitat de les dades de resposta al voltant de la seva mitjana.

En general, més gran és el R-Square, el millor és el model que s’ajusta a les vostres dades. No obstant això, hi ha condicions importants per a aquesta recomanació que estic deixant tant en aquest article com en el meu següent article.

Representació gràfica de R-Square

Dibuixa valors ajustats en funció dels valors observats Gràficament il·lustra diferents valors de r-quadrat per a models de regressió.

El model de regressió de l’esquerra representa el 46,1% de la variància, mentre que el de la dreta representa el 71,7%. Com més gran sigui la variància explicada pel model de regressió, més a prop dels punts de dades s’acostaran a la línia de regressió ajustada. Teòricament, si un model podria explicar el 100% de la variància, els valors ajustats sempre serien iguals als valors observats i, per tant, tots els punts de dades caurien en la línia de regressió ajustada.

Préstec (e) Per a una demostració del programari d’anàlisi de dades MINITAB? Escriviu-nos >

Els principals límits de la plaça R.

La plaça R no pot determinar si les estimacions dels coeficients i del Les previsions són esbiaixades, de manera que has d’avaluar els gràfics dels valors residuals.

El R-Square no indica si un model de regressió és adequat. Podeu tenir un valor R-Plaça R-R-r per a un bon model, o un valor elevat de la Plaça R per a un model que no s’ajusti a les dades!

El r-quadrat dels vostres resultats és un esbiaixat Estimació de la R-Square de la població.

són els valors baixos quadrats r-quadrat intrínsecament dolents?

No! Hi ha dos motius principals per què pot ser molt bo tenir valors baixos quadrats.

En algunes àrees, espereu que els vostres valors r-quadrat siguin baixos. Per exemple, qualsevol domini que intenta predir el comportament humà, com la psicologia, generalment té valors R-Square inferior al 50%. Els humans són simplement més difícils de predir que, per exemple, processos físics.

A més, si el vostre valor r-quadrat és baix, però que teniu predictors estadísticament significatius, sempre podeu dibuixar conclusions importants sobre com els canvis en els predictors s’associen amb els canvis. En el valor de la resposta. Independentment de la R-Square, els coeficients significatius sempre representen el canvi mitjà de la resposta per a una unitat de canvi en el predicador mantenint els altres predictors en el model constant. Evidentment, aquest tipus d’informació pot ser extremadament valuós.

Un quadrat R-R-Square és més problemàtic quan es vol produir previsions raonablement exactes (que tenen un interval de previsió bastant petit). Quin ha de ser el valor de la R-Plaça per a la previsió? Bé, depèn de les vostres necessitats per a l’amplada de l’interval de previsió i la quantitat de variabilitat present a les vostres dades. Tot i que es necessita un quadrat alt per a les previsions precises, no n’hi ha prou, com veurem.

són els valors alts de r-quadrat intrínsecament bo?

no ! Una alta plaça R no indica necessàriament que el model tingui un bon ajust. Aquesta podria ser una sorpresa, però observar la corba ajustada i el gràfic dels valors residuals següents. La corba ajustada mostra la relació entre la mobilitat d’electrons semiconductors i el logaritme nperià de la densitat de dades experimentals reals.

d.

La corba ajustada mostra que aquestes dades segueixen una bella funció cúbica i el R-Square és del 98,5%, que sembla bastant bo. Tanmateix, observeu més de prop per veure com la corba de regressió continuarà sistemàticament i subestimar les dades (biaixes) en diferents punts al llarg de la corba. També podeu veure les tendències dels valors residuals segons els valors ajustats, en lloc de l’aleatorietat que vulgueu observar. Això indica un mal ajustament i serveix de trucada de tornada per què sempre haureu de comprovar els gràfics dels valors residuals.

Aquest exemple prové del meu article sobre l’elecció entre la regressió lineal i no lineal. En aquest cas, la resposta és utilitzar la regressió no lineal perquè els models lineals no poden adaptar-se a la corba específica que aquestes dades segueixen.

No obstant això, els biaixos similars poden produir-se quan el vostre model lineal no inclogui predictors significatius, termes polinòmics i termes d’interacció. Els estadístics la diuen el biaix d’especificació, i és causat per un model subespecificat. Per a aquest tipus de biaixos, podeu corregir els residus afegint els termes adequats al model.

Per obtenir més informació sobre com un quadrat elevat no sempre és bo, llegiu el meu article cinc raons per les quals El vostre R-Square pot ser massa alt.

Reflexions finals a la plaça r

El r-quadrat és una mesura pràctica i aparentment intuïtiva de la manera que el model lineal s’ajusta a un conjunt d’observacions. No obstant això, com hem vist, la R-Square no ens diu tota la història. Heu d’avaluar els valors R-Square juntament amb els valors residuals, altres estadístiques de models i el coneixement pràctic / físic de l’assignatura per completar la història.

Tot i que la plaça R. Proporciona un Estimació de la força de la relació entre el vostre model i la variable de resposta, no proporciona una prova d’hipòtesi formal per a aquesta relació. La prova F d’importància global determina si aquesta relació és estadísticament significativa.

En el meu següent article, continuarem pel tema que la R-Square per si mateixa és incompleta i vegeu altres dos tipus de r-plaça : R-Plaça R ajustada i R-Square. Aquestes dues mesures permeten superar problemes específics per proporcionar informació addicional que us permeti avaluar l’energia explicativa del vostre model de regressió.

Leave a comment

L'adreça electrònica no es publicarà. Els camps necessaris estan marcats amb *