Odată ce ați adaptat un model liniar utilizând analiza de regresie, planurile ANOVA sau experimentale (Doe), trebuie să determinați măsura în care modelul este „ajustează datele. Pentru a vă ajuta, software-ul statistic Minitab are o varietate de statistici de potrivire a potrivirii. În acest articol, vom explora statistica R-pătrat (R²), unele dintre limitele sale și vom descoperi câteva surprize pe drum. De exemplu, valorile R-pătrate scăzute nu sunt întotdeauna rele, iar valorile ridicate R-pătrat nu sunt întotdeauna bune!

Care este adaptarea ajustării pentru un model liniar?

Definiție: Valoarea ajustată reziduală și observată – Regresia liniară calculează o ecuație care minimizează distanța între linia ajustată și toate punctele de date. Din punct de vedere tehnic, regresia obișnuită a pătratelor (OLS) minimizează suma reziduurilor din pătrat.

În general, un model corespunde datelor dacă diferențele dintre valorile observate și valorile prezise a modelului sunt scăzute. și nu este părtinitoare.

Înainte de a examina măsurile statistice pentru adaptarea ajustării, trebuie să verificați graficele valorilor reziduale. Valorile reziduale Diagramele pot dezvălui scheme / tendințe nedorite care indică rezultatele părtinitoare mai eficient decât numerele. Atunci când valorile dvs. reziduale diagrame validează diferitele ipoteze ale modelului, puteți avea încredere în rezultatele numerice și verificați statisticile de ajustare

Care este R-Square?

r- Piața este o măsură statistică a proximității datelor către linia de regresie ajustată. Este, de asemenea, cunoscut ca coeficientul de determinare sau coeficientul de determinare multiplă pentru regresia multiplă.

Definiția R-Square este destul de simplă; Acesta este procentul de variație a variabilei de răspuns care este explicată printr-un model liniar. Sau:

r-pătrat = variație explicată / variație totală

R-pătrat este întotdeauna între 0 și 100%:

  • 0% indică că modelul nu explică niciuna dintre variabilitatea datelor de răspuns în jurul valorii de media sa.
  • 100% indică faptul că modelul explică toate variabilitatea datelor de răspuns în jurul valorii de media.

În general, cu cât este mai mare r-pătrat, cel mai bun este modelul care se adaptează la datele dvs. Cu toate acestea, există condiții importante pentru această recomandare că am scăzut atât în acest articol, cât și în următorul meu articol.

Reprezentarea grafică a valorilor ajustate R-pătrat

în funcție de valorile observate Grafic ilustrează diferite valori R R-pătrate pentru modelele de regresie.

Modelul de regresie din stânga reprezintă 46,1% din variație, în timp ce cea din dreapta reprezintă 71,7%. Cu cât variația este mai mare explicată de modelul de regresie, cu atât punctele de date se apropie de linia de regresie ajustată. Teoretic, dacă un model ar putea explica 100% din variantă, valorile ajustate ar fi întotdeauna egale cu valorile observate și, prin urmare, toate punctele de date ar scădea pe linia de regresie ajustată.

Împrumut (e) pentru o demonstrație a software-ului de analiză a datelor Minitab? Scrieți-ne >

Principalele limite ale R-pătrat

R-pătratul nu poate determina dacă estimările coeficienților și ale Prognozele Acestea sunt părtinitoare, deci trebuie să evaluați diagramele valorilor reziduale.

R-pătratul nu indică dacă un model de regresie este adecvat. Puteți avea o valoare redusă R-pătrată pentru un model bun sau o valoare ridicată a R-Square pentru un model care nu se potrivește cu datele!

r pătrat în rezultatele dvs. este părtinit Estimarea R-Piața populației.

sunt valorile scăzute ale R-pătrat intrinsec rău?

Nu! Există două motive principale pentru care poate fi foarte bun să aveți valori scăzute R-pătrate.

În unele zone, vă așteptați ca valorile R-pătrat să fie scăzute. De exemplu, orice domeniu care încearcă să prezică comportamentul uman, cum ar fi psihologia, are, în general, valori R-pătrat mai mici de 50%. Oamenii sunt pur și simplu mai greu de prezis că, să zicem procesele fizice.

În plus, dacă valoarea dvs. R-pătrat este scăzută, dar că aveți predictori semnificativi statistic, puteți atrage întotdeauna concluzii importante cu privire la modul în care modificările predictorilor sunt asociate cu modificările. În valoarea răspunsului. Indiferent de R-Piața, coeficienții semnificativi reprezintă întotdeauna schimbarea medie a răspunsului pentru o unitate de schimbare a predictorului, menținând în același timp ceilalți predictori în modelul constant. Evident, acest tip de informație poate fi extrem de valoros.

Un R o pătrat slab este mai problematic atunci când doriți să produceți prognoze care sunt precise în mod rezonabil (care au un interval de prognoză destul de mic). Care ar trebui să fie valoarea R-Square pentru prognoza? Ei bine, depinde de nevoile dvs. pentru lățimea intervalului de prognoză și de cantitatea de variabilitate prezentă în datele dvs. Deși este nevoie de un pătrat înalt pentru previziuni precise, nu este suficient în sine, așa cum vom vedea.

sunt valorile ridicate ale R-pătrat intrinsec bun?

nr Fotografiile! Un R R-Square nu indică neapărat că modelul are o potrivire bună. Aceasta ar putea fi o surpriză, dar observă curba ajustată și graficul valorilor reziduale de mai jos. Curba ajustată arată relația dintre mobilitatea electronică semiconductor și logaritmul neperian al densității pentru date experimentale reale.

Curba ajustată arată că aceste date urmează o funcție cubică frumoasă și R-Piața este de 98,5%, care pare destul de bun. Cu toate acestea, observați mai îndeaproape pentru a vedea cum curba de regresie va continua sistematic și va fi supusă datelor (părtinitoare) la diferite puncte de-a lungul curbei. De asemenea, puteți vedea tendințe în valorile reziduale în funcție de valorile ajustate, mai degrabă decât aleatoria pe care doriți să o observați. Acest lucru indică o ajustare proastă și servește ca un apel înapoi De ce ar trebui să verificați întotdeauna diagramele valorilor reziduale.

Acest exemplu vine de la articolul meu la alegerea dintre regresia liniară și neliniară. În acest caz, răspunsul este de a utiliza regresia neliniară, deoarece modelele liniare nu sunt capabile să se adapteze la curba specifică pe care o urmează aceste date.

Cu toate acestea, prejudecățile similare pot fi producerea atunci când modelul dvs. liniar nu include Predictori semnificativi, termeni polinomi și condiții de interacțiune. Statisticienii o numesc prejudecățile de specificații și este cauzată de un model subtext. Pentru acest tip de părtinire, puteți corecta reziduurile prin adăugarea termenilor adecvați la model.

Pentru mai multe informații despre modul în care un R-Piace nu este întotdeauna un lucru bun, citiți articolul meu cinci motive R-pătratul dvs. poate fi prea mare.

Reflecții finale asupra R-Square

R-pătratul este o măsurătoare practică, aparent intuitivă a modului al cărui model liniar se ajustează la a set de observații. Cu toate acestea, după cum am văzut, R-Piața nu ne spune toată povestea. Trebuie să evaluați valorile R-pătrate împreună cu valorile reziduale, alte statistici de model și cunoașterea practică / fizică a subiectului pentru a finaliza povestea.

Deși R-Square. Oferă un Estimarea rezistenței relației dintre modelul dvs. și variabila de răspuns, nu oferă un test oficial de ipoteză pentru această relație. Testul F de importanță globală determină dacă această relație este semnificativă din punct de vedere statistic.

În următorul meu articol, vom continua pe tema că R-Piața de la sine este incompletă și va vedea alte două tipuri de r-pătrat : R-pătrat regus și R-pătrat. Aceste două măsuri permit depășirea problemelor specifice pentru a furniza informații suplimentare care vă permit să evaluați puterea explicativă a modelului de regresie.

Leave a comment

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *