Dopo aver adattato un modello lineare utilizzando l’analisi di regressione, i piani Anova o Experiment (DOE), è necessario determinare la misura in cui il modello S consente di regolare i dati. Per aiutarti, il software statistico Minitab ha una varietà di statistiche di corrispondenza di regolazione. In questo articolo, esploreremo la statistica della R-Square (R²), alcuni dei suoi limiti e scopriremo alcune sorprese nel modo. Ad esempio, i valori bassi della R-SQUARE non sono sempre cattivi e gli alti valori del quadrato R non sono sempre buoni!

Qual è l’adattamento della regolazione per un modello lineare?

Definizione: valore residuo e osservato – valore regolato

La regressione lineare calcola un’equazione che riduce al minimo la distanza tra la linea regolata e tutti i punti dati. Tecnicamente, la regressione ordinaria dei minimi quadrati (OLS) riduce al minimo la somma dei residui nel quadrato.

In generale, un modello corrisponde ai dati se le differenze tra i valori osservati e i valori previsti del modello sono bassi. E non prevenuto.

Prima di esaminare le misure statistiche per l’adattamento della regolazione, è necessario controllare i grafici dei valori residui. I grafici dei valori residui possono rivelare schemi / tendenze indesiderati che indicano risultati di prevenzione in modo più efficiente dei numeri. Quando i tuoi valori residui grafici convalidano le diverse ipotesi del modello, puoi fidarti dei risultati numerici e controllare le statistiche

di regolazione, qual è il quadrato R?

Quadrato è una misura statistica della vicinanza dei dati alla linea di regressione rettificata. È anche noto come il coefficiente di determinazione, o il coefficiente di determinazione multiplo per la regressione multipla.

La definizione del quadrato R è abbastanza semplice; Questa è la percentuale di variazione della variabile di risposta che viene spiegata da un modello lineare. Oppure:

R-Square = Variazione spiegata / Variazione totale

Il quadrato R è sempre compreso tra 0 e 100%:

  • 0% indica che il modello spiega nessuno della variabilità dei dati di risposta attorno alla sua media.
  • 100% indica che il modello spiega tutta la variabilità dei dati di risposta attorno alla media.

In generale, maggiore è il quadrato R, il migliore è il modello che si adatta ai tuoi dati. Tuttavia, ci sono condizioni importanti per questa raccomandazione che sto lasciando in questo articolo sia il mio prossimo articolo.

Rappresentazione grafica di R-Square

Disegna valori regolati a seconda dei valori osservati Illustra graficamente diversi valori R-Square per i modelli di regressione.

Il modello di regressione a sinistra rappresenta il 46,1% della varianza, mentre quello a destra rappresenta il 71,7%. Maggiore è la varianza spiegata dal modello di regressione, più vicino ai punti dati si avvicinano alla linea di regressione rettificata. Teoricamente, se un modello potrebbe spiegare il 100% della varianza, i valori rettificati sarebbero sempre uguali ai valori osservati e, pertanto, tutti i punti dati cadranno sulla linea di regressione rettificata.

prestito (e) per una dimostrazione del software di analisi dei dati Minitab? Scrivici >

Limiti principali della R-Square

Il quadrato R non può determinare se le stime dei coefficienti e del Le previsioni sono prevenute, quindi è necessario valutare i grafici dei valori residui.

Il quadrato R non indica se un modello di regressione è adeguato. Puoi avere un basso valore quadrato di R per un buon modello o un alto valore del quadrato R per un modello che non si adatta ai dati!

il quadrato R nei tuoi risultati è un prevenimento stima del quadrato r della popolazione.

I valori del basso R-quadrato sono intrinsecamente cattivi?

no! Ci sono due motivi principali per cui può essere molto buono avere valori bassi di R-Square.

In alcune aree, ti aspetti che i valori R-Square siano bassi. Ad esempio, qualsiasi dominio che cerca di prevedere il comportamento umano, come la psicologia, generalmente ha valori R-Square inferiori al 50%. Gli umani sono semplicemente più difficili da prevedere che, diciamo, processi fisici.

Inoltre, se il tuo valore R-SQUARE è basso, ma che hai predittori statisticamente significativi, è sempre possibile disegnare importanti conclusioni su come le modifiche dei predittori sono associate alle modifiche. Nel valore della risposta. Indipendentemente dal quadrato R, i coefficienti significativi rappresentano sempre il cambiamento medio della risposta per un’unità di cambiamento nel predittore pur mantenendo gli altri predittori nel modello costante. Ovviamente, questo tipo di informazioni può essere estremamente prezioso.

Una debole piazza R è più problematica quando si desidera produrre previsioni ragionevolmente accurate (che hanno un intervallo di previsione abbastanza piccolo). Quale dovrebbe essere il valore del quadrato R per la previsione? Bene, dipende dalle tue esigenze per la larghezza dell’intervallo di previsione e la quantità di variabilità presente nei tuoi dati. Sebbene sia necessaria una piazza alta per previsioni precise, non è abbastanza di per sé, come vedremo.

I valori elevati di R-Square intrinsecamente buono?

No ! Un alto quadrato R non indica necessariamente che il modello ha una buona vestibilità. Questa potrebbe essere una sorpresa, ma osservare la curva regolata e il grafico dei valori residui di seguito. La curva regolata mostra la relazione tra la mobilità elettronica del semiconduttore e il logaritmo neperiano della densità per i dati sperimentali veri.

d.

La curva regolata mostra che questi dati seguono una bella funzione cubica e il quadrato R è del 98,5%, che sembra piuttosto buono. Tuttavia, osservare più da vicino per vedere come la curva di regressione continuerà sistematicamente e sotto-predice i dati (pregiudizi) in punti diversi lungo la curva. È inoltre possibile visualizzare le tendenze nei valori residui in base ai valori rettificati, piuttosto che alla casualità che si desidera osservare. Questo indica una regolazione negativa e serve come richiamata perché dovresti controllare sempre i grafici dei valori residui.

Questo esempio viene dal mio articolo sulla scelta tra regressione lineare e non lineare. In questo caso, la risposta è quella di utilizzare la regressione non lineare perché i modelli lineari non sono in grado di adattarsi alla curva specifica che questi dati seguono.

Tuttavia, pregiudizi simili possono produrre quando il modello lineare non include Predittori significativi, termini polinomiali e termini di interazione. Gli statistici lo chiamano il pregiudizio della specifica, ed è causato da un modello subspecificato. Per questo tipo di bias, è possibile correggere i residui aggiungendo i termini appropriati al modello.

Per ulteriori informazioni su come un alto quadrato R non è sempre una buona cosa, leggi il mio articolo cinque motivi per cui La tua piazza R può essere troppo alta.

Riflessi finali sulla R-Square

La R-Square è una misura pratica, apparentemente intuitiva del modo il cui modello lineare si adatta a a Set di osservazioni. Tuttavia, come abbiamo visto, il R-Square non ci dice tutta la storia. È necessario valutare i valori R-Square in combinazione con i valori residui, altre statistiche del modello e la conoscenza pratica / fisica del soggetto per completare la storia.

Sebbene il quadrato R. Fornisce un Stima della forza della relazione tra il tuo modello e la variabile di risposta, non fornisce un test di ipotesi formale per questa relazione. Il test F dell’importanza globale determina se questa relazione è statisticamente significativa.

Nel mio prossimo articolo, continueremo sul tema che il quadrato r-sé è incompleto e vedremo altri due tipi di quadrato R : Square RODED R-Square e R-Square. Queste due misure consentono di superare problemi specifici al fine di fornire ulteriori informazioni consentendoti di valutare il potere esplicativo del modello di regressione.

Leave a comment

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *