Depois de ter adaptado um modelo linear usando análise de regressão, anova ou planejado de experimento (DOE), você deve determinar a extensão em que o modelo s ‘ajusta os dados. Para ajudá-lo, o software estatístico Minitab tem uma variedade de estatísticas de correspondência de ajuste. Neste artigo, vamos explorar a estatística R-quadrada (r²), alguns dos seus limites e descobrir algumas surpresas no caminho. Por exemplo, os valores baixos R-quadrados nem sempre são ruins e os valores altos R-quadrados nem sempre são bons!

Qual é a adaptação do ajuste para um modelo linear?

Valor residual e observado – valor ajustado

A regressão linear calcula uma equação que minimiza a distância entre a linha ajustada e todos os pontos de dados. Tecnicamente, a regressão ordinária dos mínimos quadrados (OLS) minimiza a soma dos resíduos na praça.

Em geral, um modelo corresponde aos dados se as diferenças entre os valores observados e os valores previstos do modelo são baixos. E não tendenciosos.

Antes de examinar medidas estatísticas para a adaptação do ajuste, você deve verificar os gráficos dos valores residuais. Os gráficos de valores residuais podem revelar esquemas / tendências indesejadas que indicam resultados tendenciosos com mais eficiência do que os números. Quando os gráficos de valores residuais validam as diferentes hipóteses do modelo, você pode confiar em seus resultados numéricos e verificar as estatísticas de ajuste

o que é o R-quadrado?

o r- A praça é uma medida estatística da proximidade dos dados para a linha de regressão ajustada. Também é conhecido como coeficiente de determinação, ou o coeficiente de determinação múltipla para regressão múltipla.

A definição do R-quadrado é bastante simples; Esta é a porcentagem de variação da variável de resposta que é explicada por um modelo linear. Ou:

R-quadrado = Variação explicada / variação total

O R-quadrado é sempre entre 0 e 100%:

  • 0% indica que o modelo explica nenhuma da variabilidade de dados de resposta em torno de sua média.
  • 100% indica que o modelo explica toda a variabilidade de dados de resposta em torno de sua média.

Em geral, quanto maior o R-Square, o melhor é o modelo que se ajusta aos seus dados. No entanto, existem condições importantes para essa recomendação que estou deixando tanto neste artigo e no meu próximo artigo.

Representação gráfica do R-quadrado

Desenhe valores ajustados, dependendo dos valores observados Graficamente ilustra diferentes valores de R-quadrado para modelos de regressão.

O modelo de regressão à esquerda representa 46,1% da variância, enquanto a da direita representa 71,7%. Quanto maior a variação explicada pelo modelo de regressão, quanto mais próximos os pontos de dados se aproximarão da linha de regressão ajustada. Teoricamente, se um modelo pudesse explicar 100% da variação, os valores ajustados sempre seriam iguais aos valores observados e, portanto, todos os pontos de dados cairiam na linha de regressão ajustada.

Empréstimo (e) para uma demonstração do software Minitab Data Analysis? Escreva-nos >

Principais limites do R-quadrado

O R-quadrado não pode determinar se as estimativas dos coeficientes e do As previsões são tendenciosas, portanto, você precisa avaliar os gráficos dos valores residuais.

O R-quadrado não indica se um modelo de regressão é adequado. Você pode ter um valor baixo R-quadrado para um bom modelo, ou um alto valor do R-quadrado para um modelo que não se encaixa nos dados!

O R-quadrado em seus resultados é um tendencioso Estimativa do R-quadrado da população.

são os valores de baixo R-quadrado intrinsecamente ruim?

não! Existem duas razões principais pelas quais pode ser muito bom ter valores de baixo r-quadrado.

Em algumas áreas, você espera que seus valores de R-quadrados sejam baixos. Por exemplo, qualquer domínio que tente prever o comportamento humano, como a psicologia, geralmente tem valores de R-quadrados inferiores a 50%. Os seres humanos são simplesmente mais difíceis de prever isso, digamos, processos físicos.

Além disso, se o seu valor R-quadrado for baixo, mas você tem preditores estatisticamente significativos, você sempre pode desenhar conclusões importantes sobre como as alterações nos preditores estão associadas às alterações. No valor da resposta. Independentemente do R-quadrado, os coeficientes significativos sempre representam a mudança média na resposta para uma unidade de mudança no preditor, mantendo os outros preditores no modelo constante. Obviamente, esse tipo de informação pode ser extremamente valioso.

Um R-quadrado fraco é mais problemático quando você deseja produzir previsões que são razoavelmente precisas (que têm um intervalo de previsão bastante pequeno). Qual deve ser o valor do R-quadrado para a previsão? Bem, depende de suas necessidades para a largura do intervalo de previsão e a quantidade de variabilidade presente em seus dados. Embora um quadrado alto seja necessário para previsões precisas, não é suficiente em si, como veremos.

são os altos valores de R-quadrado intrinsecamente bom?

não ! Um alto R-quadrado não indica necessariamente que o modelo tem um bom ajuste. Isso pode ser uma surpresa, mas observar a curva ajustada e o gráfico dos valores residuais abaixo. A curva ajustada mostra a relação entre a mobilidade eletrônica de semicondutores e o logaritmo neperiano da densidade para dados experimentais reais.

d.

A curva ajustada mostra que esses dados seguem uma bela função cúbica e o R-quadrado é de 98,5%, o que parece bastante bom. No entanto, observe mais de perto para ver como a curva de regressão irá sistematicamente e sub-prever os dados (viés) em diferentes pontos ao longo da curva. Você também pode ver as tendências em valores residuais de acordo com os valores ajustados, em vez da aleatoriedade que você deseja observar. Isso indica um mau ajuste e serve como uma chamada de volta por que você deve sempre verificar os gráficos dos valores residuais.

Este exemplo vem do meu artigo sobre a escolha entre regressão linear e não linear. Nesse caso, a resposta é usar a regressão não linear porque os modelos lineares não são capazes de se adaptar à curva específica que esses dados seguem.

No entanto, vieses semelhantes podem estar produzindo quando seu modelo linear não inclui preditores significativos, termos polinomiais e termos de interação. Os estatísticos chamam isso de viés de especificação, e é causado por um modelo subecificado. Para este tipo de viés, você pode corrigir os resíduos adicionando os termos apropriados ao modelo.

Para mais informações sobre como um alto R-quadrado nem sempre é uma coisa boa, leia meus artigos cinco razões pelas quais Seu R-Square pode ser muito alto.

Reflexões finais sobre o R-quadrado

O R-quadrado é uma medida prática e aparentemente intuitiva do caminho cujo modelo linear se ajusta a um conjunto de observações. No entanto, como vimos, o R-Square não nos diz toda a história. Você deve avaliar os valores R-quadrados em conjunto com os valores residuais, outras estatísticas do modelo e o conhecimento prático / físico do sujeito para completar a história.

Embora o R-quadrado. Fornece um Estimativa da força da relação entre o seu modelo e a variável de resposta, não fornece um teste de hipótese formal para esse relacionamento. O teste f de importância global determina se esta relação é estatisticamente significativa.

No meu próximo artigo, continuaremos no tema que o R-quadrado por si próprio é incompleto e veja dois outros tipos de R-quadrado : R-quadrado ajustado e R-quadrado. Essas duas medidas possibilitam superar problemas específicos para fornecer informações adicionais permitindo que você avalie o poder explicativo do seu modelo de regressão.

Leave a comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *