Colinearidade Medidas

Uma outra abordagem para identificar a multicolinearidade é através do Fator de Inflação de Variância. O VIF indica a porcentagem da variância inflada para o coeficiente de cada variável. A partir de um valor de 1 (sem colinearidade), um VIF entre 1-5 indica colinearidade moderada enquanto valores acima de 5 indicam colinearidade alta. Alguns casos onde um VIF elevado seria aceitável incluem o uso de termos de interação, termos polinomiais ou variáveis dummy (variáveis nominais com três ou mais categorias). As matrizes de correlação permitem a identificação de correlação entre pares de variáveis enquanto o VIF permite a avaliação geral da multicolinearidade. A matriz de correlação para a maioria das variáveis contínuas é apresentada abaixo para destacar os vários pares de variáveis colineares. O VIF pode ser calculado usando o pacote statsmodels; o bloco de código abaixo apresenta os valores VIF com as variáveis colineares incluídas (esquerda) e removidas (direita).

matriz de correlação para as variáveis contínuas; coeficiente Kendall (imagem do autor)

# Setting the predictor variables
X_o = df_wdummy]
X_r1 = df_wdummy]# 
from statsmodels.stats.outliers_influence import variance_inflation_factorvif = pd.Series()], index=X_o.columns,
name='vif_full')
vif_r = pd.Series()], index=X_r1.columns,
name='vif_collinear_rvmd')
pd.concat(, axis=1)

VIF valores para as variáveis preditoras (imagem do autor)

# Without RAD
model = sm.OLS(y, sm.add_constant(X_noRAD)).fit()
print_model = model.summary()
print(print_model)

Sumário de métricas do modelo (sem RAD) (imagem do autor)

Do maior R-figura ao quadrado, podemos inferir que o modelo tem um melhor desempenho com a variável RAD descartada! Com a questão da multicolinearidade abordada, o próximo passo poderia ser explorar a adição de termos de interação para potencialmente aumentar o desempenho do modelo.

Deixe um comentário Cancelar resposta