Uma outra abordagem para identificar a multicolinearidade é através do Fator de Inflação de Variância. O VIF indica a porcentagem da variância inflada para o coeficiente de cada variável. A partir de um valor de 1 (sem colinearidade), um VIF entre 1-5 indica colinearidade moderada enquanto valores acima de 5 indicam colinearidade alta. Alguns casos onde um VIF elevado seria aceitável incluem o uso de termos de interação, termos polinomiais ou variáveis dummy (variáveis nominais com três ou mais categorias). As matrizes de correlação permitem a identificação de correlação entre pares de variáveis enquanto o VIF permite a avaliação geral da multicolinearidade. A matriz de correlação para a maioria das variáveis contínuas é apresentada abaixo para destacar os vários pares de variáveis colineares. O VIF pode ser calculado usando o pacote statsmodels; o bloco de código abaixo apresenta os valores VIF com as variáveis colineares incluídas (esquerda) e removidas (direita).
# Without RAD model = sm.OLS(y, sm.add_constant(X_noRAD)).fit() print_model = model.summary() print(print_model)
>Sumário de métricas do modelo (sem RAD) (imagem do autor)
>
Do maior R-figura ao quadrado, podemos inferir que o modelo tem um melhor desempenho com a variável RAD descartada! Com a questão da multicolinearidade abordada, o próximo passo poderia ser explorar a adição de termos de interação para potencialmente aumentar o desempenho do modelo.