Как рассчитать VIF в Python
Last updated
Last updated
в регрессионном анализе возникает, когда две или более независимых переменных сильно коррелируют друг с другом, так что они не предоставляют уникальную или независимую информацию в регрессионной модели. Если степень корреляции между переменными достаточно высока, это может вызвать проблемы при подгонке и интерпретации регрессионной модели.
Одним из способов обнаружения мультиколлинеарности является использование показателя, известного как коэффициент инфляции дисперсии (VIF) , который измеряет корреляцию и силу корреляции между независимыми переменными в .
В этом руководстве объясняется, как рассчитать VIF в Python.
В этом примере мы будем использовать набор данных, описывающий атрибуты 10 баскетболистов:
Предположим, мы хотели бы подобрать модель множественной линейной регрессии, используя рейтинг в качестве переменной отклика и очки, передачи и подборы в качестве независимых переменных.
Мы можем наблюдать значения VIF для каждой из объясняющих переменных:
баллы: 1,76
передач: 1,96
подборов: 1,18
Примечание. Игнорируйте VIF для «Перехвата» в модели, поскольку это значение не имеет значения.
Значение VIF начинается с 1 и не имеет верхнего предела. Общее эмпирическое правило для интерпретации VIF выглядит следующим образом:
Значение 1 указывает на отсутствие корреляции между данной независимой переменной и любыми другими независимыми переменными в модели.
Значение от 1 до 5 указывает на умеренную корреляцию между данной объясняющей переменной и другими независимыми переменными в модели, но часто она недостаточно серьезна, чтобы требовать внимания.
Значение больше 5 указывает на потенциально сильную корреляцию между данной независимой переменной и другими независимыми переменными в модели. В этом случае оценки коэффициентов и p-значения в выходных данных регрессии, вероятно, ненадежны.
Учитывая, что каждое из значений VIF для независимых переменных в нашей регрессионной модели близко к 1, мультиколлинеарность в нашем примере не является проблемой.
Чтобы рассчитать VIF для каждой независимой переменной в модели, мы можем использовать из библиотеки statsmodels: