Мультиколлинеарность и коэффициент инфляции дисперсии (VIF) в регрессионной модели (с кодом Python)
Last updated
Last updated
Мультиколлинеарность относится к высокой корреляции между более чем двумя независимыми переменными в модели регрессии (например, Множественная линейная регрессия). Аналогично, коллинеарность относится к высокой корреляции между двумя независимыми переменными.
Мультиколлинеарность может возникать из-за плохо спланированных экспериментов (мультиколлинеарность, основанная на данных) или из-за создания новых независимых переменных, связанных с существующими (структурная мультиколлинеарность).
Коэффициент инфляции дисперсии (VIF) измеряет степень мультиколлинеарности или коллинеарности в регрессионной модели.
VIF (Индекс дополнительной дисперсии), индексы толерантности (ТИ) и коэффициенты корреляции являются полезными метриками для определения мультиколлинеарности.
Диапазон VIF для оценки мультиколлинеарности задается как,
1
Полное отсутствие мультиколлинеарности
1-2
Отсутствие сильной мультиколлинеарности
> 2
Наличие умеренной и сильной мультиколлинеарности.
Примечание: Универсального согласия относительно значений VIF для обнаружения мультиколлинеарности не существует. VIF > 5 или VIF > 10 указывает на сильную мультиколлинеарность, но VIF < 5 также указывает на мультиколлинеарность. Рекомендуется иметь VIF < 2.
VIF может обнаружить мультиколлинеарность, но не может определить независимые переменные, вызывающие мультиколлинеарность. Здесь анализ корреляции полезен для выявления сильно коррелированных независимых переменных.
Эффективность регрессионного анализа в значительной степени зависит от структуры корреляции независимых переменных. Мультиколлинеарность вызывает неточности в результатах регрессионного анализа.
Если в регрессионной модели присутствует мультиколлинеарность, это приводит к смещенной и нестабильной оценке коэффициентов регрессии, увеличивает дисперсию и стандартную ошибку коэффициентов, а также уменьшает статистическую мощность.
Например, если корреляция между двумя независимыми переменными превышает 0.9, это может значительно изменить коэффициенты регрессии. Иногда также может происходить изменение алгебраического знака коэффициентов регрессии.
Мультиколлинеарность пропорциональна оценке коэффициентов регрессии. Чем выше корреляция между независимыми переменными, тем больше будет изменение коэффициентов регрессии.
Увеличьте размер выборки
Удалите сильно коррелированные независимые переменные. Если две независимые переменные сильно коррелируют, рассмотрите возможность удаления одной из переменных. Удаление независимых переменных, вызывающих мультиколлинеарность, не приводит к потере информации.
Объедините сильно коррелированные независимые переменные
Теперь вы знаете, что мультиколлинеарность является серьезной проблемой в регрессионных моделях. Здесь мы обсудим пример множественного регрессионного анализа для расчета VIF, используя данные о артериальном давлении.
В приведенном выше примере независимые переменные вес
, площадь поверхности тела (BSA)
и пульс
(VIF > 2) сильно коррелируют с некоторыми независимыми переменными в модели.
Поскольку VIF (Variance Inflation Factor) не указывает, какая пара независимых переменных коррелирует, вы можете провести анализ корреляции, чтобы узнать, какие переменные сильно коррелируют.
На основании парного корреляционного анализа переменная Weight
сильно коррелирует с BSA
(r > 0.8) и Pulse
(r > 0.6). Для устранения мультиколлинеарности необходимо исключить переменные BSA
и Pulse
и повторно проанализировать регрессионную модель.
В обновленной модели отсутствует сильная мультиколлинеарность среди независимых переменных. Эти четыре переменные могут быть использованы в регрессионном анализе.
Смотрите здесь другой пример использования анализа логистической регрессии для отбора признаков путем диагностики мультиколлинеарности.
Yoo W, Mayberry R, Bae S, Singh K, He QP, Lillard Jr JW. Исследование эффектов мультиколлинеарности в многомерном анализе. Международный журнал прикладной науки и технологии. 2014 Окт;4(5):9.
Vatcheva KP, Lee M, McCormick JB, Rahbar MH. Мультиколлинеарность в регрессионных анализах, проведенных в эпидемиологических исследованиях. Эпидемиология (Sunnyvale, Calif.). 2016 Апр;6(2).
Kim JH. Мультиколлинеарность и вводящие в заблуждение статистические результаты. Корейский журнал анестезиологии. 2019 Дек;72(6):558.
Daoud JI. Мультиколлинеарность и регрессионный анализ. В сборнике: Журнал Физики: Серия конференций 2017 года 1 декабря (Том. 949, № 1, стр. 012009). IOP Publishing.
Marcoulides KM, Raykov T. Оценка коэффициентов инфляции дисперсии в регрессионных моделях с использованием методов моделирования скрытых переменных. Измерения в образовании и психологии. 2019 Окт;79(5):874
Если у вас есть вопросы, комментарии или рекомендации, пожалуйста, напишите мне на reneshbe@gmail.com
Эта работа распространяется по лицензии Creative Commons Attribution 4.0 International License