🛠️
Bemind
Инструменты оценки
Инструменты оценки
  • Основные показатели стратегии
  • Инструменты оценки модели линейной регрессии
    • 1. Средняя квадратическая ошибка
    • 2. Средняя абсолютная ошибка
    • 3. Корень из средней квадратической ошибки.
    • 4. Коэффициент детерминации
    • 5. Скорректированный коэффициент детерминации:
    • 6. Коэффициенты модели
    • 7. Проверка гипотез о коэффициентах модели
    • 8. Проверка предположений о модели
  • Инструменты оценки качества обучения классифицирующей нейронной сети
    • Точность (Accuracy)
    • Матрица ошибок (Confusion Matrix)
    • Кривая ROC (Receiver Operating Characteristic)
    • Кросс-энтропийная функция потерь (Cross-Entropy Loss)
    • Precision, Recall, F1-score
    • Разделение данных на тренировочный, валидационный и тестовый наборы
    • Мониторинг метрик на валидационном наборе во время обучения для предотвращения переобучения
  • Линейная, логистическая и регрессия Пуассона.
    • Введение в простую линейную регрессию
    • Введение в регрессию Пуассона для подсчета данных
    • Введение в простую линейную регрессию
    • Полное руководство по линейной регрессии в Python
      • Как создать остаточный график в Python
      • Понимание гетероскедастичности в регрессионном анализе
      • Как выполнить тест Дарбина-Ватсона в Python
      • Четыре допущения линейной регрессии
    • Как рассчитать VIF в Python
    • Руководство по мультиколлинеарности и VIF в регрессии
  • Мультиколлинеарность и коэффициент инфляции дисперсии (VIF) в регрессионной модели (с кодом Python)
    • Фактор инфляции дисперсии в Python
  • Функции потерь в Python — простая реализация
  • CADE — интересный способ поиска аномалий в многомерных данных
  • Как использовать Python для проверки нормальности
  • Анализ карты Пуанкаре
    • Анализ Финансовых Рынков: Автокорреляция и Спектральный Анализ Криптовалют
  • Предсказания цен с использованием постоянной Фейгенбаума
  • Расчет вероятности серии убыточных сделок в серии игр.
  • Анализ данных ставок и результатов с использованием Python
Powered by GitBook
On this page
  • Почему мультиколлинеарность является проблемой
  • Как обнаружить мультиколлинеарность
  • Как разрешить мультиколлинеарность
  1. Линейная, логистическая и регрессия Пуассона.

Руководство по мультиколлинеарности и VIF в регрессии

PreviousКак рассчитать VIF в PythonNextМультиколлинеарность и коэффициент инфляции дисперсии (VIF) в регрессионной модели (с кодом Python)

Last updated 1 year ago


Мультиколлинеарность в возникает, когда две или более переменных-предикторов сильно коррелируют друг с другом, так что они не предоставляют уникальную или независимую информацию в регрессионной модели.

Если степень корреляции между переменными достаточно высока, это может вызвать проблемы при подгонке и интерпретации регрессионной модели.

Например, предположим, что вы запускаете регрессионный анализ, используя максимального вертикального прыжка и следующие переменные-предикторы:

  • высота

  • размер обуви

  • часов занятий в день

В этом случае рост и размер обуви , вероятно, будут сильно коррелировать друг с другом, поскольку у более высоких людей, как правило, размер обуви больше. Это означает, что мультиколлинеарность, вероятно, будет проблемой в этой регрессии.

В этом руководстве объясняется, почему мультиколлинеарность является проблемой, как ее обнаружить и как решить.

Почему мультиколлинеарность является проблемой

Одна из основных целей регрессионного анализа состоит в том, чтобы изолировать взаимосвязь между каждой переменной-предиктором и переменной-откликом.

В частности, когда мы проводим регрессионный анализ, мы интерпретируем каждый коэффициент регрессии как среднее изменение переменной отклика, предполагая, что все другие переменные-предикторы в модели остаются постоянными.

Это означает, что мы предполагаем, что можем изменить значения данной переменной-предиктора без изменения значений других переменных-предикторов.

Однако, когда две или более переменных-предикторов сильно коррелированы, становится трудно изменить одну переменную, не изменив другую.

Это затрудняет для регрессионной модели независимую оценку взаимосвязи между каждой переменной-предиктором и переменной отклика, поскольку переменные-предикторы имеют тенденцию изменяться в унисон.

В целом, мультиколлинеарность вызывает два типа проблем:

  • Оценки коэффициентов модели (и даже знаки коэффициентов) могут значительно колебаться в зависимости от того, какие другие предикторы включены в модель.

  • Точность оценок коэффициентов снижается, что делает p-значения ненадежными. Это затрудняет определение того, какие переменные-предикторы на самом деле являются статистически значимыми.

Как обнаружить мультиколлинеарность

Наиболее распространенным способом обнаружения мультиколлинеарности является использование коэффициента инфляции дисперсии (VIF) , который измеряет корреляцию и силу корреляции между переменными-предикторами в регрессионной модели.

Использование коэффициента инфляции дисперсии (VIF)

Большинство статистических программ позволяют вычислять VIF для регрессионной модели. Значение VIF начинается с 1 и не имеет верхнего предела. Общее эмпирическое правило для интерпретации VIF выглядит следующим образом:

  • Значение 1 указывает на отсутствие корреляции между данной переменной-предиктором и любыми другими переменными-предикторами в модели.

  • Значение от 1 до 5 указывает на умеренную корреляцию между данной переменной-предиктором и другими переменными-предикторами в модели, но часто она недостаточно серьезная, чтобы требовать внимания.

  • Значение больше 5 указывает на потенциально сильную корреляцию между данной переменной-предиктором и другими переменными-предикторами в модели. В этом случае оценки коэффициентов и p-значения в выходных данных регрессии, вероятно, ненадежны.

Например, предположим, что мы запускаем регрессионный анализ, используя переменные-предикторы рост , размер обуви и количество часов, потраченных на тренировки в день , чтобы предсказать максимальный вертикальный прыжок для баскетболистов и получить следующий результат:

Из последнего столбца мы видим, что значения VIF для роста и размера обуви больше 5. Это указывает на то, что они, вероятно, страдают от мультиколлинеарности и что их оценки коэффициентов и p-значения, вероятно, ненадежны.

Если мы посмотрим на оценку коэффициента для размера обуви, модель говорит нам, что для каждой дополнительной единицы увеличения размера обуви среднее увеличение максимального вертикального прыжка составляет -0,67498 дюйма, при условии, что рост и количество часов практики остаются постоянными.

Кажется, это не имеет смысла, учитывая, что мы ожидаем, что игроки с большим размером обуви будут выше и, следовательно, будут иметь более высокий максимальный вертикальный прыжок.

Это классический пример мультиколлинеарности, из-за которого оценки коэффициентов кажутся немного причудливыми и неинтуитивными.

Как разрешить мультиколлинеарность

Если вы обнаружите мультиколлинеарность, следующим шагом будет решить, нужно ли вам каким-то образом разрешить ее. В зависимости от цели вашего регрессионного анализа вам может и не понадобиться разрешать мультиколлинеарность.

А именно:

1. Если имеется только умеренная мультиколлинеарность, вам, вероятно, не нужно ее каким-либо образом разрешать.

2. Мультиколлинеарность влияет только на те переменные-предикторы, которые коррелируют друг с другом. Если вас интересует предикторная переменная в модели, которая не страдает мультиколлинеарностью, то мультиколлинеарность не имеет значения.

3. Мультиколлинеарность влияет на оценки коэффициентов и p-значения, но не влияет на прогнозы или статистику согласия. Это означает, что если ваша основная цель регрессии состоит в том, чтобы делать прогнозы, и вы не заинтересованы в понимании точной взаимосвязи между переменными-предикторами и переменной-ответом, тогда мультиколлинеарность не нужно разрешать.

Если вы решите, что вам нужно исправить мультиколлинеарность, то некоторые общие решения включают в себя:

1. Удалите одну или несколько сильно коррелированных переменных. В большинстве случаев это самое быстрое исправление, и часто оно является приемлемым решением, поскольку удаляемые переменные в любом случае являются избыточными и добавляют мало уникальной или независимой информации в модель.

2. Каким-то образом линейно комбинировать переменные-предикторы, например добавлять или вычитать их одним способом. Таким образом, вы можете создать одну новую переменную, которая включает информацию из обеих переменных, и у вас больше не будет проблемы мультиколлинеарности.

3. Выполните анализ, предназначенный для учета переменных с высокой степенью корреляции, таких как или . Эти методы специально разработаны для работы с сильно коррелированными предикторными переменными.

регрессионном анализе
переменную ответа
анализ основных компонентов
частичная регрессия методом наименьших квадратов (PLS)