🛠️
Bemind
Инструменты оценки
Инструменты оценки
  • Основные показатели стратегии
  • Инструменты оценки модели линейной регрессии
    • 1. Средняя квадратическая ошибка
    • 2. Средняя абсолютная ошибка
    • 3. Корень из средней квадратической ошибки.
    • 4. Коэффициент детерминации
    • 5. Скорректированный коэффициент детерминации:
    • 6. Коэффициенты модели
    • 7. Проверка гипотез о коэффициентах модели
    • 8. Проверка предположений о модели
  • Инструменты оценки качества обучения классифицирующей нейронной сети
    • Точность (Accuracy)
    • Матрица ошибок (Confusion Matrix)
    • Кривая ROC (Receiver Operating Characteristic)
    • Кросс-энтропийная функция потерь (Cross-Entropy Loss)
    • Precision, Recall, F1-score
    • Разделение данных на тренировочный, валидационный и тестовый наборы
    • Мониторинг метрик на валидационном наборе во время обучения для предотвращения переобучения
  • Линейная, логистическая и регрессия Пуассона.
    • Введение в простую линейную регрессию
    • Введение в регрессию Пуассона для подсчета данных
    • Введение в простую линейную регрессию
    • Полное руководство по линейной регрессии в Python
      • Как создать остаточный график в Python
      • Понимание гетероскедастичности в регрессионном анализе
      • Как выполнить тест Дарбина-Ватсона в Python
      • Четыре допущения линейной регрессии
    • Как рассчитать VIF в Python
    • Руководство по мультиколлинеарности и VIF в регрессии
  • Мультиколлинеарность и коэффициент инфляции дисперсии (VIF) в регрессионной модели (с кодом Python)
    • Фактор инфляции дисперсии в Python
  • Функции потерь в Python — простая реализация
  • CADE — интересный способ поиска аномалий в многомерных данных
  • Как использовать Python для проверки нормальности
  • Анализ карты Пуанкаре
    • Анализ Финансовых Рынков: Автокорреляция и Спектральный Анализ Криптовалют
  • Предсказания цен с использованием постоянной Фейгенбаума
  • Расчет вероятности серии убыточных сделок в серии игр.
  • Анализ данных ставок и результатов с использованием Python
Powered by GitBook
On this page
  1. Линейная, логистическая и регрессия Пуассона.

Введение в простую линейную регрессию

PreviousВведение в регрессию Пуассона для подсчета данныхNextПолное руководство по линейной регрессии в Python

Когда мы хотим понять взаимосвязь между одной переменной-предиктором и переменной-ответом, мы часто используем .

Однако, если мы хотим понять взаимосвязь между несколькими переменными-предикторами и переменной ответа, мы можем вместо этого использовать множественную линейную регрессию .

Если у нас есть p переменных-предикторов, то модель множественной линейной регрессии принимает форму:

Y = β 0 + β 1 X 1 + β 2 X 2 + … + β p X p + ε

куда:

  • Y : переменная ответа

  • X j : j -я предикторная переменная

  • β j : среднее влияние на Y увеличения X j на одну единицу при неизменности всех остальных предикторов.

  • ε : Член ошибки

Значения β 0 , β 1 , B 2 , … , β p выбираются методом наименьших квадратов , который минимизирует сумму квадратов невязок (RSS):

RSS = Σ(y i – ŷ i ) 2

куда:

  • Σ : греческий символ, означающий сумму

  • y i : Фактическое значение отклика для i -го наблюдения

  • ŷ i : прогнозируемое значение отклика на основе модели множественной линейной регрессии.

Метод, используемый для нахождения этих оценок коэффициентов, основан на матричной алгебре, и мы не будем здесь подробно останавливаться на нем. К счастью, любой статистический софт может рассчитать эти коэффициенты за вас.

Как интерпретировать вывод множественной линейной регрессии

Предположим, мы подогнали модель множественной линейной регрессии, используя предикторные переменные: количество часов обучения и количество сданных подготовительных экзаменов, а также переменную ответа на экзамене .

На следующем снимке экрана показано, как могут выглядеть выходные данные множественной линейной регрессии для этой модели:

Из выходных данных модели коэффициенты позволяют нам сформировать предполагаемую модель множественной линейной регрессии:

Экзаменационный балл = 67,67 + 5,56*(часы) – 0,60*(подготовительные экзамены)

Способ интерпретации коэффициентов следующий:

  • Каждое дополнительное увеличение количества часов обучения на одну единицу связано со средним увеличением экзаменационного балла на 5,56 балла, при условии, что подготовительные экзамены остаются постоянными.

  • Каждое дополнительное увеличение количества сданных подготовительных экзаменов на одну единицу связано со средним снижением экзаменационного балла на 0,60 балла при условии, что количество учебных часов остается постоянным.

Мы также можем использовать эту модель, чтобы найти ожидаемый результат экзамена, который студент получит на основе общего количества часов обучения и сданных подготовительных экзаменов. Например, студент, который занимается 4 часа и сдает 1 подготовительный экзамен, должен получить на экзамене 89,31 балла:

Экзаменационный балл = 67,67 + 5,56*(4) -0,60*(1) = 89,31

Вот как интерпретировать остальную часть вывода модели:

  • R-квадрат: известен как коэффициент детерминации. Это доля дисперсии переменной отклика, которая может быть объяснена объясняющими переменными. В этом примере 73,4% вариаций в экзаменационных баллах можно объяснить количеством часов обучения и количеством сданных подготовительных экзаменов.

  • Стандартная ошибка: это среднее расстояние, на которое наблюдаемые значения отклоняются от линии регрессии. В этом примере наблюдаемые значения отклоняются от линии регрессии в среднем на 5,366 единицы.

  • F: это общая статистика F для регрессионной модели, рассчитанная как MS регрессии / остаточная MS.

  • Значимость F: это значение p, связанное с общей статистикой F. Он говорит нам, является ли регрессионная модель в целом статистически значимой. Другими словами, он говорит нам, имеют ли объединенные две объясняющие переменные статистически значимую связь с переменной отклика. В этом случае p-значение меньше 0,05, что указывает на то, что объясняющие переменные количество часов обучения и количество сданных подготовительных экзаменов в совокупности имеют статистически значимую связь с экзаменационным баллом.

  • Коэффициент P-значения. Отдельные p-значения говорят нам, является ли каждая независимая переменная статистически значимой. Мы можем видеть, что изученные часы статистически значимы (p = 0,00), в то время как пройденные подготовительные экзамены (p = 0,52) не являются статистически значимыми при α = 0,05. Поскольку сданные подготовительные экзамены не являются статистически значимыми, мы можем принять решение удалить их из модели.

Как оценить соответствие модели множественной линейной регрессии

Есть два числа, которые обычно используются для оценки того, насколько хорошо модель множественной линейной регрессии «соответствует» набору данных:

Значение для R-квадрата может варьироваться от 0 до 1. Значение 0 указывает, что переменная отклика вообще не может быть объяснена предикторной переменной. Значение 1 указывает, что переменная отклика может быть полностью объяснена без ошибок с помощью переменной-предиктора.

Чем выше R-квадрат модели, тем лучше модель может соответствовать данным.

2. Стандартная ошибка: это среднее расстояние, на которое наблюдаемые значения отклоняются от линии регрессии. Чем меньше стандартная ошибка, тем лучше модель соответствует данным.

Если мы заинтересованы в прогнозировании с использованием модели регрессии, стандартная ошибка регрессии может быть более полезной метрикой, чем R-квадрат, потому что она дает нам представление о том, насколько точными будут наши прогнозы в единицах измерения.

Для полного объяснения плюсов и минусов использования R-квадрата и стандартной ошибки для оценки соответствия модели ознакомьтесь со следующими статьями:

Предположения множественной линейной регрессии

Существует четыре ключевых предположения, которые множественная линейная регрессия делает в отношении данных:

1. Линейная зависимость. Существует линейная зависимость между независимой переменной x и зависимой переменной y.

2. Независимость: Остатки независимы. В частности, нет корреляции между последовательными остатками в данных временных рядов.

3. Гомоскедастичность: остатки имеют постоянную дисперсию на каждом уровне x.

4. Нормальность: остатки модели нормально распределены.

Множественная линейная регрессия с использованием программного обеспечения

В следующих руководствах представлены пошаговые примеры выполнения множественной линейной регрессии с использованием различных статистических программ:

Примечание. На приведенном ниже снимке экрана показаны , но числа, показанные в выходных данных, являются типичными для выходных данных регрессии, которые вы увидите с помощью любого статистического программного обеспечения.

1. R-квадрат: это доля дисперсии , которая может быть объяснена переменными-предикторами.

Для полного объяснения того, как проверить эти предположения, ознакомьтесь с .

простую линейную регрессию
выходные данные множественной линейной регрессии для Excel
переменной отклика
Что такое хорошее значение R-квадрата?
Понимание стандартной ошибки регрессионной модели
этой статьей
Как выполнить множественную линейную регрессию в R
Как выполнить множественную линейную регрессию в Python
Как выполнить множественную линейную регрессию в Excel
Как выполнить множественную линейную регрессию в SPSS
Как выполнить множественную линейную регрессию в Stata
Как выполнить линейную регрессию в Google Sheets
Интерпретация выходных данных множественной линейной регрессии