Корреляционно-регрессионный анализ: пример, задачи, применение. Метод корреляционно-регрессионного анализа

Регрессионный анализ – основы, этапы и примеры задач

Корреляционно-регрессионный анализ: пример, задачи, применение. Метод корреляционно-регрессионного анализа

Время на чтение: 11 минут

Метод моделирования пар данных и исследования их свойств представляет собой раздел математической статистики, который используют для выявления статистических закономерностей, объединяющих ряд величин. При этом некоторые данные являются случайными. Анализируя зависимости, исследователь может построить модель регрессии.

Полученные данные — основа регрессионного анализа и база для дальнейшего изучения, которое основывается на том, что между числами всегда существуют известные или скрытые связи.

Первые получаются путём вычислений с помощью формул, а вторые необходимо прогнозировать и объяснять, иначе не получится изменять их так, как нужно для решения различных задач.

Корреляционно-регрессионный анализ позволяет обнаружить скрытые зависимости и представить их в виде математических выражений. Цели, для которых используются формулы:

  • управление;
  • предсказание;
  • объяснение.

С помощью аналитики выводят коэффициент корреляции, который означает силу связей. Чем она существеннее, тем легче создать регрессионную модель. В статистике этот метод является основным. Этапы регрессионного анализа располагаются в таком порядке:

  • собирают данные;
  • подвергают их предварительной обработке;
  • выбирают вид уравнения;
  • рассчитывают коэффициент;
  • строят функцию;
  • проверяют правильность расчётом с помощью наблюдений.

Метод проведения

В теории описать уравнение регрессии можно только при условии, что известен закон, по которому распределяются результативные значения функции y при заданных параметрах аргумента x. На практике учёные не располагают знанием такой закономерности, поэтому приходится подбирать подходящие варианты аппроксимаций (близких значений) для неизвестной функции.

Взаимоотношение между истинной функцией, модельной регрессией и её оценкой можно рассмотреть на примере. Для этого нужно сделать допущение. Пусть показатель и аргумент связаны следующим образом: у=2х 1,5+o. В этой формуле o представляет собой случайное значение величины, распределяемой в соответствии с нормальным законом. Необходимо сделать ещё 2 допущения: d o- o 2 и M o= 0.

Тогда уравнение, описывающее функцию регрессии, примет такой вид: f (х) = М (у/х) = 2х i 1,5+ o.

Чтобы при наличии исходных данных получить максимально точные значения функции регрессии и результирующего показателя, используют метод наименьших квадратов.

При вычислениях минимизируют квадрат величины, на которую результативное значение отклоняется от модельного. Получают такое выражение: o (y i) — f (х i)2 > min. Это среднеквадратичная регрессия.

Дальнейшие действия проводят с использованием метода наименьших модулей. Получают следующее выражение: y-f (xj) — min. Оно описывает медианную регрессию.

Работа в таблицах Ms Excel

В информатике анализ данных позволяет разрабатывать и исследовать алгоритмы и методы, с помощью которых добывается информация из сведений, полученных экспериментальным путём.

Исследования удобно проводить в Ms Excel, однако нужно учитывать, что работать в режиме онлайн с этим приложением не получится.

Средства, которые можно использовать для анализа с помощью этого инструмента:

  • построение сводных таблиц;
  • объединение данных;
  • частичное и полное суммирование;
  • подведение итогов в автоматическом режиме;
  • структуризация данных, представленных на отдельных листах;
  • проверка значений в книгах и листах на ошибки;
  • применение карт;
  • создание диаграмм;
  • обработка значений с использованием функций и формул;
  • выборочный анализ разными способами, включая сценарии, поиск решения, выбор параметра и другие.

Инструменты, встроенные в Microsoft Excel, позволяют решать инженерные и статистические задачи высокого уровня сложности. Чтобы выполнить анализ, указывают входные данные и задают нужные параметры.

Программа анализирует значения, применяя ту макрофункцию, которая подходит в этой ситуации. Результаты отображаются в специальных ячейках.

Затем, применяя другие инструменты, данные можно вывести в виде графиков или диаграмм.

Графический вид удобен тем, что позволяет быстро обнаружить ошибки: они отображаются как нетипичные отклонения кривых. В таблицах найти неточности бывает сложно, так как списки бывают довольно большими.

Кроме того, графики дают возможность не только проиллюстрировать информацию, но и проконтролировать корректность исходных данных.

В некоторых случаях только графическое отображение позволяет правильно интерпретировать, обобщить и проанализировать информацию.

Множественный анализ

Общее назначение этого метода состоит в том, чтобы определить, как изменяется зависимая переменная, когда на неё воздействуют несколько факторов. Это легко понять на примере.

Цена товара изменяется, подвергаясь влиянию ряда индикаторов. В виде равенства это можно представить так: изменение цены = a * RSI + b * MACD + с.

Выражение будет корректным только в том случае, если между независимым и зависимыми значениями есть корреляция.

Компоненты выражения связаны между собой, поэтому при удалении одного значение остальных может измениться. Коэффициенты a и b применяются для демонстрации вклада каждого независимого значения.

Уравнение показывает, как взаимодействуют его части в идеале. На практике реальные показатели отличаются от прогнозируемых, а разницу между ними именуют остатком. С помощью множественного анализа исследуют количественные показатели, причём их может быть сколько угодно. Для определения и изучения качественных значений, у которых нет переходных параметров, применяют другие инструменты.

Этапы и виды

Множественный анализ выполняют в несколько этапов. Сначала формулируют задачу и разрабатывают гипотезы с учётом специфики анализируемых явлений. Дальнейшая работа ведётся в таком порядке:

  • Определяют объясняющие и зависимые переменные.
  • Собирают статистическую информацию отдельно для каждого компонента, участвующего в анализе.
  • Формулируют гипотезу, допускающую, какой будет связь: линейной, множественной, простой, нелинейной.
  • Рассчитывают числовые значения для тех компонентов уравнения, относительно которых это возможно.
  • Оценивают степень точности анализа.
  • Выполняют интерпретацию результатов и сравнивают их с гипотезой. Оценивают, насколько полученные значения являются правдоподобными и корректными.
  • Прогнозируют, какие значения может принимать зависимый компонент.

Метод регрессионного анализа позволяет не только прогнозировать величины, но и классифицировать их. Предполагаемые значения вычисляются так: в уравнение на место независимых переменных подставляются числовые параметры, которые заведомо известны.

Классификация результатов

Для классификации результатов проводят линию регрессии. Она разделяет множество на 2 части: в одной находятся значения, которые больше нуля, в другой — меньше. Так данные на шкале распределяются по 2 классам. В свою очередь, регрессия подразделяется на несколько видов:

  • Парная. Так называется регрессия, в которой, наряду с незначимыми, есть доминирующий фактор x. Пример регрессионного анализа: в каждом регионе есть некоторое количество занятых людей (x) и собирается некоторая сумма налогов (y). Y зависит от доминирующего компонента x. Присутствуют и другие факторы, но их значимость гораздо ниже.
  • Обратная. Она заключается в том, что сначала составляют максимально полное уравнение, а затем последовательно исключают из него отдельные члены, каждый раз оценивая, насколько уменьшилась остаточная дисперсия. В итоговом уравнении останутся только те компоненты, которые оказали наиболее весомый вклад на её уменьшение.
  • Нелинейная. Этот вид анализа применяется, когда зависимость одной переменной от других не является линейной. Пример: засолённость почвы до определённого предела не оказывает влияния на урожайность культур. После достижения определённых значений это влияние начинает проявляться нелинейно. Зависимость можно представить в виде функции. Их существует несколько видов: показательные, логарифмические, тригонометрические, степенные, гауссова и кривые Лоренца.
  • Множественная. Бывает необходима, когда нужно рассчитать влияние множества независимых переменных на результативный признак. При этом присутствует фактор E — стохастический параметр, включающий влияние неучтённых компонентов.
  • Линейная. Используется для анализа эластичности спроса, прогнозирования загруженности веб-сервисов, стоимости ценных бумаг, объёмов продаж и т. д.
  • Логарифмически линейная. Применяется при моделировании реальных социально-экономических процессов, которые невозможно описать через линейную функцию.
  • Гиперболическая. Она имеет вид у=b+а/х. В экономике её применяют для выявления зависимости объёма выпускаемой продукции от затрат топлива, сырья и материалов, а также для других целей. Классический пример — кривая Филлипса. График оказывает связь между приростом заработной платы и уровнем безработицы.

Регрессионный анализ позволяет с максимальной эффективностью и наименьшими усилиями использовать накопленный теоретико-прикладной потенциал, выдвигать и обосновывать идеи, ставить и решать задачи.

Источник: https://nauka.club/matematika/algebra/regressionnyi-analiz.html

Метод корреляционного анализа: пример. Корреляционный анализ – это..

Корреляционно-регрессионный анализ: пример, задачи, применение. Метод корреляционно-регрессионного анализа

В научных исследованиях часто возникает необходимость в нахождении связи между результативными и факторными переменными (урожайностью какой-либо культуры и количеством осадков, ростом и весом человека в однородных группах по полу и возрасту, частотой пульса и температурой тела и т.д.).

Вторые представляют собой признаки, способствующие изменению таковых, связанных с ними (первыми).

Понятие о корреляционном анализе

Существует множество определений термина. Исходя из вышеизложенного, можно сказать, что корреляционный анализ — это метод, применяющийся с целью проверки гипотезы о статистической значимости двух и более переменных, если исследователь их может измерять, но не изменять.

Есть и другие определения рассматриваемого понятия. Корреляционный анализ — это метод обработки статистических данных, заключающийся в изучении коэффициентов корреляции между переменными.

При этом сравниваются коэффициенты корреляции между одной парой или множеством пар признаков, для установления между ними статистических взаимосвязей.

Корреляционный анализ — это метод по изучению статистической зависимости между случайными величинами с необязательным наличием строгого функционального характера, при которой динамика одной случайной величины приводит к динамике математического ожидания другой.

Понятие о ложности корреляции

При проведении корреляционного анализа необходимо учитывать, что его можно провести по отношению к любой совокупности признаков, зачастую абсурдных по отношению друг к другу. Порой они не имеют никакой причинной связи друг с другом.

В этом случае говорят о ложной корреляции.

Задачи корреляционного анализа

Исходя из приведенных выше определений, можно сформулировать следующие задачи описываемого метода: получить информацию об одной из искомых переменных с помощью другой; определить тесноту связи между исследуемыми переменными.

Корреляционный анализ предполагает определение зависимости между изучаемыми признаками, в связи с чем задачи корреляционного анализа можно дополнить следующими:

  • выявление факторов, оказывающих наибольшее влияние на результативный признак;
  • выявление неизученных ранее причин связей;
  • построение корреляционной модели с ее параметрическим анализом;
  • исследование значимости параметров связи и их интервальная оценка.

Связь корреляционного анализа с регрессионным

Метод корреляционного анализа часто не ограничивается нахождением тесноты связи между исследуемыми величинами.

Иногда он дополняется составлением уравнений регрессии, которые получают с помощью одноименного анализа, и представляющих собой описание корреляционной зависимости между результирующим и факторным (факторными) признаком (признаками). Этот метод в совокупности с рассматриваемым анализом составляет метод корреляционно-регрессионного анализа.

Результативные факторы зависят от одного до нескольких факторов.

Метод корреляционного анализа может применяться в том случае, если имеется большое количество наблюдений о величине результативных и факторных показателей (факторов), при этом исследуемые факторы должны быть количественными и отражаться в конкретных источниках.

Первое может определяться нормальным законом — в этом случае результатом корреляционного анализа выступают коэффициенты корреляции Пирсона, либо, в случае, если признаки не подчиняются этому закону, используется коэффициент ранговой корреляции Спирмена.

Правила отбора факторов корреляционного анализа

При применении данного метода необходимо определиться с факторами, оказывающими влияние на результативные показатели. Их отбирают с учетом того, что между показателями должны присутствовать причинно-следственные связи.

В случае создания многофакторной корреляционной модели отбирают те из них, которые оказывают существенное влияние на результирующий показатель, при этом взаимозависимые факторы с коэффициентом парной корреляции более 0,85 в корреляционную модель предпочтительно не включать, как и такие, у которых связь с результативным параметром носит непрямолинейный или функциональный характер.

Отображение результатов

Результаты корреляционного анализа могут быть представлены в текстовом и графическом видах. В первом случае они представляются как коэффициент корреляции, во втором — в виде диаграммы разброса.

При отсутствии корреляции между параметрами точки на диаграмме расположены хаотично, средняя степень связи характеризуется большей степенью упорядоченности и характеризуется более-менее равномерной удаленностью нанесенных отметок от медианы. Сильная связь стремится к прямой и при r=1 точечный график представляет собой ровную линию. Обратная корреляция отличается направленностью графика из левого верхнего в нижний правый, прямая — из нижнего левого в верхний правый угол.

Трехмерное представление диаграммы разброса (рассеивания)

Помимо традиционного 2D-представления диаграммы разброса в настоящее время используется 3D-отображение графического представления корреляционного анализа.

Также используется матрица диаграммы рассеивания, которая отображает все парные графики на одном рисунке в матричном формате. Для n переменных матрица содержит n строк и n столбцов.

Диаграмма, расположенная на пересечении i-ой строки и j-ого столбца, представляет собой график переменных Xi по сравнению с Xj.

Таким образом, каждая строка и столбец являются одним измерением, отдельная ячейка отображает диаграмму рассеивания двух измерений.

Оценка тесноты связи

Теснота корреляционной связи определяется по коэффициенту корреляции (r): сильная — r = ±0,7 до ±1, средняя — r = ±0,3 до ±0,699, слабая — r = 0 до ±0,299. Данная классификация не является строгой. На рисунке показана несколько иная схема.

Пример применения метода корреляционного анализа

В Великобритании было предпринято любопытное исследование. Оно посвящено связи курения с раком легких, и проводилось путем корреляционного анализа. Это наблюдение представлено ниже.

Исходные данные для корреляционного анализа

Профессиональная группа

курение

смертность

Фермеры, лесники и рыбаки

77

84

Шахтеры и работники карьеров

137

116

Производители газа, кокса и химических веществ

117

123

Изготовители стекла и керамики

94

128

Работники печей, кузнечных, литейных и прокатных станов

116

155

Работники электротехники и электроники

102

101

Инженерные и смежные профессии

111

118

Деревообрабатывающие производства

93

113

Кожевенники

88

104

Текстильные рабочие

102

88

Изготовители рабочей одежды

91

104

Работники пищевой, питьевой и табачной промышленности

104

129

Производители бумаги и печати

107

86

Производители других продуктов

112

96

Строители

113

144

Художники и декораторы

110

139

Водители стационарных двигателей, кранов и т. д.

125

113

Рабочие, не включенные в другие места

133

146

Работники транспорта и связи

115

128

Складские рабочие, кладовщики, упаковщики и работники разливочных машин

105

115

Канцелярские работники

87

79

Продавцы

91

85

Работники службы спорта и отдыха

100

120

Администраторы и менеджеры

76

60

Профессионалы, технические работники и художники

66

51

Начинаем корреляционный анализ. Решение лучше начинать для наглядности с графического метода, для чего построим диаграмму рассеивания (разброса).

Она демонстрирует прямую связь. Однако на основании только графического метода сделать однозначный вывод сложно. Поэтому продолжим выполнять корреляционный анализ. Пример расчета коэффициента корреляции представлен ниже.

С помощью программных средств (на примере MS Excel будет описано далее) определяем коэффициент корреляции, который составляет 0,716, что означает сильную связь между исследуемыми параметрами.

Определим статистическую достоверность полученного значения по соответствующей таблице, для чего нам нужно вычесть из 25 пар значений 2, в результате чего получим 23 и по этой строке в таблице найдем r критическое для p=0,01 (поскольку это медицинские данные, здесь используется более строгая зависимость, в остальных случаях достаточно p=0,05), которое составляет 0,51 для данного корреляционного анализа. Пример продемонстрировал, что r расчетное больше r критического, значение коэффициента корреляции считается статистически достоверным.

Использование ПО при проведении корреляционного анализа

Описываемый вид статистической обработки данных может осуществляться с помощью программного обеспечения, в частности, MS Excel. Корреляционный анализ в Excel предполагает вычисление следующих парамет­ров с использованием функций:

1. Коэффициент корреляции определяется с помощью функции КОРРЕЛ [CORREL](массив1; массив2). Массив1,2 — ячейка интервала значений результативных и факторных переменных.

Линейный коэффициент корреляции также называется коэффициентом корреляции Пирсона, в связи с чем, начиная с Excel 2007, можно использовать функцию ПИРСОН (PEARSON) с теми же массивами.

Графическое отображение корреляционного анализа в Excel производится с помощью панели «Диаграммы» с выбором «Точечная диаграмма».

После указания исходных данных получаем график.

2. Оценка значимости коэффициента парной корреляции с использованием t-критерия Стьюдента.

Рассчитанное значение t-критерия сравнивается с табличной (критической) величиной данного показателя из соответствующей таблицы значений рассматриваемого параметра с учетом заданного уровня значимости и числа степеней свободы. Эта оценка осуществляется с использованием функции СТЬЮДРАСПОБР (вероятность; степени_свободы).

3. Матрица коэффициентов парной корреляции. Анализ осуществляется с помощью средства «Анализ данных», в котором выбирается «Корреляция».

Статистическую оценку коэффициентов парной корреляции осуществляют при сравнении его абсолютной величины с табличным (критическим) значением.

При превышении расчетного коэффициента парной корреляции над таковым критическим можно говорить, с учетом заданной степени вероятности, что нулевая гипотеза о значимости линейной связи не отвергается.

В заключение

Использование в научных исследованиях метода корреляционного анализа позволяет определить связь между различными факторами и результативными показателями. При этом необходимо учитывать, что высокий коэффициент корреляции можно получить и из абсурдной пары или множества данных, в связи с чем данный вид анализа нужно осуществлять на достаточно большом массиве данных.

После получения расчетного значения r его желательно сравнить с r критическим для подтверждения статистической достоверности определенной величины.

Корреляционный анализ может осуществляться вручную с использованием формул, либо с помощью программных средств, в частности MS Excel.

Здесь же можно построить диаграмму разброса (рассеивания) с целью наглядного представления о связи между изучаемыми факторами корреляционного анализа и результативным признаком.

Источник: https://FB.ru/article/341341/metod-korrelyatsionnogo-analiza-primer-korrelyatsionnyiy-analiz---eto

О бизнесе
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: