Корреляционно-регрессионный анализ в Excel с использованием настройки Пакет анализа
Для проведения корреляционно-регрессионного анализа в первую очередь необходимо построить матрицу коэффициентов парной корреляции для оценки степени влияния факторов на зависимую переменную и друг на друга. Для построения матрицы коэффициентов парной корреляции необходимо выбирать команду меню Сервис/Анализ данных/Корреляция.
Одним из условий регрессионной модели является предположение о функциональной независимости объясняющих переменных. Связь между факторами называется мультиколлинеарностью, которая делает вычисление параметров модели либо невозможным, либо затрудняет содержательную интерпретацию параметров модели. Считают явление мультиколлинеарности в исходных данных установленным, если коэффициент парной корреляции между двумя переменными больше 0.8. Чтобы избавиться от мультиколлинеарности, в модель включают лишь один из функционально связанных между собой факторов, причем тот который в большей степени связан с зависимой переменной.
После построения матрицы коэффициентов парной корреляции можно рассчитать параметры линейной и экспоненциальной регрессионных моделей. Для расчета параметров линейной модели использовать функцию ЛИНЕЙН и инструмент Регрессия надстройки Пакет анализа, для расчета параметров экспоненциальной — функцию ЛГРФПРИБЛ.
Для линейной и экспоненциальной моделей можно рассмотреть случаи, когда аргумент Константа в функциях ЛИНЕИН и ЛГФРФПРИБЛ имеет значение ИСТИНА и ЛОЖЬ.
- Сделать выводы: о значимости коэффициентов, входящих в модель, об адекватности модели фактическим данным;
- На основе проведенного анализа определить вид модели, наиболее точно описывающей фактические данные;
- Рассчитать прогнозные значения, используя выбранную модель. Найти отклонение фактических данных от расчетных;
- Построить график, отражающий фактические и расчетные данные.
Скачать детально разобранный пример проведения корреляционно-регрессионного анализа в Excel с использованием настройки Пакет анализа с depositfiles
Помощь по Теле2, тарифы, вопросы
Как построить матрицу парных коэффициентов корреляции в excel. Корреляция, вычисление коэффициентов корреляции. Матрица парных коэффициентов корреляции в Excel
Для определения степени зависимости между несколькими показателями применяется множественные коэффициенты корреляции. Их затем сводят в отдельную таблицу, которая имеет название корреляционной матрицы. Наименованиями строк и столбцов такой матрицы являются названия параметров, зависимость которых друг от друга устанавливается. На пересечении строк и столбцов располагаются соответствующие коэффициенты корреляции. Давайте выясним, как можно провести подобный расчет с помощью инструментов Excel.
Принято следующим образом определять уровень взаимосвязи между различными показателями, в зависимости от коэффициента корреляции:
- 0 – 0,3 – связь отсутствует;
- 0,3 – 0,5 – связь слабая;
- 0,5 – 0,7 – средняя связь;
- 0,7 – 0,9 – высокая;
- 0,9 – 1 – очень сильная.
Если корреляционный коэффициент отрицательный, то это значит, что связь параметров обратная.
Для того, чтобы составить корреляционную матрицу в Экселе, используется один инструмент, входящий в пакет «Анализ данных» . Он так и называется – «Корреляция» . Давайте узнаем, как с помощью него можно вычислить показатели множественной корреляции.
Этап 1: активация пакета анализа
Сразу нужно сказать, что по умолчанию пакет «Анализ данных» отключен. Поэтому, прежде чем приступить к процедуре непосредственного вычисления коэффициентов корреляции, нужно его активировать. К сожалению, далеко не каждый пользователь знает, как это делать. Поэтому мы остановимся на данном вопросе.
После указанного действия пакет инструментов «Анализ данных» будет активирован.
Этап 2: расчет коэффициента
Теперь можно переходить непосредственно к расчету множественного коэффициента корреляции. Давайте на примере представленной ниже таблицы показателей производительности труда, фондовооруженности и энерговооруженности на различных предприятиях рассчитаем множественный коэффициент корреляции указанных факторов.
Этап 3: анализ полученного результата
Теперь давайте разберемся, как понимать тот результат, который мы получили в процессе обработки данных инструментом «Корреляция» в программе Excel.
Как видим из таблицы, коэффициент корреляции фондовооруженности (Столбец 2 ) и энерговооруженности (Столбец 1 ) составляет 0,92, что соответствует очень сильной взаимосвязи. Между производительностью труда (Столбец 3 ) и энерговооруженностью (Столбец 1 ) данный показатель равен 0,72, что является высокой степенью зависимости. Коэффициент корреляции между производительностью труда (Столбец 3 ) и фондовооруженностью (Столбец 2 ) равен 0,88, что тоже соответствует высокой степени зависимости. Таким образом, можно сказать, что зависимость между всеми изучаемыми факторами прослеживается довольно сильная.
Как видим, пакет «Анализ данных» в Экселе представляет собой очень удобный и довольно легкий в обращении инструмент для определения множественного коэффициента корреляции. С его же помощью можно производить расчет и обычной корреляции между двумя факторами.
Экономические данные представляют собой количественные характеристики каких-либо экономических объектов или процессов. Они формируются под действием множества факторов, не все из которых доступны внешнему контролю. Неконтролируемые факторы могут принимать случайные значения из некоторого множества значений и тем самым обусловливать случайность данных, которые они определяют. Одной из основных задач в экономических исследованиях является анализ зависимостей между переменными.
Рассматривая зависимости между признаками, необходимо выделить прежде всего два типа связей:
- функциональные — характеризуются полным соответствием между изменением факторного признака и изменением результативной величины: каждому значению признака-фактора соответствуют вполне определенные значения результативного признака. Этот тип связи выражается в виде формульной зависимости. Функциональная зависимость может связывать результативный признак с одним или несколькими факторными признаками. Так, величина заработной платы при повременной оплате труда зависит от количества отработанных часов;
- корреляционные — между изменением двух признаков нет полного соответствия, воздействие отдельных факторов проявляется лишь в среднем, при массовом наблюдении фактических данных. Одновременное воздействие на изучаемый признак большого количества разнообразных факторов приводит к тому, что одному и тому же значению признака-фактора соответствует целое распределение значений результативного признака, поскольку в каждом конкретном случае прочие факторные признаки могут изменять силу и направленность своего воздействия.
Следует иметь в виду, что при наличии функциональной зависимости между признаками можно, зная величину факторного признака, точно определить величину результативного признака. При наличии же корреляционной зависимости устанавливается лишь тенденция изменения результативного признака при изменении величины факторного признака.
Изучая взаимосвязи между признаками, их классифицируют по направлению, форме, числу факторов:
- по направлению связи делятся на прямые и обратные. При прямой связи направление изменения результативного признака совпадает с направлением изменения признака-фактора. При обратной связи направление изменения результативного признака противоположно направлению изменения признака- фактора. Например, чем выше квалификация рабочего, тем выше уровень производительности его труда (прямая связь). Чем выше производительность труда, тем ниже себестоимость единицы продукции (обратная связь);
- по форме (виду функции) связи делят на линейные (прямолинейные) и нелинейные (криволинейные). Линейная связь отображается прямой линией, нелинейная — кривой (парабол ой, гиперболой и т.п.). При линейной связи с возрастанием значения факторного признака происходит равномерное возрастание (убывание) значения результативного признака;
- по количеству факторов, действующих на результативный признак, связи подразделяют на однофакторные (парные) и многофакторные.
Изучение зависимости вариации признака от окружающих условий и составляет содержание теории корреляции .
При проведении корреляционного анализа вся совокупность данных рассматривается как множество переменных (факторов), каждая из которых содержит п наблюдений.
При изучении взаимосвязи между двумя факторами их, как правило, обозначают Х= (х р х 2 , . ,х п) и Y= (у < , у 2 , . у и).
Ковариация — это статистическая мера взаимодействия двух переменных. Например, положительное значение ковариации доходности двух ценных бумаг показывает, что доходности этих ценных бумаг имеют тенденцию изменяться в одну сторону.
Ковариация между двумя переменными X и Y рассчитывается следующим образом:
где- фактические значения переменных
X и г;
Если случайные величины Хи Y независимы, теоретическая ковариация равна нулю.
Ковариация зависит от единиц, в которых измеряются переменные Хи У, она является ненормированной величиной. Поэтому для измерения силы связи между двумя переменными используется другая статистическая характеристика, называемая коэффициентом корреляции.
Для двух переменных X и Y коэффициент парной корреляции
определяется следующим образом:
Дисперсия (оценка дисперсии) определяется по формуле
В общем случае для получения несмещенной оценки дисперсии сумму квадратов следует делить на число степеней свободы оценки (п-р), где п — объем выборки, р — число наложенных на выборку связей. Так как выборка уже использовалась один раз для определения среднего X, то число наложенных связей в данном случае равно единице (р = 1), а число степеней свободы оценки (т.е. число независимых элементов выборки) равно (п — 1).
Более естественно измерять степень разброса значений переменных в тех же единицах, в которых измеряется и сама переменная. Эту задачу решает показатель, называемый среднеквадратическим отклонением (стандартным отклонением ) или стандартной ошибкой переменной X (переменной Y) и определяемый соотношением
Слагаемые в числителе формулы (3.2.1) выражают взаимодействие двух переменных и определяют знак корреляции (положительная или отрицательная). Если, например, между переменными существует сильная положительная взаимосвязь (увеличение одной переменной при увеличении второй), каждое слагаемое будет положительным числом. Аналогично, если между переменными существует сильная отрицательная взаимосвязь, все слагаемые в числителе будут отрицательными числами, что в результате дает отрицательное значение корреляции.
Знаменатель выражения для коэффициента парной корреляции [см. формулу (3.2.2)] просто нормирует числитель таким образом, что коэффициент корреляции оказывается легко интерпретируемым числом, не имеющим размерности, и принимает значения от -1 до +1.
Числитель выражения для коэффициента корреляции, который трудно интерпретировать из-за необычных единиц измерения, есть ковариация ХиУ. Несмотря на то что иногда она используется как самостоятельная характеристика (например, в теории финансов для описания совместного изменения курсов акций на двух биржах), удобнее пользоваться коэффициентом корреляции. Корреляция и ковариация представляют, по сути, одну и ту же информацию, однако корреляция представляет эту информацию в более удобной форме.
Для качественной оценки коэффициента корреляции применяются различные шкалы, наиболее часто — шкала Чеддока. В зависимости от значения коэффициента корреляции связь может иметь одну из оценок:
- 0,1-0,3 — слабая;
- 0,3-0,5 — заметная;
- 0,5-0,7 — умеренная;
- 0,7-0,9 — высокая;
- 0,9-1,0 — весьма высокая.
Оценка степени тесноты связи с помощью коэффициента корреляции проводится, как правило, на основе более или менее ограниченной информации об изучаемом явлении. В связи с этим возникает необходимость оценки существенности линейного коэффициента корреляции, дающая возможность распространить выводы по результатам выборки на генеральную совокупность.
Оценка значимости коэффициента корреляции при малых объемах выборки выполняется с использованием 7-критерия Стьюдента. При этом фактическое (наблюдаемое) значение этого критерия определяется по формуле
Вычисленное по этой формуле значение / набл сравнивается с критическим значением 7-критерия, которое берется из таблицы значений /-критерия Стьюдента (см. Приложение 2) с учетом заданного уровня значимости ос и числа степеней свободы (п — 2).
Если 7 набл > 7 табл, то полученное значение коэффициента корреляции признается значимым (т.е. нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается). И таким образом делается вывод, что между исследуемыми переменными есть тесная статистическая взаимосвязь.
Если значение г у х близко к нулю, связь между переменными слабая. Если корреляция между случайными величинами:
- положительная, то при возрастании одной случайной величины другая имеет тенденцию в среднем возрастать;
- отрицательная, то при возрастании одной случайной величины другая имеет тенденцию в среднем убывать. Удобным графическим средством анализа парных данных является диаграмма рассеяния , которая представляет каждое наблюдение в пространстве двух измерений, соответствующих двум факторам. Диаграмму рассеяния, на которой изображается совокупность значений двух признаков, называют еще корреляционным полем. Каждая точка этой диаграммы имеет координаты х (. и у г По мере того как возрастает сила линейной связи, точки на графике будут лежать более близко к прямой линии, а величина г будет ближе к единице.
Коэффициенты парной корреляции используются для измерения силы линейных связей различных пар признаков из их множества. Для множества признаков получают матрицу коэффициентов парной корреляции.
Пусть вся совокупность данных состоит из переменной Y = = (у р у 2 , . у п) и т переменных (факторов) X, каждая из которых содержит п наблюдений. Значения переменных Y и X, содержащиеся в наблюдаемой совокупности, записываются в таблицу (табл. 3.2.1).
Таблица 3.2.1
На основании данных, содержащихся в этой таблице, вычисляют матрицу коэффициентов парной корреляции R, она симметрична относительно главной диагонали:
Анализ матрицы коэффициентов парной корреляции используют при построении моделей множественной регрессии.
Одной корреляционной матрицей нельзя полностью описать зависимости между величинами. В связи с этим в многомерном корреляционном анализе рассматривается две задачи:
- 1. Определение тесноты связи одной случайной величины с совокупностью остальных величин, включенных в анализ.
- 2. Определение тесноты связи между двумя величинами при фиксировании или исключении влияния остальных величин.
Эти задачи решаются соответственно с помощью коэффициентов множественной и частной корреляции.
Решение первой задачи (определение тесноты связи одной случайной величины с совокупностью остальных величин, включенных в анализ) осуществляется с помощью выборочного коэффициента множественной корреляции по формуле
где R — R [см. формулу (3.2.6)]; Rjj — алгебраическое дополнение элемента той же матрицы R.
Квадрат коэффициента множественной корреляции Щ j 2 j _j J+l m принято называть выборочным множественным коэффициентом детерминации ; он показывает, какую долю вариации (случайного разброса) исследуемой величины Xj объясняет вариация остальных случайных величин Х < , Х 2 . Х т.
Коэффициенты множественной корреляции и детерминации являются величинами положительными, принимающими значения в интервале от 0 до 1. При приближении коэффициента R 2 к единице можно сделать вывод о тесноте взаимосвязи случайных величин, но не о ее направлении. Коэффициент множественной корреляции может только увеличиваться, если в модель включать дополнительные переменные, и не увеличится, если исключать какие-либо из имеющихся признаков.
Проверка значимости коэффициента детерминации осуществляется путем сравнения расчетного значения /’-критерия Фишера
с табличным F raбл. Табличное значение критерия (см. Приложение 1) определяется заданным уровнем значимости а и степенями свободы v l = mnv 2 = n-m-l. Коэффициент R 2 значимо отличается от нуля, если выполняется неравенство
Если рассматриваемые случайные величины коррелируют друг с другом, то на величине коэффициента парной корреляции частично сказывается влияние других величин. В связи с этим возникает необходимость исследования частной корреляции между величинами при исключении влияния других случайных величин (одной или нескольких).
Выборочный частный коэффициент корреляции определяется по формуле
где R Jk , Rjj, R kk — алгебраические дополнения к соответствующим элементам матрицы R [см. формулу (3.2.6)].
Частный коэффициент корреляции, также как и парный коэффициент корреляции, изменяется от -1 до +1.
Выражение (3.2.9) при условии т = 3 будет иметь вид
Пример 3.2.1. Вычисление коэффициентов парной,
множественной и частной корреляции.
В табл. 3.2.2 представлена информация об объемах продаж и затратах на рекламу одной фирмы, а также индекс потребительских расходов за ряд текущих лет.
- 1. Построить диаграмму рассеяния (корреляционное поле) для переменных «объем продаж» и «индекс потребительских расходов».
- 2. Определить степень влияния индекса потребительских расходов на объем продаж (вычислить коэффициент парной корреляции).
- 3. Оценить значимость вычисленного коэффициента парной корреляции.
- 4. Построить матрицу коэффициентов парной корреляции по трем переменным.
- 5. Найти оценку множественного коэффициента корреляции.
- 6. Найти оценки коэффициентов частной корреляции.
1. В нашем примере диаграмма рассеяния имеет вид, приведенный на рис. 3.2.1. Вытянутость облака точек на диаграмме рассеяния вдоль наклонной прямой позволяет сделать предположение, что существует некоторая объективная тенденция прямой линейной связи между значениями переменных Х 2 Y (объем продаж).
2. Промежуточные расчеты при вычислении коэффициента корреляции между переменными Х 2 (индекс потребительских расходов) и Y (объем продаж) приведены в табл. 3.2.3.
Средние значения случайных величин Х 2 и Y, которые являются наиболее простыми показателями, характеризующими последовательности jCj, х 2 , . х 16 и y v y 2 , . у 16 , рассчитаем по следующим формулам:
Инвестиционный анализ. Расчет корреляционной матрицы в Excel
В данной статье рассматривается практическая задача для любого инвестора – это расчет корреляционной матрицы. Инвесторы, рассчитывая свой портфель активов, акций, облигаций и других финансовых инструментов должны уметь рассчитывать корреляционную матрицу.
Задача любого инвестора – снизить риски вложения, для этого используется различные виды диверсификации (распределения) средств по различным направлениям. Диверсифицированный портфель содержит некоррелированные активы, другими словами, активы которые имеют различную динамику изменения стоимости (цены). Например, если цена одного актива растет, то другого изменяется независимо от первого. Для описания силы связи между активами инвесторы и аналитики используют коэффициент корреляция, который также называет коэффициентом корреляции Пирсона. Он изменяется в диапазоне от -1 до 1.
Если коэффициент корреляции между двумя активами равен 1, то их стоимость изменяется в тандеме (параллельно).
Если коэффициент корреляции равен 0, то цены активов изменяются независимо друг от друга.
Если коэффициент корреляции равен -1, то цены активов сильно зависимы друг от друга и изменяются в противоположных направлениях. Например, если один из активов растет, то другой с таким же темпом обесценивается.
Инвестору приходится анализировать множество различных активов при включении их в свой портфель и ему пригодится корреляционная матрица, которая позволяет сразу сравнить силу взаимосвязи между акциями, облигациями, золотом, недвижимость, фьючерсами, валютой и другими финансовыми инструментами. Формула расчета корреляционной матрицы представлена ниже, где i,j – индексы сравниваемых активов портфеля:
Наиболее распространено использование корреляционной матрицы на фондовом рынке при составлении инвестиционных портфелей Марковица-Тобина и их модификаций, и показывает как диверсифицированы активы портфеля.
Инвесторы советуют, что для минимизации рисков активы портфеля должны быть минимально коррелированны между собой.
Сложности использования коэффициента корреляции в инвестиционном анализе
Финансовые аналитики часто не соглашаются, что корреляция вообще может быть оценена и рассчитана. Выделяют основные недостатки:
- Корреляционную матрицу и коэффициенты можно рассчитать только тогда когда между активами наблюдаются линейные зависимости, на практике такое встречается крайне редко.
- При значении коэффициента корреляции равного 0 означает, что отношения и связи отсутствует на исследуемом промежутке времени, но говорит о полном отсутствии связи в будущем между активами нельзя.
- Коэффициент корреляции неустойчив и изменяется со временем. Например, нефть имеет устойчивую долгосрочную корреляцию с золотом, но в краткосрочном периоде корреляция может сильно изменятся.
Расчет корреляционной матрицы в Excel
Заполняет колонки с изменением стоимости актива. Данные по котировкам можно получить на сайте finam.ru в разделе экспорт котировок. Данные котировки были получены с сайта finance.yahoo.com по иностранным акциям.
Далее необходимо выбрать в главном меню Excel раздел «Данные» и надстройку «Анализ данных» (если она не подключена, то следует ее подключить) – «Корреляция»
Далее необходимо в Excel выбрать входной интервал котировок (зеленая область + названия активов). Отметить галочку метки в первой строке. Выбрать выходной интервал как ячейку и нажать Oк.
Итоговый результат расчета корреляционной матрицы представлен на рисунке ниже. Можно выделить низкий коэффициент корреляции между активами TBILL и всеми остальными (стремится к 0), также между USX и GMC составляет 0.2. Это показывает высокую степень диверсификации данных активов в портфеле. Но активы ATT и GMC имеют достаточно высокую зависимость 0.5, это требует пересмотра данных активов в инвестиционном портфеле.
Что такое коэффициент корреляции и как его использовать в Excel
Коэффициент корреляции показывает наличие или отсутствие зависимости между различными факторами, выраженными в числовой форме. Этот показатель может принимать значения от -1 до +1. Чем ближе число по модулю к единице, тем сильнее зависимость. При значении коэффициента равном 0 зависимость между двумя величинами отсутствует.
Выявив корреляционную зависимость, можно прогнозировать поведение одного из показателей, проанализировав поведение другого.
Вычисление коэффициента посредством мастера функций
Предположим, что требуется установить связь между затратами на рекламу и объемом продаж какой-либо продукции. Для этого будем использовать коэффициент корреляции в Excel.
- Кликнуть по ячейке, в которой должен появиться результат.
- Нажать кнопку «Вставить формулу».
- В появившемся окне выбрать категорию «Полный алфавитный перечень».
- Найти и активировать функцию «КОРРЕЛ».
- Кликнуть «ОК».
- В открывшемся окне аргументов поставить курсор в поле «Массив 1», выделить первый столбец с данными.
- Поставить курсор в поле «Массив 2», выделить второй столбец из таблицы.
- Кликнуть «ОК».
В выделенной ячейке появляется результат вычислений корреляции в Excel.
Расчёт с помощью пакета анализа
Прежде чем воспользоваться инструментом корреляционного анализа, его нужно активировать. Для этого необходимо выполнить следующие действия:
- Выполнить действия «Файл» — «Сведения» — «Параметры».
- В появившемся окне перейти в раздел «Надстройки». В нижней части окна в выпадающем списке выбрать «НадстройкиExcel». Нажать кнопку «Перейти».
- В открывшемся окне «Надстройки» следует отметить пункт «Пакет анализа» и нажать «ОК»
Чтобы воспользоваться пакетом, следует:
- На панели задач активировать вкладку «Данные».
- Нажать кнопку «Анализ данных».
- В новом окне выделить строку «Корреляция» и нажать «ОК». Появится окно с параметрами.
- Для выбора входного интервала необходимо установить курсор в соответствующее поле и выделить сразу оба столбца.
- Параметр группировки следует отметить «по столбцам». Вывод результатов возможен в указанное место, на новый лист или в новую книгу.
- Следует отметить соответствующее поле.
После указание всех параметров следует нажать «ОК».
Значение получилось тем же, что и в первом случае.
Поле корреляции (диаграмма рассеяния)
Корреляционное поле — это графическое отображение исходных данных. По расположению точек можно определить наличие зависимости и ее характер.
В редакторе Excel построение выполняется с помощью инструмента «Диаграмма»:
- Выделить столбцы с данными.
- Кликнуть «Вставка» — «Точечная» — «Точечная с маркерами».
Результат построения корреляционной матрицы.
По расположению точек на диаграмме можно сделать вывод о том, что прослеживается сильная положительная корреляционная зависимость между величиной затрат на маркетинг и объемом продаж.
Для того, чтобы использовать диаграмму в практических целях, можно добавить линию тренда и уравнение. Для этого нужно выполнить следующие действия:
- Кликнуть правой кнопкой мыши на любой точке диаграммы.
- В контекстном меню выбрать «добавить линию тренда».
- Настроить параметры линии тренда (можно оставить по умолчанию).
- Нажать кнопку «закрыть».
Примеры использование корреляционного анализа
Как уже отмечалось выше, вычислить соотношение можно между любыми числовыми величинами. Обнаруженная высокая корреляция позволяет прогнозировать протекание каких-либо процессов в научных исследованиях, бизнесе, общественной жизни.
В рассмотренном выше примере была установлена высокая положительная корреляция между затратами на рекламу и объемом продаж определенного вида продукции. Кроме того, была определена формула, связывающая эти два показателя. Это исследование позволяет руководителю предприятия грамотно спланировать затраты на рекламу, с учетом необходимого размера продаж.
Другие примеры использования коэффициента корреляции:
- зависимость средней заработной платы от величины областного бюджета;
- связь между числом репостов в социальных сетях и количеством просмотров видео на YouTube;
- связь коэффициента интеллекта и длины прыжка с места.
Редактор электронных таблиц Microsoft Excel является удобным инструментом для вычисления и наглядного представления результатов вычисления коэффициента корреляции.