Лекция
6-7.
Корреляционный
и регрессионный анализ.

Понятие
корреляции
появилось в середине XIX века в работах
английских статистиков Ф. Гальтона и
К. Пирсона. Этот термин произошел от
латинского "correlatio"
- соотношение, взаимосвязь. Понятие
регрессии
(латинское "regressio"
- движение назад) также введено Ф.
Гальтоном, который, изучая связь между
ростом родителей и их детей, обнаружил
явление "регрессии к среднему" -
рост детей очень высоких родителей имел
тенденцию быть ближе к средней величине.

Теория
и методы корреляционного анализа
используются для выявления связи между
случайными переменными и оценки ее
тесноты. Основной задачей регрессионного
анализа является установление формы и
изучение зависимости между переменными.

В
общем случае две величины могут быть
связаны функциональной зависимостью,
либо зависимостью другого рода, называемой
статистической, либо быть независимыми.
Статистической
называется зависимость, при которой
изменение одной из величин влечет
изменение распределения другой.
Статистическая зависимость, при которой
изменение одной из величин влечет
изменение среднего значения другой,
называется корреляционной.

Между
величинами, характеризующими явления
менеджмента качества, в большинстве
случаев существуют зависимости, отличные
от функциональных зависимостей. Пусть,
например, мы рассматриваем зависимость
величины
от величины.
Невозможность выявления строгой связи
между двумя переменными объясняется
тем, что значение зависимой переменнойопределяется не только значением
переменной,
но и другими (неконтролируемыми или
неучтенными) факторами, а также тем, что
измерение значений переменных неизбежно
сопровождается некоторыми случайными
ошибками. Вследствие этого корреляционный
анализ широко используется при
установлении взаимосвязи показателей
качества и факторов влияющих на них.

Если
с увеличением
значение зависимой переменнойв среднем увеличивается, то такая
зависимость называетсяпрямой
или положительной.
Если среднее значение
при увеличенииуменьшается, имеет местоотрицательная
или
обратная корреляция.
Если с изменением
значенияв среднем не изменяются, то говорят, что
корреляция –нулевая.

Часто
при исследовании взаимосвязи между
какими-либо показателями, представляют
изучаемый объект в виде так называемого
"черного (кибернетического) ящика".
Самый простой случай – изучение связи
между одной переменной
,
которую называютфактором
(входной
переменной,
независимой
переменной),
и переменной
,
которую называютоткликом
(реакцией,
показателем, зависимой
переменной).
Ситуации соответствует рисунок 6.1.

Рис.
6.1. Исследуемая система в виде "черного
ящика" (один фактор, один отклик)

Однако
в общем случае итогом функционирования
системы является целый набор результирующих
величин
.
При этом значения откликов
определяются, с одной стороны, совокупностью
факторов
,
а, с другой стороны, набором возмущений
(случайных, неконтролируемых факторов).
Такую ситуацию иллюстрирует рисунок
6.2.

Рис.
6.2. Исследуемая система в виде "черного
ящика" (общий случай)

Основой
статистических методов корреляционный
и регрессионный анализ является один
из семи простых инструментов контроля
качества - диаграмма разброса (поле
корреляции). Этот инструмент позволяет
графически отобразить и в дальнейшем
проанализировать вид и тесноту связи
между исследуемыми факторами.

Чаще
всего двумерную диаграмму разброса
строят для выявления связей между
следующими классами показателей:

  1. характеристика
    качества и влияющий на нее фактор;

  2. две
    различных характеристики качества;

  3. два
    фактора, влияющие на одну характеристику
    качества.

Прежде
чем начать исследование стохастической
зависимости, необходимо убедится, что
массив данных характеризует наличие
только двух переменных, корреляционные
связи которых надо раскрыть. То есть
надо проанализировать собранную
информацию на предмет расслоения данных
измерения, проверить возможность
вмешательства в одну из переменных
дополнительного стратифицирующего
фактора.

Построение
поля корреляции

сводится к следующим этапам:

  1. Сбор
    не менее 25 пар данных исследуемых
    параметров в таблицу;

  2. Нахождение
    максимальных и минимальных значений
    и.
    Выбор шкалы на горизонтальной и
    вертикальной оси так, чтобы длины
    рабочих областей были примерно равны.

  3. Построение
    на отдельном листе координатной
    плоскости. Если исследуется влияние
    фактора на показатель качества, то
    фактор располагают по оси абсцисс, а
    показатель – по оси ординат; и нанесение
    собранных пар данных (в случае совпадения
    точек они либо располагаются максимально
    близко, либо обозначаются окружностями
    около первоначальной точки)

  4. На
    диаграмму наносятся все необходимые
    обозначения:

  • название
    диаграммы;

  • интервал
    времени сбора данных;

  • число
    пар данных;

  • название
    и единицы для каждой оси;

  • идентифицирующая
    информация составителя диаграммы.

Анализ
данной диаграммы начинают с формирования
общего представления распределения
совокупности исследуемых данных, затем
проводится анализ на наличие выбросов
(далеко отстоящих точек), которые, скорее
всего, связанны либо с ошибками сбора
данных, либо с изменениями условий
работы. После анализа появления таких
точек их можно исключить из диаграммы.
После этого на поле корреляции
распределение, скорее всего, будет
соответствовать одному из типовых:

Если
точки корреляционного поля образуют
эллипс, главная диагональ которого
имеет положительный угол наклона, то
имеет место положительная корреляция
(пример подобной ситуации можно видеть
на рисунке 6.3).

Рис.
6.3. Положительная корреляция

Если
точки корреляционного поля образуют
эллипс, главная диагональ которого
имеет отрицательный угол наклона, то
имеет место отрицательная корреляция
(пример изображен на рисунке 6.4).

Рис.
6.4. Отрицательная корреляция

Если
расположение точек по внешнему виду
напоминает одну из нелинейных функций,
то говорят, что наблюдается криволинейная
корреляция.

Если
же в расположении точек нет какой-либо
закономерности, то говорят, что в этом
случае наблюдается нулевая корреляция.

После
визуального анализа распределения
переходят к анализу, основанному на
расчете корреляционных параметров.
Таким образом, исследование
зависимости с помощью поля корреляции
и корреляционный анализ являются
начальными этапами регрессионного
анализа, целью которого является
установление функциональной зависимости
величины
от величин,
выраженной в виде уравнения регрессии
(регрессионной модели):.

Полный
регрессионный анализ включает следующие
этапы:

  1. Определение
    вида функции, описывающей функциональную
    связь между результативным признаком
    и факторными признаками (этап
    спецификации);

Выбор
модели регрессии может производиться
как на основе априорных исследований,
так и на основе апостериорных исследований.
Модели, в зависимости от вида функции
,
делятся на линейные модели и нелинейные
модели; а также на однофакторные модели
(парная модель регрессии) и многофакторные
модели (модель множественной регрессии).

  1. Определение
    коэффициентов регрессии (этап
    идентификации).

Параметры,
входящие в модель регрессии, находятся
с использованием методики аппроксимации
по критерию наименьших квадратов.

  1. Расчет
    теоретических значений результативного
    признака для отдельных наборов значений
    факторов;

  2. Исследование
    отклонений расчетных значений от
    эмпирических данных;

  3. Оценка
    качества полученной модели и проверка
    соответствующих статистических гипотез
    о регрессии (этап верификации).

Оценка
качества модели проводится на основе
гипотез о значимости модели в целом и
каждого ее параметра, доверительных
интервалах и анализе остатков. Анализ
остатков позволяет получить представление,
насколько хорошо подобрана сама модель
и насколько правильно выбран метод
оценки коэффициентов. Согласно общим
предположениям регрессионного анализа
остатки должны вести себя как независимые
случайные величины. Часто анализ графика
остатков может показать на наличие
тенденций или выбросов. Наличие
определенных зависимостей говорит о
неправильности выбора вида модели. В
случае с выбросами, устранение их
эффектов может производиться либо
удалением таких точек (цензурированием),
либо использованием методов, устойчивых
к грубым отклонениям.

Однофакторные
исследования

Корреляционный
анализ сводиться к нахождению различных
количественных показателей взаимосвязей.
При исследовании однофакторных
зависимостей самыми распространенными
являются:

1.
Коэффициент линейной корреляции выражает степень
тесноты линейной связи между двумя
случайными величинами и вычисляется
по выборочным данным по формуле:

Линейный
коэффициент корреляции обладает
следующими свойствами и характеристиками:

  • не
    имеет размерности, следовательно,
    сопоставим для величин различных
    порядков;

  • если
    ,
    то величины связаны линейной функциональной
    зависимостью;

  • если
    ,
    то между величинами нет линейной
    корреляционной зависимости, однако
    это не исключает существования другого
    вида корреляционной зависимости;

  • Если
    ,
    то связь – прямая корреляция, если- обратная корреляция;

  • Чем
    больше
    ,
    тем теснее зависимость. При этом связь
    сильная при;
    связь умеренная при;
    связь слабая при;
    связь практически отсутствует при;

  • Величина
    называетсякоэффициентом
    детерминации.
    Он определяет долю вариации одной из
    переменных, которая объясняется
    вариацией другой переменной.

2.
Эмпирическое корреляционное соотношение
применяется для оценки тесноты нелинейной
связи между случайными величинами и
вычисляется с использованием общей и
межгрупповой дисперсий:

Общая
дисперсия:

Межгрупповая
дисперсия:
,
где.

Для
удобства расчетов данные могут быть
представлены в виде таблицы:

После
всех дополнительных расчетов эмпирическое
корреляционное соотношение можно
рассчитать по формуле:

Эмпирическое
корреляционное соотношение обладает
следующими свойствами и характеристиками:

  • Если
    ,
    то исследуемые величины связаны
    функциональной связью, если же,
    то величины – независимы.

  • Проверка
    значимости эмпирического корреляционного
    отношения осуществляется по критерию:

;

  • если
    ,
    то связь между величинами является
    линейной.

Степень
расхождения между величинами
иможет служить
основанием для принятия гипотезы о
линейности исследуемой связи. При этом
используется критерий:

;

Парная
линейная модель регрессии.

Однофакторная
модель регрессии описывает зависимость
между одной причиной
и следствиемс
использованием линейной функции.
Для каждого отдельного наблюдения
соотношение выглядит следующим образом:,
гдеи- коэффициенты регрессии;- независимая нормально распределенная
величина-остаток с нулевым математическим
ожиданием постоянной дисперсией.

Параметры
иуравнения регрессии чаще всего оцениваются
с помощьюметода
наименьших квадратов.
Суть его состоит в том, чтобы, зная
положение точек на плоскости
,
так провести линию регрессии, чтобы
сумма квадратов отклонений этих точек
по осиот проведенной прямой была минимальной.

Математически
критерий оценки параметров линейной
парной регрессии записывается так:

Условие
существования экстремума функции –
равенство нулю частных производных:

После
раскрытия скобок и выполнения
преобразования, получим систему из двух
равнений с двумя неизвестными:

Разделив
первое уравнение на
,
получим:

Решая
систему, получим расчетные формулы для
нахождения коэффициентов уравнения
регрессии:

Качество
полученной модели характеризуется
определенными статистическими свойствами
и точностью, т.е. степенью близости к
фактическим данным. Модель считается
хорошей со статистической точки зрения,
если она адекватна и достаточно точна.
Смысл используемых терминов характеризуют
рисунки 6.6 и 6.7.


Рис.
6.5. Модель регрессии (модель адекватна,
но не точна)

Рис.
6.6. Модель регрессии (модель точна, но
не адекватна)

Для
оценки качества линейного уравнения
парной регрессии целесообразно:

  1. Проанализировать
    остаточный ряд. Модель считается
    адекватной исследуемому процессу,
    если:

  • математическое
    ожидание значений остаточного ряда
    близко или равно нулю;

  • значения
    остаточного ряда случайны;

  • значения
    остаточного ряда независимы;

  • значения
    остаточного ряда подчинены нормальному
    закону распределения.

Таким
образом, анализ адекватности модели
разбивается на несколько этапов:

1.
Равенство нулю математического ожидания
ряда остатков означает выполнение
следующего соотношения:

Однако
в случае применения метода наименьших
квадратов такая проверка является
излишней, поскольку использование
данного метода предполагает выполнение
равенства
,
откуда безусловным образом следует
равенство нулю математического ожидания
значений остаточного ряда.

2.
Проверка случайности последовательности

проводится с помощью критерия
пиков (поворотных точек).
Каждое значение ряда
сравнивается с двумя, рядом стоящими.
Точка считается поворотной, если она
либо больше и предыдущего и последующего
значения, либо меньше и предыдущего и
последующего значения.

В
случайном ряду должно выполняться
строгое неравенство:

,
где

-
число поворотных точек;

-
целая часть результата вычислений.

3.
При проверке независимости значений
определяется отсутствие в остаточном
ряду автокорреляции,
под которой понимается корреляция между
элементами одного и того же числового
ряда. Значительная автокорреляция
говорит о том, что спецификация регрессии
выполнена неправильно (неправильно
определен тип зависимости).

Наличие
автокорреляции также может быть выявлено
при помощи -критерия
Дарбина-Уотсона.
Значение критерия вычисляется по
формуле:

Эта
величина сравнивается с двумя табличными
уровнями (соответствующая таблица
приведена в приложении к лекции): нижним
значением -
и верхним значением - .
Если полученное значение
больше двух, то перед сопоставлением
его нужно преобразовать:

Если

(или )
находится в интервале от нуля до ,
то значения остаточного ряда сильно
автокоррелированы. Если значение
-критерия
попадает в интервал от
до 2, то автокорреляция отсутствует.
Если же
- однозначного вывода об отсутствии или
наличии автокорреляции сделать нельзя
и необходимо использовать другой
критерий, например, коэффициент
автокорреляции первого порядка.

4.
Соответствие остаточного ряда нормальному
распределению проще всего проверить
при помощи -критерия:

,
где

-
максимальное значение ряда остатков;

-
минимальное значение ряда остатков;

-
среднеквадратическое отклонение
значений остаточного ряда.

Если
рассчитанное значение попадает между
табулированными границами с заданным
уровнем вероятности, то гипотеза о
нормальном распределении принимается.
Соответствующая статистическая таблица
приведена в приложении к лекции.

  1. вычислить
    и оценить значимость коэффициента
    корреляции (если этого не было сделано
    на этапе выбора вида модели);

  2. проверить
    адекватность (значимость) всей модели
    регрессии;

Для
проверки значимости модели регрессии
использую критерий Фишера:

;

n
– число наблюдений. Условие значимости
модели:
.

  1. Оценить
    среднюю относительную ошибку:

В
отношении величины средней относительной
ошибки, как правило, делают следующие
выводы. Величина менее 5% свидетельствует
о хорошем уровне точности, ошибка до
15% считается приемлемой.

  1. Проверить
    значимость параметров
    имодели регрессии;

Проверка
значимости отдельных коэффициентов
регрессии связана с определением
наблюдаемых значений критерия Стьюдента
для соответствующих коэффициентов
регрессии. Нулевая гипотеза в данном
случае имеет вид: .

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

80 − 75 =