Критические значения критерия колмогорова. SPSS в психологии и социальных науках

Вопрос 3

λ - критерий Колмогорова-Смирнова

Назначение критерия

Критерий λ предназначен для сопоставления двух распределений:

а) эмпирического с теоретическим , например, равномерным или нормальным;

б) одного эмпирического распределения с другим эмпирическим распределением.

Критерий позволяет найти точку, в которой сумма накопленных расхождений между двумя распределениями является наибольшей, и оценить достоверность этого расхождения.

Описание критерия

Если в методе χ 2 мы сопоставляли частоты двух распределений отдельно по каждому разряду, то здесь мы сопоставляем сначала часто­ты по первому разряду, потом по сумме первого и второго разрядов, потом по сумме первого, второго и третьего разрядов и т. д. Таким образом, мы сопоставляем всякий раз накопленные к данному разряду частоты.

Если различия между двумя распределениями существенны, то в какой-то момент разность накопленных частот достигнет критического значения, и мы сможем признать различия статистически достоверны­ми. В формулу критерия λ включается эта разность. Чем больше эмпи­рическое значение λ , тем более существенны различия.

Гипотезы -

Н 0: Различия между двумя распределениями недостоверны (судя по точке максимального накопленного расхождения между ними).

H 1: Различия между двумя распределениями достоверны (судя по точке максимального накопленного расхождения между ними).

Графическое представление критерия

Рассмотрим для иллюстрации распределение желтого (№4) цвета в 8-цветном тесте М. Люшера. Если бы испытуемые случайным обра­зом выбирали цвета, то желтый цвет, так же, как и все остальные, равновероятно мог бы занимать любую из 8-и позиции выбора. На практике, однако, большинство испытуемых помещают этот цвет, "цвет ожидания и надежды" на одну из первых позиций ряда.

На Рис. 4.9 столбиками представлены относительные частоты 8 попадания желтого цвета сначала на 1-ю позицию (первый левый стол­бик), затем на 1-ю и 2-ю позицию (второй столбик), затем на 1-ю, 2-ю и 3-ю позиции и т. д. Мы видим, что высота столбиков постоянно воз­растает, так как они отражают относительные частоты, накопленные к данной позиции. Например, столбик на 3-й позиции имеет высоту 0,51. Это означает, что на первые три позиции желтый цвет помещают 51% испытуемых.

8 Относительная частота, или частость, - это частота, отнесенная к общему коли­честву наблюдении; в данном случае это частота попадания желтого цвета на дан­ную позицию, отнесенная к количеству испытуемых. Например, частота попадания желтого цвета на 1-ю позицию ƒ=24; количество испытуемых n=102; относительная частота ƒ*=ƒ/n=О,235.

Прерывистой линией на Рис. 4.9 соединены точки, отражающие накопленные частоты, которые наблюдались бы, если бы желтый цвет с равной вероятностью попадал на каждую из 8-и позиций. Сплошными линиями обозначены расхождения между эмпирическими и теоретически­ми относительными частотами. Эти расхождения обозначаются как d .

Рис 4.9 . Сопоставления в критерии λ: стрелками отмечены расхождения между эмпирическими и теоретическими накоплениями относительными частотами по каждому разряду

Максимальное расхождение на Рис. 4.9 обозначено как d max Именно эта, третья позиция цвета, и является переломной точкой, опре­деляющей, достоверно ли отличается данное эмпирическое распределе­ние от равномерного. Мы проверим это при рассмотрении Примера 1.

Ограничения критерия λ

1. Критерии требует, чтобы выборка была достаточно большой. При сопоставлении двух эмпирических распределений необходимо, что­бы n 1,2 > 50. Сопоставление эмпирического распределения с теоре­тическим иногда допускается при n> 5 (Ван дер Варден Б.Л., 1960; Гублер Е.В., 1978).

2. Разряды должны быть упорядочены по нарастанию или убыванию какого-либо признака. Они обязательно должны отражать какое-то однонаправленное его изменение. Например, мы можем за разряды принять дни недели, 1-й, 2-й, 3-й месяцы после прохождения курса терапии, повышение температуры тела, усиление чувства недостаточ­ности и т. д. В то же время, если мы возьмем разряды, которые случайно оказались выстроенными в данную последовательность, то и накопление частот будет отражать лишь этот элемент случайного соседства разрядов. Например, если шесть стимульных картин в ме­тодике Хекхаузена разным испытуемым предъявляются в разном порядке, мы не вправе говорить о накоплении реакций при переходе от картины №1 стандартного набора к картине №2 и т. д. Мы не можем говорить об однонаправленном изменении признака при со­поставлении категорий "очередность рождения", "национальность", "специфика полученного образования" и т.п. Эти данные представ­ляют собой номинативные шкалы: в них нет никакого однозначного однонаправленного изменения признака.

Итак, мы не можем накапливать частоты по разрядам, которые отличаются лишь качественно и не представляют собой шкалы порядка. Во всех тех случаях, когда разряды представляют собой не упо­рядоченные по возрастанию или убыванию какого-либо признака кате­гории, нам следует применять метод χ 2 .

Пример 1: Сопоставление эмпирического распределения с теоретическим

Ввыборке здоровых лиц мужского пола, студентов технических и военно-технических вузов в возрасте от 19-ти до 22 лет, средний воз­раст 20 лет, проводился тест Люшера в 8-цветном варианте. Установ­лено, что желтый цвет предпочитается испытуемыми чаще, чем отверга­ется (Табл. 4.16). Можно ли утверждать, что распределение желтого цвета по 8-и позициям у здоровых испытуемых отличается от равно­мерного распределения?

Таблица 4.16

Эмпирические частоты попадания желтого цвета на каждую из 8 позиций (n=102)

Позиции желтого цвета

Эмпирические частоты

Сформулируем гипотезы.

H 0: Эмпирическое распределение желтого цвета по восьми позициям не отличается от равномерного распределения.

H 1: Эмпирическое распределение желтого цвета по восьми позициям отличается от равномерного распределения.

Теперь приступим к расчетам, постепенно заполняя результатами таблицу расчета критерия λ. Все операции лучше прослеживать по Табл. 4.17, тогда они будут более понятными.

Занесем в таблицу наименования (номера) разрядов и соответст­вующие им эмпирические частоты (первый столбец Табл. 4.17).

Затем рассчитаем эмпирические частости ƒ* по формуле:

ƒ* j = ƒ*/ n

где f j - частота попадания желтого цвета на данную позицию; n- общее количество наблюдений;

j - номер позиции по порядку.

Запишем результаты во второй столбец (см. Табл. 4.17).

Теперь нам нужно подсчитать накопленные эмпирические часто­сти ∑ƒ*. Для этого будем суммировать эмпирические частости ƒ*. На­пример, для 1-го разряда накопленная эмпирическая частость будет равняться эмпирической частости 1-го разряда, Eƒ* 1 =0,235 9 .

Для 2-го разряда накопленная эмпирическая частость будет пред­ставлять собой сумму эмпирических частостей 1-го и 2-го разрядов:

Eƒ* 1+2 =O,235+0,147=0,382

Для 3-го разряда накопленная эмпирическая частость будет пред­ставлять собой сумму эмпирических частостей 1-го, 2-го и 3-го разрядов:

Eƒ* 1+2+3 =0,235+0,147+0,128=0,510

Мы видим, что можно упростить задачу, суммируя накопленную эмпирическую частость предыдущего разряда с эмпирической частостью данного разряда, например, для 4-го разряда:

Eƒ* 1+2+3+4 =0,510+0,078=О,588

Запишем результаты этой работы в третий столбец.

Теперь нам необходимо сопоставить накопленные эмпирические частости с накопленными теоретическими частостями. Для 1-го разряда теоретическая частость определяется по формуле:

f * теор = 1/k

9 Все формулы приведены для дискретных признаков, которые могут быть выра­жены целыми числами, например: порядковый номер, количество испытуемых, ко­личественный состав группы и т.п.

где k - количество разрядов (в данном случае - позиций цвета).

Для рассматриваемого примера:

f * теор =1/8=0,125

Эта теоретическая частость относится ко всем 8-и разрядам. Действительно, вероятность попадания желтого (или любого другого) цвета на каждую из 8-и позиций при случайном выборе составляет 1/8, т.е. 0,125.

Накопленные теоретические частости для каждого разряда определяем суммированием.

Для 1-го разряда накопленная теоретическая частость равна теоретической частости попадания в разряд:

f * т1 =0,125

Для 2-го разряда накопленная теоретическая частость представ­ляет собой сумму теоретических частостей 1-го и 2-го разрядов:

f * т1+2 =0,125+0,125=0,250

Для 3-го разряда накопленная теоретическая частость представ­ляет собой сумму накопленной к предыдущему разряду теоретической частости с теоретической частостью данного разряда:

f * т1+2+3 =0,250+0,125=0,375

Можно определить теоретические накопленные частости и путем умножения:

S f * т j = f * теор * j

где f * теор - теоретическая частость;

j - порядковый номер разряда.

Занесем рассчитанные накопленные теоретические частости в четвертый столбец таблицы (Табл. 4.17).

Теперь нам осталось вычислить разности между эмпирическими и теоретическими накопленными частостями (столбцы 3-й и 4-й). В пя­тый столбец записываются абсолютные величины этих разностей, обо­значаемые как d .

Определим по столбцу 5, какая из абсолютных величин разности является наибольшей. Она будет называться d max . В данном случае d max =0,135.

Теперь нам нужно обратиться к Табл. X Приложения 1 для оп­ределения критических значений d max при n=102.

Таблица 4.17

Расчет критерия при сопоставлении распределения выборов желтого цвета с равномерным распределением (n=102)

Позиция желтого цвета

Эмпирическая частота

Эмпирическая частость

Накопленная эмпирическая частость

Накопленная теоретическая частость

Разность

Для данного случая, следовательно,

Очевидно, что чем больше различаются распределения, тем больше и различия в накопленных частостях. Поэтому нам не составит труда распределить зоны значимости и незначимое™ по соответствую­щей оси:

d эмп - d кр

Ответ: Но отвергается при р=0,05. Распределение желтого цве­та по восьми позициям отличается от равномерного распределения. Представим все выполненные действия в виде алгоритма

АЛГОРИТМ 14

Расчет абсолютной величины разности d между эмпирическим и равномерным распределениями

1. Занести в таблицу наименования разрядов и соответствующие им эмпирические частоты (первый столбец).

ƒ* эмп = ƒ эмп / n

где ƒ эмп - эмпирическая частота по данному разряду;

п - общее количество наблюдений.

Занести результаты во второй столбец.

f * j =∑ f * j -1 + f * j

где f * j -1

j - порядковый номер разряда;

f* j:- эмпирическая частость данного j-ro разряда.

Занести результаты в третий столбец таблицы.

f j =∑ f j -1 + f j

где =∑ f j -1 - теоретическая частость, накопленная на предыдущих разрядах;

j - порядковый номер разряда;

ƒ* т j: - теоретическая частость данного разряда. Занести результаты в третий столбец таблицы.

5.Вычислить разности между эмпирическими и теоретическими нако­пленными частостями по каждому разряду (между значениями 3-го и 4-го столбцов).

6.Записать в пятый столбец абсолютные величины полученных раз­ностей, без их знака. Обозначить их как d .

7. Определить по пятому столбцу наибольшую абсолютную величину разности - d max .

8. По Табл. X Приложения 1 определить или рассчитать критические значения d max для данного количества наблюдений n .

Если d max равно критическому значению d или превышает его, различия между распределениями достоверны.

Пример 2: сопоставление двух эмпирических распределений

Интересно сопоставить данные, полученные в предыдущем при­мере, с данными обследования X. Кларом 800 испытуемых (Klar H., 1974, р. 67). X. Кларом было показано, что желтый цвет является единственным цветом, распределение которого по 8 позициям не отли­чается от равномерного. Для сопоставлений им использовался метод χ 2 . Полученные им эмпирические частоты представлены в Табл. 4.18.

Таблица 4.18

Эмпирические частоты попадания желтого цвета на каждую из 8 пози­ций в исследовании X. Клара (по: Klar H., 1974) (п=800)

Разряды-позиции желтого цвета

Эмпирические частоты

Сформулируем гипотезы.

Н 0: Эмпирические распределения желтого цвета по 8 позициям в отечественной выборке и выборке X. Клара не различаются.

H 1: Эмпирические распределения желтого цвета по 8 позициям в отечественной выборке и выборке X. Клара отличаются друг от друга.

Поскольку в данном случае мы будем сопоставлять накопленные эмпирические частости по каждому разряду, теоретические частости нас не интересуют.

Все расчеты будем проводить в таблице по алгоритму 15.

АЛГОРИТМ 15

Расчет критерия λ при сопоставления двух эмпирических распределений

1.Занести в таблицу наименования разрядов и соответствующие им эмпирические частоты, полученные в распределении 1 (первый столбец) и в распределении 2 (второй столбец).

ƒ* э =ƒ э / n 1

где ƒ э

n 1 [ - количество наблюдений в выборке.

Занести эмпирические частости распределения 1 в третей столбец.

ƒ* э =ƒ э / n 2

где ƒ э - эмпирическая частота в данном разряде;

n 2 - количество наблюдений во 2-й выборке.

Занести эмпирические частости распределения 2 в четвертый столбец таблицы.

∑ƒ* j =∑ƒ* j -1 +ƒ* j

где ∑ƒ* j -1 - частость, накопленная на предыдущих разрядах;

j - порядковый номер разряда;

ƒ* j -1 - частости данного разряда.

Полученные результаты записать в пятый столбец.

7.Определить по седьмому столбцу наибольшую абсолютную величину разности

где n 1 - количество наблюдений в первой выборке;

n 2 - количество наблюдении во второй выборке.

9. По Табл. XI Приложения 1 определить, какому уровню статистической зна­чимости соответствует полученное значение λ.

Если λ эмп > 1,36, различия между распределениями достоверны.

Последовательность выборок может быть выбрана произвольно, так как расхождения между ними оцениваются по абсолютной величине разностей. В нашем случае первой будем считать отечественную выбор­ку, второй - выборку Клара.

Таблица 4.19

Расчет критерия при сопоставлении эмпирических распределений

желтого цвета в отечественной выборке (n1=102)

и выборке Клара (п2 =: 800)

Позиция желтого цвета

Эмпирические частоты

Эмпирические частости

Накоплены эмпирические частности

Разность

∑ƒ* 1 -∑ƒ* 2

∑ƒ* 1

∑ƒ* 2

Максимальная разность между накопленными эмпирическими частостями составляет 0,118 и падает на второй разряд.

В соответствии с пунктом 8 алгоритма 15 подсчитаем значение λ:

По Табл. XI Приложения 1 определяем уровень статистической
значимости полученного значения: р=0,16:

Построим для наглядности ось значимости.

На оси указаны критические значения λ соответствующие приня­тым уровням значимости: λ 0,05 =1,36, λ 0,01 =1,63.

Зона значимости простирается вправо, от 1,63 и далее, а зона незначимости – влево, от 1,36 к меньшим значениям.

λ эмп < λ кр

Ответ: Но принимается. Эмпирические распределения желтого цвета по 8 позициям в отечественной выборке и выборке X. Клара совпадают. Таким образом, распределения желтого цвета в двух выбор­ках не различаются, но в то же время они по-разному соотносятся с равномерным распределением: у Клара отличий от равномерного рас­пределения не обнаружено, а 8 отечественной выборке различия обна­ружены (р<0,05). Возможно, картину могло бы прояснить применение другого метода?

Е.В. Гублер (1978) предложил сочетать использование критерия λ с критерием φ* (угловое преобразование Фишера).

Об этих возможностях сочетания методов λ и φ* мы поговорим в следующей лекции.

.5. Алгоритм выбора критерия для сравнения распределений

Назначение критерия

Критерий предназначен для сопоставления двух распределений:

а) эмпирического с теоретическим, например, равномерным или нормальным;

б) одного эмпирического распределения с другим эмпирическим распределением.

Критерий позволяет найти точку, в которой сумма накопленных расхождений между двумя распределениями является наибольшей, и оценить достоверность этого расхождения.

Описание критерия

Если в методе мы сопоставляли частоты двух распределений отдельно по первому разряду, потом по сумме первого и второго разрядов, потом по сумме первого, второго и третьего разрядов и т.д. Таким образом, мы сопоставляем всякий раз накопленные к данному разряду частоты.

Если различия между двумя распределениями существенны, то в какой–то момент разность накопленных частот достигнет критического значения, и мы сможем признать различия статистически достоверными. В формулу критерия включается эта разность. Чем больше эмпирическое значение , тем более существенны различия.

Гипотезы

Различия между распределениями недостоверны (судя по точке максимального накопленного расхождения между ними).

: Различия между распределениями достоверны (судя по точке максимального накопленного расхождения между ними).

Для применения критерия Колмогорова–Смирнова необходимо соблюдать следующие условия:

1. Измерение может быть проведено шкале интервалов и отношений.

2. Выборки должны быть случайными и независимыми.

3. Желательно, чтобы суммарный объем двух выборок ≥ 50. С увеличением объема выборки точность критерия повышается.

4. Эмпирические данные должны допускать возможность упорядочения по возрастанию или убыванию какого-либо признака и обязательно отражать какое-то его однонаправленное изменение. В том случае, если трудно соблюсти принцип упорядоченности признака, лучше использовать критерий хи -квадрат.

Этот критерий используется для решения тех же задач, что и критерий -квадрат. Иначе говоря, с его помощью можно сра­нивать эмпирическое распределение с теоретическим или два эмпирических распределения друг с другом. Однако если при применении хи -квадрат мы сопоставляем частоты двух распределений, то в данном критерии сравниваются накопленные (кумулятивные) частоты по каждому разряду (альтернативе). При этом если разность накопленных частот в двух распределениях оказывается большой, то различия между двумя распределениями яв­ляются существенными.

Задача 8.12. Предположим, что в эксперименте психологу не­обходимо использовать шестигранный игральный кубик с цифрами на гранях от 1 до 6. Для чистоты эксперимента необходимо получить «идеальный» кубик, т.е. такой, чтобы при достаточно большом числе подбрасываний, каждая его грань выпадала бы примерно равное число раз. Задача состоит в выяснении того, будет ли данный кубик близок к идеальному?

Решение. Подбросим кубик 120 раз и сравним полученное эмпирическое распределение с теоретическим. Поскольку теоретическое распределение является равновероятным, то соответствующие теоретические частоты равны 20. Распределение эмпирических и теоретических частот представим совместно в таблице 8.15:

Для подсчета по критерию Колмогорова–Смирнова необхо­димо провести ряд преобразований с данными таблицы 8.15. Представим эти преобразования в таблице 8.16 и объясним их получение:

Символом FE в таблице 8.16 будем обозначать накопленные теоретические частоты. В таблице они получаются следующим образом: к первой теоретической частоте 20, добавляется вторая частота, также равная 20, получается число 20 + 20 = 40. Число 40 ставится на место второй частоты. Затем к числу 40 прибавляется следующая теоретическая частота, полученная величина 60 - ставится на место третьей теоретической частоты и так далее.

Символом FB в таблице 8.16 обозначаются накопленные эмпирические частоты. Для их подсчета необходимо расположить эмпирические частоты по возрастанию: 15, 18, 18, 21, 23, 25 и затем по порядку сложить. Так, вначале стоит первая частота равная 15, к ней прибавляется вторая по величине частота и полученная сумма 15 + 18 = 33 ставится на место второй частоты, затем к 33 добавляется 18 (33 + 18 = 51), полученное число 51 ставится на место третьей частоты и т.д.

Символом |FE - FB| в таблице 8.16 обозначаются абсолютные величины разности между теоретической и эмпирической частотой по каждому столбцу отдельно.

Эмпирическую величину этого критерия, которая обозначается как D эмп получают используя формулу (8.13):

Для её получения среди чисел |FE - FB| находят максимальное число (в нашем случае оно равно 9) и делят его на объем выборки п. В нашем случае п = 120, поэтому

Для этого критерия таблица с критическими значениями дана в Приложении 1 под № 13. Из таблицы 13 Приложения 1 следует, однако, что в том случае, если число элементов выборке больше 100, то величины критических значений вычисляются по формуле (8.14).

Данный критерий также позволяет оценить существенность различий между двумя выборками, в том числе возможно его применение для

Данный критерий также позволяет оценить существенность различий между двумя выборками, в том числе возможно его применение для сравнения эмпирического распределения с теоретическим.

Критерий позволяет найти точку, в которой сумма накопленных частот расхождений между двумя распределениями является наибольшей, и оценить достоверность этого расхождения. Нулевая гипотеза H 0 ={различия между двумя распределениями недостоверны (судя по точке максимального накопленного расхождения между ними)}.

Схематично алгоритм применения критерия Колмогорова-Смирнова можно представить следующим образом:

Проиллюстрируем использование критерия Колмогорова-Смирнова на примере.

При изучении творческой активности студентов были получены результаты для экспериментальных и контрольных групп (см. таблицу). Являются ли значимыми различия между контрольной и экспериментальной группами?

Уровень усвоения

Частота в экспериментальной группе

Частота в контрольной группе

Хороший

172 чел.

120 чел.

Приблизительный

36 чел.

49 чел.

Плохой

15 чел.

36 чел.

Объём выборки

n 1 =172+36+15=223

n 2 = 120+49+36=205

Вычисляем относительные частоты f , равные частному от деления частот на объём выборки, для двух имеющихся выборок.

В результате исходная таблица примет следующий вид:

Относительная частота экспериментальной группы (f эксп )

Относительная частота контрольной группы (f контр )

Модуль разности частот | f эксп – f контр |

172/223≈ 0.77

120/205≈ 0.59

0.18

36/223≈ 0.16

49/205≈ 0.24

0.08

15/223≈ 0.07

36/205≈ 0.17

Среди полученных модулей разностей относительных частот выбираем наибольший модуль, который обозначается d max . В рассматриваемом примере 0.18>0.1>0.08, поэтому d max =0.18.

Эмпирическое значение критерия λ эмп определяется с помощью формулы:

Чтобы сделать вывод о схожести по рассматриваемому критерию между двумя группами, сравним экспериментальное значение критерия с его критическим значением, определяемым по специальной таблице, исходя из уровня значимости . В качестве нулевой гипотезы примем утверждение о том, что сравниваемые группы незначительно отличаются друг от друга по уровню усвоения. При этом нулевую гипотезу следует принять в том случае, если наблюдаемое значение критерия не превосходит его критического значения.

Считая, что , по таблице определяем критическое значение критерия: λ кр (0,05)=1,36.

Таким образом, λ эмп =1,86>1,36= λ кр. Следовательно, нулевая гипотеза отвергается, и группы по рассмотренному признаку отличаются существенно.

Заметим, что объёмы рассматриваемых выборок должны быть достаточно большими: n 1 ≥50, n 2 ≥50.

​ Критерий Колмогорова-Смирнова – непараметрический критерий согласия, в классическом понимании предназначен для проверки простых гипотез о принадлежности анализируемой выборки некоторому известному закону распределения. Наиболее известно применение данного критерия для проверки исследуемых совокупностей на нормальность распределения .

1. История разработки критерия Колмогорова-Смирнова

Критерий Колмогорова-Смирнова был разработан советскими математиками Андреем Николаевичем Колмогоровым и Николаем Васильевичем Смирновым .
Колмогоров А.Н. (1903-1987) - Герой Социалистического Труда, профессор Московского государственного университета, академик АН СССР - крупнейший математик XX века, является одним из основоположников современной теории вероятности.
Смирнов Н.В. (1900-1966)- член-корреспондент АН СССР, один из создателей непараметрических методов математической статистики и теории предельных распределений порядковых статистик.

Впоследствии критерий согласия Колмогорова-Смирнова был доработан с целью применения для проверки совокупностей на нормальность распределения американским статистиком, профессором Университета Джорджа Вашингтона Хьюбертом Лиллиефорсом (Hubert Whitman Lilliefors, 1928-2008). Профессор Лиллиефорс являлся одним из пионеров применения компьютерной техники в статистических расчётах.

Хьюберт Лиллиефорс

2. Для чего используется критерий Колмогорова-Смирнова?

Данный критерий позволяет оценить существенность различий между распределениями двух выборок, в том числе возможно его применение для оценки соответствия распределения исследуемой выборки закону нормального распределения.

3. В каких случаях можно использовать критерий Колмогорова-Смирнова?

Критерий Колмогорова-Смирнова предназначен для проверки совокупностей данных, измеренных в количественной шкале .

Для большей достоверности полученных данных объемы рассматриваемых выборок должен быть достаточно большими: n ≥ 50. При размерах оцениваемой совокупности от 25 до 50 элементов, целесообразно применение поправки Большева.

4. Как рассчитать критерий Колмогорова-Смирнова?

Критерий Колмогорова-Смирнова рассчитывается при помощи специальных статистических программ. В основе лежит статистика вида:

где sup S - точная верхняя грань множества S, F n - функция распределения исследуемой совокупности, F(x) - функция нормального распределения

Выводимые значения вероятности основаны на предположении, что среднее и стандартное отклонение нормального распределения известны априори и не оцениваются из данных.

Однако на практике обычно параметры вычисляются непосредственно из данных. В этом случае критерий нормальности включает сложную гипотезу ("насколько вероятно получить D статистику данной или большей значимости, зависящей от среднего и стандартного отклонения, вычисленных из данных"), и приводятся вероятности Лиллиефорса (Lilliefors, 1967).

5. Как интерпретировать значение критерия Колмогорова-Смирнова?

Если D статистика Колмогорова-Смирнова значима, то гипотеза о том, что соответствующее распределение нормально, должна быть отвергнута.

На практике кроме критерия χ 2 часто используется критерий Колмогорова, в котором в качестве меры расхождения между теоретическим и эмпирическим распределениями рассматривают максимальное значение абсолютной величины разности между эмпирической функцией распределения и соответствующей теоретической функцией распределения

называемое статистикой критерия Колмогорова.

Задавая уровень значимости α, можно найти соответствующее критическое значение

В таблице приводятся критические значения , критерия Колмогорова для некоторых α.

Таблица 4.2.

Схема применения критерия Колмогорова

1.Строится эмпирическая функция распределения и предполагаемая теоретическая функция распределения F(x) .

2.Определяется статистика Колмогорова D – мера расхождения между теоретическим и эмпирическим распределением и вычисляется величина

3. Если вычисленное значение λ больше критического , то нулевая гипотеза Н 0 о том, что случайная величина Х имеет заданный закон распределения, отвергается.

Если , то считают, что гипотеза Н 0 не противоречит опытным данным.

Пример. С помощью критерия Колмогорова на уровне значимости α=0,05 проверить гипотезу Н 0 о том, что случайная величина Х – выработка рабочих предприятия – имеет нормальный закон распределения.

Решение . 1. Построим эмпирическую и теоретическую функции распределения.

Эмпирическую функцию распределения строят по относительным накопленным частотам.

Теоретическую функцию распределения построим согласно формуле

где

Результаты вычислений сведем в таблицу:

Таблица 4.3.