Доверительный интервал. Что это такое и как его можно использовать? Выборки и доверительные интервалы

В предыдущих подразделах мы рассмотрели вопрос об оценке неизвестного параметра а одним числом. Такая оценка называется «точечной». В ряде задач требуется не только найти для параметра а подходящее численное значение, но и оценить его точность и надежность. Требуется знать, к каким ошибкам может привести замена параметра а его точечной оценкой а и с какой степенью уверенности можно ожидать, что эти ошибки не выйдут за известные пределы?

Такого рода задачи особенно актуальны при малом числе наблюдений, когда точечная оценка а в значительной мере случайна и приближенная замена а на а может привести к серьезным ошибкам.

Чтобы дать представление о точности и надежности оценки а ,

в математической статистике пользуются так называемыми доверительными интервалами и доверительными вероятностями.

Пусть для параметра а получена из опыта несмещенная оценка а. Мы хотим оценить возможную при этом ошибку. Назначим некоторую достаточно большую вероятность р (например, р = 0,9, 0,95 или 0,99) такую, что событие с вероятностью р можно считать практически достоверным, и найдем такое значение s, для которого

Тогда диапазон практически возможных значений ошибки, возникающей при замене а на а , будет ± s; большие по абсолютной величине ошибки будут появляться только с малой вероятностью а = 1 - р. Перепишем (14.3.1) в виде:

Равенство (14.3.2) означает, что с вероятностью р неизвестное значение параметра а попадает в интервал

При этом необходимо отметить одно обстоятельство. Ранее мы неоднократно рассматривали вероятность попадания случайной величины в заданный неслучайный интервал. Здесь дело обстоит иначе: величина а не случайна, зато случаен интервал / р. Случайно его положение на оси абсцисс, определяемое его центром а ; случайна вообще и длина интервала 2s, так как величина s вычисляется, как правило, по опытным данным. Поэтому в данном случае лучше будет толковать величину р не как вероятность «попадания» точки а в интервал / р, а как вероятность того, что случайный интервал / р накроет точку а (рис. 14.3.1).

Рис. 14.3.1

Вероятность р принято называть доверительной вероятностью , а интервал / р - доверительным интервалом . Границы интервала If. а х =а- s и а 2 = а + а называются доверительными границами.

Дадим еще одно истолкование понятию доверительного интервала: его можно рассматривать как интервал значений параметра а, совместимых с опытными данными и не противоречащих им. Действительно, если условиться считать событие с вероятностью а = 1-р практически невозможным, то те значения параметра а, для которых а - а > s, нужно признать противоречащими опытным данным, а те, для которых |а - а a t na 2 .

Пусть для параметра а имеется несмещенная оценка а. Если бы нам был известен закон распределения величины а , задача нахождения доверительного интервала была бы весьма проста: достаточно было бы найти такое значение s, для которого

Затруднение состоит в том, что закон распределения оценки а зависит от закона распределения величины X и, следовательно, от его неизвестных параметров (в частности, и от самого параметра а).

Чтобы обойти это затруднение, можно применить следующий грубо приближенный прием: заменить в выражении для s неизвестные параметры их точечными оценками. При сравнительно большом числе опытов п (порядка 20...30) этот прием обычно дает удовлетворительные по точности результаты.

В качестве примера рассмотрим задачу о доверительном интервале для математического ожидания.

Пусть произведено п X, характеристики которой - математическое ожидание т и дисперсия D - неизвестны. Для этих параметров получены оценки:

Требуется построить доверительный интервал / р, соответствующий доверительной вероятности р, для математического ожидания т величины X.

При решении этой задачи воспользуемся тем, что величина т представляет собой сумму п независимых одинаково распределенных случайных величин X h и согласно центральной предельной теореме при достаточно большом п ее закон распределения близок к нормальному. На практике даже при относительно небольшом числе слагаемых (порядка 10...20) закон распределения суммы можно приближенно считать нормальным. Будем исходить из того, что величина т распределена по нормальному закону. Характеристики этого закона - математическое ожидание и дисперсия - равны соответственно т и

(см. главу 13 подраздел 13.3). Предположим, что величина D нам известна и найдем такую величину Ер, для которой

Применяя формулу (6.3.5) главы 6, выразим вероятность в левой части (14.3.5) через нормальную функцию распределения

где - среднее квадратичное отклонение оценки т.

Из уравнения

находим значение Sp:

где arg Ф* (х) - функция, обратная Ф* (х), т.е. такое значение аргумента, при котором нормальная функция распределения равна х.

Дисперсия D, через которую выражена величина а 1П, нам в точности не известна; в качестве ее ориентировочного значения можно воспользоваться оценкой D (14.3.4) и положить приближенно:

Таким образом, приближенно решена задача построения доверительного интервала, который равен:

где gp определяется формулой (14.3.7).

Чтобы избежать при вычислении s p обратного интерполирования в таблицах функции Ф* (л), удобно составить специальную таблицу (табл. 14.3.1), где приводятся значения величины

в зависимости от р. Величина (р определяет для нормального закона число средних квадратических отклонений, которое нужно отложить вправо и влево от центра рассеивания для того, чтобы вероятность попадания в полученный участок была равна р.

Через величину 7 р доверительный интервал выражается в виде:

Таблица 14.3.1

Пример 1. Проведено 20 опытов над величиной X; результаты приведены в табл. 14.3.2.

Таблица 14.3.2

Требуется найти оценку от для математического ожидания от величины X и построить доверительный интервал, соответствующий доверительной вероятности р = 0,8.

Решение. Имеем:

Выбрав за начало отсчета л: = 10, по третьей формуле (14.2.14) находим несмещенную оценку D :

По табл. 14.3,1 находим

Доверительные границы:

Доверительный интервал:

Значения параметра т, лежащие в этом интервале, являются совместимыми с опытными данными, приведенными в табл. 14.3.2.

Аналогичным способом может быть построен доверительный интервал и для дисперсии.

Пусть произведено п независимых опытов над случайной величиной X с неизвестными параметрами от и Л, и для дисперсии D получена несмещенная оценка:

Требуется приближенно построить доверительный интервал для дисперсии.

Из формулы (14.3.11) видно, что величина D представляет собой

сумму п случайных величин вида . Эти величины не являются

независимыми, так как в любую из них входит величина т, зависящая от всех остальных. Однако можно показать, что при увеличении п закон распределения их суммы тоже приближается к нормальному. Практически при п = 20...30 он уже может считаться нормальным.

Предположим, что это так, и найдем характеристики этого закона: математическое ожидание и дисперсию. Так как оценка D - несмещенная, то М[D] = D.

Вычисление дисперсии D D связано со сравнительно сложными выкладками, поэтому приведем ее выражение без вывода:

где ц 4 - четвертый центральный момент величины X.

Чтобы воспользоваться этим выражением, нужно подставить в него значения ц 4 и D (хотя бы приближенные). Вместо D можно воспользоваться его оценкой D . В принципе четвертый центральный момент тоже можно заменить его оценкой, например величиной вида:

но такая замена даст крайне невысокую точность, так как вообще при ограниченном числе опытов моменты высокого порядка определяются с большими ошибками. Однако на практике часто бывает, что вид закона распределения величины X известен заранее: неизвестны лишь его параметры. Тогда можно попытаться выразить ц 4 через D.

Возьмем наиболее часто встречающийся случай, когда величина X распределена по нормальному закону. Тогда ее четвертый центральный момент выражается через дисперсию (см. главу 6 подраздел 6.2);

и формула (14.3.12) дает или

Заменяя в (14.3.14) неизвестное D его оценкой D , получим: откуда

Момент ц 4 можно выразить через D также и в некоторых других случаях, когда распределение величины X не является нормальным, но вид его известен. Например, для закона равномерной плотности (см. главу 5) имеем:

где (а, Р) - интервал, на котором задан закон.

Следовательно,

По формуле (14.3.12) получим: откуда находим приближенно

В случаях, когда вид закона распределения величины 26 неизвестен, при ориентировочной оценке величины а /} рекомендуется все же пользоваться формулой (14.3.16), если нет специальных оснований считать, что этот закон сильно отличается от нормального (обладает заметным положительным или отрицательным эксцессом).

Если ориентировочное значение а /} тем или иным способом получено, то можно построить доверительный интервал для дисперсии аналогично тому, как мы строили его для математического ожидания:

где величина в зависимости от заданной вероятности р находится по табл. 14.3.1.

Пример 2. Найти приближенно 80%-й доверительный интервал для дисперсии случайной величины X в условиях примера 1, если известно, что величина X распределена по закону, близкому к нормальному.

Решение. Величина остается той же, что в табл. 14.3.1:

По формуле (14.3.16)

По формуле (14.3.18) находим доверительный интервал:

Соответствующий интервал значений среднего квадратичного отклонения: (0,21; 0,29).

14.4. Точные методы построения доверительных интервалов для параметров случайной величины, распределенной по нормальному закону

В предыдущем подразделе мы рассмотрели грубо приближенные методы построения доверительных интервалов для математического ожидания и дисперсии. Здесь мы дадим представление о точных методах решения той же задачи. Подчеркнем, что для точного нахождения доверительных интервалов совершенно необходимо знать заранее вид закона распределения величины X, тогда как для применения приближенных методов это не обязательно.

Идея точных методов построения доверительных интервалов сводится к следующему. Любой доверительный интервал находится из условия, выражающего вероятность выполнения некоторых неравенств, в которые входит интересующая нас оценка а. Закон распределения оценки а в общем случае зависит от неизвестных параметров величины X. Однако иногда удается перейти в неравенствах от случайной величины а к какой-либо другой функции наблюденных значений Х п Х 2 , ..., X п. закон распределения которой не зависит от неизвестных параметров, а зависит только от числа опытов и и от вида закона распределения величины X. Такого рода случайные величины играют большую роль в математической статистике; они наиболее подробно изучены для случая нормального распределения величины X.

Например, доказано, что при нормальном распределении величины X случайная величина

подчиняется так называемому закону распределения Стъюдента с п - 1 степенями свободы; плотность этого закона имеет вид

где Г (х) - известная гамма-функция:

Доказано также, что случайная величина

имеет «распределение % 2 » с п - 1 степенями свободы (см. главу 7), плотность которого выражается формулой

Не останавливаясь на выводах распределений (14.4.2) и (14.4.4), покажем, как их можно применить при построении доверительных интервалов для параметров ти D .

Пусть произведено п независимых опытов над случайной величиной X, распределенной по нормальному закону с неизвестными параметрами тиО. Для этих параметров получены оценки

Требуется построить доверительные интервалы для обоих параметров, соответствующие доверительной вероятности р.

Построим сначала доверительный интервал для математического ожидания. Естественно этот интервал взять симметричным относительно т ; обозначим s p половину длины интервала. Величину s p нужно выбрать так, чтобы выполнялось условие

Попытаемся перейти в левой части равенства (14.4.5) от случайной величины т к случайной величине Т, распределенной по закону Стьюдента. Для этого умножим обе части неравенства |m-w?|

на положительную величину: или, пользуясь обозначением (14.4.1),

Найдем такое число / р, что Величина / р найдется из условия

Из формулы (14.4.2) видно, что (1) - четная функция, поэтому (14.4.8) дает

Равенство (14.4.9) определяет величину / р в зависимости от р. Если иметь в своем распоряжении таблицу значений интеграла

то величину / р можно найти обратным интерполированием в таблице. Однако удобнее составить заранее таблицу значений / р. Такая таблица дается в приложении (табл. 5). В этой таблице приведены значения в зависимости от доверительной вероятности р и числа степеней свободы п - 1. Определив / р по табл. 5 и полагая

мы найдем половину ширины доверительного интервала / р и сам интервал

Пример 1. Произведено 5 независимых опытов над случайной величиной X, распределенной нормально с неизвестными параметрами т и о. Результаты опытов приведены в табл. 14.4.1.

Таблица 14.4.1

Найти оценку т для математического ожидания и построить для него 90%-й доверительный интервал / р (т.е. интервал, соответствующий доверительной вероятности р = 0,9).

Решение. Имеем:

По таблице 5 приложения для п - 1 = 4 и р = 0,9 находим откуда

Доверительный интервал будет

Пример 2. Для условий примера 1 подраздела 14.3, предполагая величину X распределенной нормально, найти точный доверительный интервал.

Решение. По таблице 5 приложения находим при п - 1 = 19ир =

0,8 / р =1,328; отсюда

Сравнивая с решением примера 1 подраздела 14.3 (е р = 0,072), убеждаемся, что расхождение весьма незначительно. Если сохранить точность до второго знака после запятой, то доверительные интервалы, найденные точным и приближенным методами, совпадают:

Перейдем к построению доверительного интервала для дисперсии. Рассмотрим несмещенную оценку дисперсии

и выразим случайную величину D через величину V (14.4.3), имеющую распределение х 2 (14.4.4):

Зная закон распределения величины V, можно найти интервал / (1 , в который она попадает с заданной вероятностью р.

Закон распределения k n _ x {v) величины I 7 имеет вид, изображенный на рис. 14.4.1.

Рис. 14.4.1

Возникает вопрос: как выбрать интервал / р? Если бы закон распределения величины V был симметричным (как нормальный закон или распределение Стьюдента), естественно было бы взять интервал /р симметричным относительно математического ожидания. В данном случае закон к п _ х (v) несимметричен. Условимся выбирать интервал /р так, чтобы вероятности выхода величины V за пределы интервала вправо и влево (заштрихованные площади на рис. 14.4.1) были одинаковы и равны

Чтобы построить интервал / р с таким свойством, воспользуемся табл. 4 приложения: в ней приведены числа у} такие, что

для величины V, имеющей х 2 -распределение с г степенями свободы. В нашем случае г = п - 1. Зафиксируем г = п - 1 и найдем в соответствующей строке табл. 4 два значения х 2 - одно, отвечающее вероятности другое - вероятности Обозначим эти

значения у 2 и xl ? Интервал имеет у 2 , своим левым, а у ~ правым концом.

Теперь найдем по интервалу / р искомый доверительный интервал /|, для дисперсии с границами D, и D 2 , который накрывает точку D с вероятностью р:

Построим такой интервал / (, = (?> ь А), который накрывает точку D тогда и только тогда, когда величина V попадает в интервал / р. Покажем, что интервал

удовлетворяет этому условию. Действительно, неравенства равносильны неравенствам

а эти неравенства выполняются с вероятностью р. Таким образом, доверительный интервал для дисперсии найден и выражается формулой (14.4.13).

Пример 3. Найти доверительный интервал для дисперсии в условиях примера 2 подраздела 14.3, если известно, что величинаX распределена нормально.

Решение. Имеем . По таблице 4 приложения

находим при г = п - 1 = 19

По формуле (14.4.13) находим доверительный интервал для дисперсии

Соответствующий интервал для среднего квадратичного отклонения: (0,21; 0,32). Этот интервал лишь незначительно превосходит полученный в примере 2 подраздела 14.3 приближенным методом интервал (0,21; 0,29).

  • На рисунке 14.3.1 рассматривается доверительный интервал, симметричный относительно а. Вообще, как мы увидим дальше, это необязательно.

Доверительный интервал для математического ожидания - это такой вычисленный по данным интервал, который с известной вероятностью содержит математическое ожидание генеральной совокупности. Естественной оценкой для математического ожидания является среднее арифметическое её наблюденных значений. Поэтому далее в течение урока мы будем пользоваться терминами "среднее", "среднее значение". В задачах рассчёта доверительного интервала чаще всего требуется ответ типа "Доверительный интервал среднего числа [величина в конкретной задаче] находится от [меньшее значение] до [большее значение]". С помощью доверительного интервала можно оценивать не только средние значения, но и удельный вес того или иного признака генеральной совокупности. Средние значения, дисперсия, стандартное отклонение и погрешность, через которые мы будем приходить к новым определениям и формулам, разобраны на уроке Характеристики выборки и генеральной совокупности .

Точечная и интервальная оценки среднего значения

Если среднее значение генеральной совокупности оценивается числом (точкой), то за оценку неизвестной средней величины генеральной совокупности принимается конкретное среднее, которое рассчитано по выборке наблюдений. В таком случае значение среднего выборки - случайной величины - не совпадает со средним значением генеральной совокупности. Поэтому, указывая среднее значение выборки, одновременно нужно указывать и ошибку выборки. В качестве меры ошибки выборки используется стандартная ошибка , которая выражена в тех же единицах измерения, что и среднее. Поэтому часто используется следующая запись: .

Если оценку среднего требуется связать с определённой вероятностью, то интересующий параметр генеральной совокупности нужно оценивать не одним числом, а интервалом. Доверительным интервалом называют интервал, в котором с определённой вероятностью P находится значение оцениваемого показателя генеральной совокупности. Доверительный интервал, в котором с вероятностью P = 1 - α находится случайная величина , рассчитывается следующим образом:

,

α = 1 - P , которое можно найти в приложении к практически любой книге по статистике.

На практике среднее значение генеральной совокупности и дисперсия не известны, поэтому дисперсия генеральной совокупности заменяется дисперсией выборки , а среднее генеральной совокупности - средним значением выборки . Таким образом, доверительный интервал в большинстве случаев рассчитывается так:

.

Формулу доверительного интервала можно использовать для оценки среднего генеральной совокупности, если

  • известно стандартное отклонение генеральной совокупности;
  • или стандартное отклонение генеральной совокупности не известно, но объём выборки - больше 30.

Среднее значение выборки является несмещённой оценкой среднего генеральной совокупности . В свою очередь, дисперсия выборки не является несмещённой оценкой дисперсии генеральной совокупности . Для получения несмещённой оценки дисперсии генеральной совокупности в формуле дисперсии выборки объём выборки n следует заменить на n -1.

Пример 1. Собрана информация из 100 случайно выбранных кафе в некотором городе о том, что среднее число работников в них составляет 10,5 со стандартным отклонением 4,6. Определить доверительный интервал 95% числа работников кафе.

где - критическое значение стандартного нормального распределения для уровня значимости α = 0,05 .

Таким образом, доверительный интервал 95% среднего числа работников кафе составил от 9,6 до 11,4.

Пример 2. Для случайной выборки из генеральной совокупности из 64 наблюдений вычислены следующие суммарные величины:

сумма значений в наблюдениях ,

сумма квадратов отклонения значений от среднего .

Вычислить доверительный интервал 95 % для математического ожидания.

вычислим стандартное отклонение:

,

вычислим среднее значение:

.

Подставляем значения в выражение для доверительного интервала:

где - критическое значение стандартного нормального распределения для уровня значимости α = 0,05 .

Получаем:

Таким образом, доверительный интервал 95% для математического ожидания данной выборки составил от 7,484 до 11,266.

Пример 3. Для случайной выборки из генеральной совокупности из 100 наблюдений вычислено среднее значение 15,2 и стандартное отклонение 3,2. Вычислить доверительный интервал 95 % для математического ожидания, затем доверительный интервал 99 %. Если мощность выборки и её вариация остаются неизменными, а увеличивается доверительный коэффициент, то доверительный интервал сузится или расширится?

Подставляем данные значения в выражение для доверительного интервала:

где - критическое значение стандартного нормального распределения для уровня значимости α = 0,05 .

Получаем:

.

Таким образом, доверительный интервал 95% для среднего данной выборки составил от 14,57 до 15,82.

Вновь подставляем данные значения в выражение для доверительного интервала:

где - критическое значение стандартного нормального распределения для уровня значимости α = 0,01 .

Получаем:

.

Таким образом, доверительный интервал 99% для среднего данной выборки составил от 14,37 до 16,02.

Как видим, при увеличении доверительного коэффициента увеличивается также критическое значение стандартного нормального распределения, а, следовательно, начальная и конечная точки интервала расположены дальше от среднего, и, таким образом, доверительный интервал для математического ожидания увеличивается.

Точечная и интервальная оценки удельного веса

Удельный вес некоторого признака выборки можно интерпретировать как точечную оценку удельного веса p этого же признака в генеральной совокупности. Если же эту величину нужно связать с вероятностью, то следует рассчитать доверительный интервал удельного веса p признака в генеральной совокупности с вероятностью P = 1 - α :

.

Пример 4. В некотором городе два кандидата A и B претендуют на пост мэра. Случайным образом были опрошены 200 жителей города, из которых 46% ответили, что будут голосовать за кандидата A , 26% - за кандидата B и 28% не знают, за кого будут голосовать. Определить доверительный интервал 95% для удельного веса жителей города, поддерживающих кандидата A .

Доверительный интервал (ДИ; в англ, confidence interval - CI) полученный в исследовании при выборке даёт меру точности (или неопределённости) результатов исследования, для того чтобы делать выводы о популяции всех таких пациентов (генеральная совокупность). Правильное определение 95% ДИ можно сформулировать так: 95% таких интервалов будет содержать истинную величину в популяции. Несколько менее точна такая интерпретация: ДИ - диапазон величин, в пределах которого можно на 95% быть уверенным в том, что он содержит истинную величину. При использовании ДИ акцент делается на определении количественного эффекта, в противоположность величине Р, которая получается в результате проверки статистической значимости. Величина Р не оценивает никакого количества, а служит скорее мерой силы свидетельства против нулевой гипотезы «никакого эффекта». Величина Р сама по себе не говорит нам ничего ни о величине различия, ни даже о его направлении. Поэтому самостоятельные величины Р абсолютно неинформативны в статьях или рефератах. В отличие от них ДИ указывает и на количество эффекта, представляющего непосредственный интерес, например на полезность лечения, и на силу доказательств. Поэтому ДИ непосредственно имеет отношение к практике ДМ.

Подход оценки к статистическому анализу, иллюстрируемый ДИ, направлен на измерение количества интересующего нас эффекта (чувствительность диагностического теста, частота прогнозируемых случаев, сокращение относительного риска при лечении и т.д.), а также на измерение неопределённости в этом эффекте. Чаще всего ДИ - диапазон величин по обе стороны оценки, в котором, вероятно, лежит истинная величина, и можно быть уверенным в этом на 95%. Соглашение использовать 95% вероятность произвольно, также как и величину Р <0,05 для оценки статистической значимости, и авторы иногда используют 90% или 99% ДИ. Заметим, что слово «интервал» означает диапазон величин и поэтому стоит в единственном числе. Две величины, которые ограничивают интервал, называются «доверительными пределами».

ДИ основан на идее, что то же самое исследование, выполненное на других выборках пациентов, не привело бы к идентичным результатам, но что их результаты будут распределены вокруг истинной, однако неизвестной величины. Иными словами, ДИ описывает это как «вариабельность, зависящую от выборки». ДИ не отражает дополнительную неопределённости, обусловленную другими причинами; в частности, он не включает влияние селективной потери пациентов при отслеживании, плохого комплайнса или неточного измерения исхода, отсутствия «ослепления» и т.д. ДИ, таким образом, всегда недооценивает общее количество неопределённости.

Вычисление доверительного интервала

Таблица А1.1. Стандартные ошибки и доверительные интервалы для некоторых клинических измерений

Обычно ДИ вычисляют из наблюдаемой оценки количественного показателя, такого, как различие (d) между двумя пропорциями, и стандартной ошибки (SE) в оценке этого различия. Приблизительный 95% ДИ, получаемый таким образом, - d ± 1,96 SE. Формула изменяется согласно природе меры исхода и охвату ДИ. Например, в рандомизированном плацебо-контролируемом испытании бесклеточной коклюшной вакцины коклюш развивался у 72 из 1670 (4,3%) младенцев, получивших вакцину, и у 240 из 1665 (14,4%) в группе контроля. Различие в процентах, известное как абсолютное снижение риска, составляет 10,1%. SE этого различия равна 0,99%. Соответственно 95% ДИ составляет 10,1% + 1,96 х 0,99%, т.е. от 8,2 до 12,0.

Несмотря на разные философские подходы, ДИ и тесты на статистическую значимость тесно связаны математически.

Таким образом, величина Р «значимая», т.е. Р <0,05 соответствует 95% ДИ, который исключает величину эффекта, указывающую на отсутствие различия. Например, для различия между двумя средними пропорциями это ноль, а для относительного риска или отношения шансов - единица. При некоторых обстоятельствах эти два подхода могут быть не совсем эквивалентны. Преобладающая точка зрения: оценка с помощью ДИ - предпочтительный подход к суммированию результатов исследования, но ДИ и величина Р взаимодополняющи, и во многих статьях используются оба способа представления результатов.

Неопределенность (неточность) оценки, выражаемая в ДИ, в большой степени связана с квадратным корнем из размера выборки. Маленькие выборки предоставляют меньше информации, чем большие, и ДИ соответственно шире в меньшей выборке. Например, статья, сравнивающая характеристики трёх тестов, которые применяются для диагностики инфекции Helicobacter pylori , сообщила о чувствительности дыхательной пробы с мочевиной 95,8% (95% ДИ 75-100). В то время как число 95,8% выглядит внушительно, маленькая выборка из 24 взрослых пациентов с Я. pylori означает, что имеется значительная неопределенность в этой оценке, как показывает широкий ДИ. Действительно, нижний предел 75% намного ниже, чем оценка 95,8%. Если бы такая же чувствительность наблюдалась в выборке 240 человек, то 95% ДИ составлял бы 92,5-98,0, давая больше гарантий, что тест высокочувствителен.

В рандомизированных контролируемых испытаниях (РКИ) незначимые результаты (т.е. те, где Р >0,05) особенно подвержены неверному толкованию. ДИ особенно полезен здесь, поскольку он показывает, насколько совместимы результаты с клинически полезным истинным эффектом. Например, в РКИ, сравнивающем наложение анастомоза швом и скрепками на толстой кишке , раневая инфекция развилась у 10,9% и 13,5% пациентов соответственно (Р = 0,30). 95% ДИ для этого различия составляет 2,6% (от -2 до +8). Даже в этом исследовании, включавшем 652 пациента, остаётся вероятность, что существует умеренное различие в частоте инфекций, возникающих вследствие этих двух процедур. Чем меньше исследование, тем больше неуверенность. Сунг и соавт. выполнили РКИ, чтобы сравнить инфузию октреотида со срочной склеротерапией при остром кровотечении из варикозно-расширенных вен на 100 пациентах. В группе октреотида частота остановки кровотечения составила 84%; в группе склеротерапии - 90%, что даёт Р = 0,56. Заметим, что показатели продолжающегося кровотечения аналогичны таковым при раневой инфекции в упомянутом исследовании. В этом случае, однако, 95% ДИ для различия вмешательств равен 6% (от -7 до +19). Этот интервал весьма широк по сравнению с 5% различием, которое представляло бы клинический интерес. Ясно, что исследование не исключает значительной разницы в эффективности. Поэтому заключение авторов «инфузия октреотида и склеротерапия одинаково эффективны при лечении кровотечения из варикозно-расширенных вен» определённо невалидно. В подобных случаях, когда, как здесь, 95% ДИ для абсолютного снижения риска (АСР; absolute risk reduction - ARR, англ.) включает ноль, ДИ для ЧПЛП (NNT - number needed to treat, англ.) является довольно затруднительным для толкования. ЧПЛП и его ДИ получают из величин, обратных АСР (умножая их на 100, если эти величины даны в виде процентов). Здесь мы получаем ЧПЛП = 100: 6 = 16,6 с 95% ДИ от -14,3 до 5,3. Как видно из сноски «d» в табл. А1.1, этот ДИ включает величины ЧПЛП от 5,3 до бесконечности и ЧПЛВ от 14,3 до бесконечности.

ДИ можно построить для большинства обычно употребляемых статистических оценок или сравнений. Для РКИ он включает разность между средними пропорциями, относительными рисками, отношениями шансов и ЧПЛП. Аналогично ДИ можно получить для всех главных оценок, сделанных в исследованиях точности диагностических тестов - чувствительности, специфичности, прогностической значимости положительного результата (все они являются простыми пропорциями), и отношения правдоподобия - оценок, получаемых в метаанализах и исследованиях типа сравнения с контролем. Компьютерная программа для персональных компьютеров, которая покрывает многие из этих способов использования ДИ, доступна со вторым изданием «Statistics with Confidence». Макросы для вычисления ДИ для пропорций бесплатно доступны для Excel и статистических программ SPSS и Minitab на http://www.uwcm.ac.uk/study/medicine/epidemiology_ statistics/research/statistics/proportions, htm.

Множественные оценки эффекта лечения

В то время как построение ДИ желательно для первичных результатов исследования, они не обязательны для всех результатов. ДИ касается клинически важных сравнений. Например, при сравнении двух групп правилен тот ДИ, что построен для различия между группами, как показано выше в примерах, а не ДИ, который можно построить для оценки в каждой группе. Мало того, что бесполезно давать отдельные ДИ для оценок в каждой группе, это представление может вводить в заблуждение. Точно так же правильный подход при сравнении эффективности лечения в различных подгруппах - сравнение двух (или более) подгрупп непосредственно. Неправильно предполагать, что лечение эффективно только в одной подгруппе, если ее ДИ исключает величину, соответствующую отсутствию эффекта, а другие - нет . ДИ полезны также при сравнении результатов в нескольких подгруппах. На рис. А 1.1 показан относительный риск эклампсии у женщин с преэклампсией в подгруппах женщин из плацебо-контролируемого РКИ сульфата магния.

Рис. А1.2. Лесной график показывает результаты 11 рандомизированных клинических испытаний бычьей ротавирусной вакцины для профилактики диареи в сравнении с плацебо. При оценке относительного риска диареи использован 95% доверительный интервал. Размер чёрного квадрата пропорционален объёму информации. Кроме того, показана суммарная оценка эффективности лечения и 95% доверительного интервала (обозначается ромбом). В метаанализе использована модель случайных эффектов превышает некоторые предварительно установленные; например, это может быть размер, использованный при вычислении величины выборки. В соответствии с более строгим критерием весь диапазон ДИ должен показывать пользу, превышающую предустановленный минимум.

Мы уже обсуждали ошибку, когда отсутствие статистической значимости принимают как указание на то, что два способа лечения одинаково эффективны. Столь же важно не уравнивать статистическую значимость с клинической важностью. Клиническую важность можно предполагать, когда результат статистически значим и величина оценки эффективности лечения

Исследования могут показать, значимы ли результаты статистически и какие из них клинически важны, а какие - нет. На рис. А1.2 приведены результаты четырёх испытаний, для которых весь ДИ <1, т.е. их результаты статистически значимы при Р <0,05 , . После высказанного предположения о том, что клинически важным различием было бы сокращение риска диареи на 20% (ОР = 0,8), все эти испытания показали клинически значимую оценку сокращения риска, и лишь в исследовании Treanor весь 95% ДИ меньше этой величины. Два других РКИ показали клинически важные результаты, которые не были статистически значимыми. Обратите внимание, что в трёх испытаниях точечные оценки эффективности лечения были почти идентичны, но ширина ДИ различалась (отражает размер выборки). Таким образом, по отдельности доказательная сила этих РКИ различна.

Построим в MS EXCEL доверительный интервал для оценки среднего значения распределения в случае известного значения дисперсии.

Разумеется, выбор уровня доверия полностью зависит от решаемой задачи. Так, степень доверия авиапассажира к надежности самолета, несомненно, должна быть выше степени доверия покупателя к надежности электрической лампочки.

Формулировка задачи

Предположим, что из генеральной совокупности имеющей взята выборка размера n. Предполагается, что стандартное отклонение этого распределения известно. Необходимо на основании этой выборки оценить неизвестное среднее значение распределения (μ, ) и построить соответствующий двухсторонний доверительный интервал .

Точечная оценка

Как известно из , статистика (обозначим ее Х ср ) является несмещенной оценкой среднего этой генеральной совокупности и имеет распределение N(μ;σ 2 /n).

Примечание : Что делать, если требуется построить доверительный интервал в случае распределения, которое не является нормальным? В этом случае на помощь приходит , которая гласит, что при достаточно большом размере выборки n из распределения не являющемся нормальным , выборочное распределение статистики Х ср будет приблизительно соответствовать нормальному распределению с параметрами N(μ;σ 2 /n).

Итак, точечная оценка среднего значения распределения у нас есть – это среднее значение выборки , т.е. Х ср . Теперь займемся доверительным интервалом.

Построение доверительного интервала

Обычно, зная распределение и его параметры, мы можем вычислить вероятность того, что случайная величина примет значение из заданного нами интервала. Сейчас поступим наоборот: найдем интервал, в который случайная величина попадет с заданной вероятностью. Например, из свойств нормального распределения известно, что с вероятностью 95%, случайная величина, распределенная по нормальному закону , попадет в интервал примерно +/- 2 от среднего значения (см. статью про ). Этот интервал, послужит нам прототипом для доверительного интервала .

Теперь разберемся,знаем ли мы распределение, чтобы вычислить этот интервал? Для ответа на вопрос мы должны указать форму распределения и его параметры.

Форму распределения мы знаем – это нормальное распределение (напомним, что речь идет о выборочном распределении статистики Х ср ).

Параметр μ нам неизвестен (его как раз нужно оценить с помощью доверительного интервала ), но у нас есть его оценка Х ср, вычисленная на основе выборки, которую можно использовать.

Второй параметр – стандартное отклонение выборочного среднего будем считать известным , он равен σ/√n.

Т.к. мы не знаем μ, то будем строить интервал +/- 2 стандартных отклонения не от среднего значения , а от известной его оценки Х ср . Т.е. при расчете доверительного интервала мы НЕ будем считать, что Х ср попадет в интервал +/- 2 стандартных отклонения от μ с вероятностью 95%, а будем считать, что интервал +/- 2 стандартных отклонения от Х ср с вероятностью 95% накроет μ – среднее генеральной совокупности, из которого взята выборка . Эти два утверждения эквивалентны, но второе утверждение нам позволяет построить доверительный интервал .

Кроме того, уточним интервал: случайная величина, распределенная по нормальному закону , с вероятностью 95% попадает в интервал +/- 1,960 стандартных отклонений, а не+/- 2 стандартных отклонения . Это можно рассчитать с помощью формулы =НОРМ.СТ.ОБР((1+0,95)/2) , см. файл примера Лист Интервал .

Теперь мы можем сформулировать вероятностное утверждение, которое послужит нам для формирования доверительного интервала :
«Вероятность того, что среднее генеральной совокупности находится от среднего выборки в пределах 1,960 «стандартных отклонений выборочного среднего» , равна 95%».

Значение вероятности, упомянутое в утверждении, имеет специальное название , который связан с уровнем значимости α (альфа) простым выражением уровень доверия =1 . В нашем случае уровень значимости α=1-0,95=0,05 .

Теперь на основе этого вероятностного утверждения запишем выражение для вычисления доверительного интервала :

где Z α/2 стандартного нормального распределения (такое значение случайной величины z , что P (z >=Z α/2 )=α/2 ).

Примечание : Верхний α/2-квантиль определяет ширину доверительного интервала в стандартных отклонениях выборочного среднего. Верхний α/2-квантиль стандартного нормального распределения всегда больше 0, что очень удобно.

В нашем случае при α=0,05, верхний α/2-квантиль равен 1,960. Для других уровней значимости α (10%; 1%) верхний α/2-квантиль Z α/2 можно вычислить с помощью формулы =НОРМ.СТ.ОБР(1-α/2) или, если известен уровень доверия , =НОРМ.СТ.ОБР((1+ур.доверия)/2) .

Обычно при построении доверительных интервалов для оценки среднего используют только верхний α /2-квантиль и не используют нижний α /2-квантиль . Это возможно потому, что стандартное нормальное распределение симметрично относительно оси х (плотность его распределения симметрична относительно среднего, т.е. 0 ). Поэтому, нет нужды вычислять нижний α/2-квантиль (его называют просто α/2-квантиль ), т.к. он равен верхнему α /2-квантилю со знаком минус.

Напомним, что, не смотря на форму распределения величины х, соответствующая случайная величина Х ср распределена приблизительно нормально N(μ;σ 2 /n) (см. статью про ). Следовательно, в общем случае, вышеуказанное выражение для доверительного интервала является лишь приближенным. Если величина х распределена по нормальному закону N(μ;σ 2 /n), то выражение для доверительного интервала является точным.

Расчет доверительного интервала в MS EXCEL

Решим задачу.
Время отклика электронного компонента на входной сигнал является важной характеристикой устройства. Инженер хочет построить доверительный интервал для среднего времени отклика при уровне доверия 95%. Из предыдущего опыта инженер знает, что стандартное отклонение время отклика составляет 8 мсек. Известно, что для оценки времени отклика инженер сделал 25 измерений, среднее значение составило 78 мсек.

Решение : Инженер хочет знать время отклика электронного устройства, но он понимает, что время отклика является не фиксированной, а случайной величиной, которая имеет свое распределение. Так что, лучшее, на что он может рассчитывать, это определить параметры и форму этого распределения.

К сожалению, из условия задачи форма распределения времени отклика нам не известна (оно не обязательно должно быть нормальным ). , этого распределения также неизвестно. Известно только его стандартное отклонение σ=8. Поэтому, пока мы не можем посчитать вероятности и построить доверительный интервал .

Однако, не смотря на то, что мы не знаем распределение времени отдельного отклика , мы знаем, что согласно ЦПТ , выборочное распределение среднего времени отклика является приблизительно нормальным (будем считать, что условия ЦПТ выполняются, т.к. размер выборки достаточно велик (n=25)).

Более того, среднее этого распределения равно среднему значению распределения единичного отклика, т.е. μ. А стандартное отклонение этого распределения (σ/√n) можно вычислить по формуле =8/КОРЕНЬ(25) .

Также известно, что инженером была получена точечная оценка параметра μ равная 78 мсек (Х ср). Поэтому, теперь мы можем вычислять вероятности, т.к. нам известна форма распределения (нормальное ) и его параметры (Х ср и σ/√n).

Инженер хочет знать математическое ожидание μ распределения времени отклика. Как было сказано выше, это μ равно математическому ожиданию выборочного распределения среднего времени отклика . Если мы воспользуемся нормальным распределением N(Х ср; σ/√n), то искомое μ будет находиться в интервале +/-2*σ/√n с вероятностью примерно 95%.

Уровень значимости равен 1-0,95=0,05.

Наконец, найдем левую и правую границу доверительного интервала .
Левая граница: =78-НОРМ.СТ.ОБР(1-0,05/2)*8/КОРЕНЬ(25)= 74,864
Правая граница: =78+НОРМ.СТ.ОБР(1-0,05/2)*8/КОРЕНЬ(25)=81,136

Левая граница: =НОРМ.ОБР(0,05/2; 78; 8/КОРЕНЬ(25))
Правая граница: =НОРМ.ОБР(1-0,05/2; 78; 8/КОРЕНЬ(25))

Ответ : доверительный интервал при уровне доверия 95% и σ =8 мсек равен 78+/-3,136 мсек.

В файле примера на листе Сигма известна создана форма для расчета и построения двухстороннего доверительного интервала для произвольных выборок с заданным σ и уровнем значимости .

Функция ДОВЕРИТ.НОРМ()

Если значения выборки находятся в диапазоне B20:B79 , а уровень значимости равен 0,05; то формула MS EXCEL:
=СРЗНАЧ(B20:B79)-ДОВЕРИТ.НОРМ(0,05;σ; СЧЁТ(B20:B79))
вернет левую границу доверительного интервала .

Эту же границу можно вычислить с помощью формулы:
=СРЗНАЧ(B20:B79)-НОРМ.СТ.ОБР(1-0,05/2)*σ/КОРЕНЬ(СЧЁТ(B20:B79))

Примечание : Функция ДОВЕРИТ.НОРМ() появилась в MS EXCEL 2010. В более ранних версиях MS EXCEL использовалась функция ДОВЕРИТ() .

И др. Все они являются оценками своих теоретических аналогов, которые можно было бы получить, если бы в распоряжении была не выборка, а генеральная совокупность. Но увы, генеральная совокупность – это очень дорого и часто недоступно.

Понятие об интервальном оценивании

Любая выборочная оценка обладает некоторым разбросом, т.к. является случайной величиной, зависящей от значений в конкретной выборке. Стало быть, для более надежных статистических выводов следует знать не только точечную оценку, но и интервал, который с высокой вероятностью γ (гамма) накрывает оцениваемый показатель θ (тета).

Формально, это два таких значения (статистики) T 1 (X) и T 2 (X) , что T 1 < T 2 , для которых при заданном уровне вероятности γ выполняется условие:

Короче, с вероятностью γ или больше истинный показатель находится между точками T 1 (X) и T 2 (X) , которые называются нижней и верхней границей доверительного интервала .

Одним из условий построения доверительных интервалов является его максимальная узость, т.е. он должен быть насколько это возможно коротким. Желание вполне естественно, т.к. исследователь старается точнее локализовать нахождение искомого параметра.

Отсюда следует, что доверительный интервал должен накрывать максимальные вероятности распределения. а сама оценка быть в центре.

То бишь вероятность отклонения (истинного показателя от оценки) в большую сторону равна вероятности отклонения в меньшую сторону. Следует также отметить, что для несимметричных распределений интервал справа не равен интервалу слева.

По рисунку выше отчетливо видно, что чем больше доверительная вероятность, тем шире интервал – прямая зависимость.

Это была небольшая вводная часть в теорию интервального оценивания неизвестных параметров. Перейдем к нахождению доверительных границ для математического ожидания.

Доверительный интервал для математического ожидания

Если исходные данные распределены по , то и среднее будет нормальной величиной. Это следует из того правила, что линейная комбинация нормальных величин также имеет нормальное распределение. Следовательно, для расчета вероятностей мы могли бы использовать математический аппарат нормального закона распределения.

Однако для этого потребуется знать два параметра – матожидание и дисперсию, которые обычно не известны. Можно, конечно, вместо параметров использовать оценки (среднюю арифметическую и ), но тогда распределение средней будет не совсем нормальным, оно будет немного приплюснуто книзу. Этот факт ловко подметил гражданин Уильям Госсет из Ирландии, опубликовав свое открытие в мартовском выпуске журнала «Biometrica» за 1908 год. В целях конспирации Госсет подписался Стьюдентом. Так появилось t-распределение Стьюдента.

Однако нормальное распределение данных, использовавшееся К. Гауссом при анализе ошибок астрономических наблюдений, в земной жизни встречается крайне редко и установить это довольно сложно (для высокой точности необходимо порядка 2 тысяч наблюдений). Поэтому предположение о нормальности лучше всего отбросить и использовать методы, не зависящие от распределения исходных данных.

Возникает вопрос: каково же распределение средней арифметической, если оно рассчитано по данным неизвестного распределения? Ответ дает известная в теории вероятностей Центральная предельная теорема (ЦПТ). В математике существует несколько ее вариантов (на протяжении долгих лет формулировки уточнялись), но все они, грубо говоря, сводятся к утверждению, что сумма большого количества независимых случайных величин подчиняется нормальному закону распределения.

При расчете средней арифметической как раз используется сумма случайных величин. Отсюда получается, что среднее арифметическое имеет нормальное распределение, у которого матожидание – это матожидание исходных данных, а дисперсия – .

Умные люди умеют доказывать ЦПТ, но мы в этом убедимся с помощью эксперимента, проведенного в Excel. Смоделируем выборку из 50-ти равномерно распределенных случайных величин (с помощью функции Excel СЛУЧМЕЖДУ). Затем сделаем 1000 таких выборок и для каждой рассчитаем среднюю арифметическую. Посмотрим на их распределение.

Видно, что распределение средней близко к нормальному закону. Если объем выборок и их количество сделать еще больше, то сходство будет еще лучше.

Теперь, когда мы воочию убедились в справедливости ЦПТ, можно, используя , рассчитать доверительные интервалы для средней арифметической, которые с заданной вероятностью накрывают истинное среднее или математическое ожидание.

Для установления верхней и нижней границы требуется знать параметры нормального распределения. Как правило, их нет, поэтому используют оценки: среднюю арифметическую и выборочную дисперсию . Повторюсь, такой способ дает хорошее приближение только при больших выборках. Когда выборки малые, часто рекомендуют использовать распределение Стьюдента. Не верьте! Распределение Стьюдента для средней бывает только тогда, когда исходные данные имеют нормальное распределение, то есть почти никогда. Поэтому лучше сразу поставить минимальную планку по количеству необходимых данных и использовать асимптотически корректные методы. Говорят, достаточно 30 наблюдений. Берите 50 – не ошибетесь.

T 1,2 – нижняя и верхняя граница доверительного интервала

– выборочное среднее арифметическое

s 0 – среднее квадратичное отклонение по выборке (несмещенное)

n – размер выборки

γ – доверительная вероятность (обычно равна 0,9, 0,95 или 0,99)

c γ =Φ -1 ((1+γ)/2) – обратное значение функции стандартного нормального распределения. По-простому говоря, это количество стандартных ошибок от средней арифметической до нижней или верхней границы (указанным трем вероятностями соответствуют значения 1,64, 1,96 и 2,58).

Суть формулы в том, что берется среднее арифметическое и далее от нее откладывается некоторое количество (с γ ) стандартных ошибок (s 0 /√n ). Все известно, бери и считай.

До массового использования ПЭВМ для получения значений функции нормального распределения и обратной ей использовали . Их и сейчас используют, но эффективнее обратиться к готовым формулам Excel. Все элементы из формулы выше ( , и ) можно легко рассчитать в Excel. Но есть и готовая формула для расчета доверительного интервала – ДОВЕРИТ.НОРМ . Ее синтаксис следующий.

ДОВЕРИТ.НОРМ(альфа;стандартное_откл;размер)

альфа – уровень значимости или доверительный уровень, который в принятых выше обозначениях равен 1- γ, т.е. вероятность того, что математическое ожидание окажется за пределами доверительного интервала. При доверительной вероятности 0,95, альфа равно 0,05 и т.д.

стандартное_откл – среднее квадратичное отклонение выборочных данных. Стандартную ошибку рассчитывать не нужно, Excel сам разделит на корень из n.

размер – размер выборки (n).

Результат функции ДОВЕРИТ.НОРМ – это второе слагаемое из формулы расчета доверительного интервала, т.е. полуинтервал. Соответственно, нижняя и верхняя точка – это среднее ± полученное значение.

Таким образом, можно построить универсальный алгоритм расчета доверительных интервалов для средней арифметической, который не зависит от распределения исходных данных. Платой за универсальность является его асимптотичность, т.е. необходимость использования относительно больших выборок. Однако в век современных технологий собрать нужное количество данных обычно не представляет трудностей.

Проверка статистических гипотез с помощью доверительного интервала

{module 111}

Одной из главных задач, решаемых в статистике, является . Ее суть вкратце такова. Выдвигается предположение, например, что матожидание генеральной совокупности равно какому-то значению. Затем строится распределение выборочных средних, которые могут наблюдаться при данном матожидании. Далее смотрят, в каком месте этого условного распределения находится реальная средняя. Если она выходит за допустимые пределы, то появление такого среднего очень маловероятно, а при однократном повторении эксперимента почти невозможно, что противоречит выдвинутой гипотезе, которая успешно отклоняется. Если же среднее не выходит за критический уровень, то гипотеза не отклоняется (но и не доказывается!).

Так вот с помощью доверительных интервалов, в нашем случае для матожидания, также можно проверять некоторые гипотезы. Это очень просто сделать. Допустим, средняя арифметическая по некоторой выборке равна 100. Проверяется гипотеза о том, что матожидание равно, допустим, 90. То есть, если поставить вопрос примитивно, то он звучит так: может ли такое быть, чтобы при истинном значении средней равной 90, наблюдаемая средняя оказалась равна 100?

Для ответа на этот вопрос дополнительно потребуется информация о среднем квадратичном отклонении и размере выборки. Допустим среднеквадратичное отклонение равно 30, а количество наблюдений 64 (чтобы легко извлечь корень). Тогда стандартная ошибка средней равна 30/8 или 3,75. Для расчета 95% доверительного интервала потребуется отложить в обе стороны от средней по две стандартные ошибки (точнее, по 1,96). Доверительный интервал получится примерно 100±7,5 или от 92,5 до 107,5.

Далее рассуждения следующие. Если проверяемое значение попадает в доверительный интервал, то оно не противоречит гипотезе, т.к. укладывается в пределы случайных колебаний (с вероятностью 95%). Если проверяемая точка выходит за пределы доверительного интервала, то вероятность такого события очень маленькая, во всяком случае ниже допустимого уровня. Значит, гипотезу отклоняют, как противоречащую наблюдаемым данным. В нашем случае гипотеза о матожидании находится за пределами доверительного интервала (проверяемое значение 90 не входит в интервал 100±7,5), поэтому ее следует отклонить. Отвечая на примитивный вопрос выше, следует сказать: нет не может, во всяком случае такое случается крайне редко. Часто при этом указывают конкретную вероятность ошибочного отклонения гипотезы (p-level), а не заданный уровень, по которому строился доверительный интервал, но об этом в другой раз.

Как видим, построить доверительный интервал для среднего (или математического ожидания) несложно. Главное, уловить суть, а дальше дело пойдет. На практике в большинстве случаев используются 95% доверительный интервал, который имеет в ширину примерно две стандартные ошибки по обе стороны от средней.

На этом пока все. Всех благ!


Top