Методичка для преподавателей Тема 2 Доверительные границы к частоте Занятие №2 Вводная



Дата01.12.2019
Размер2.64 Mb.
ТипМетодичка

Биостатистика

Методичка для преподавателей

Тема 2 Доверительные границы к частоте

Занятие №2

Вводная (проговаривается преподом).

Теория вероятностей и математическая статистика изучает свойства событий. События – наборы элементарных событий, то есть значений, которые может принимать изучаемая величина. Например, «Систолическое артериальное давление равно 132 мм.рт.ст.» - это элементарное событие, а «Систолическое артериальное давление в пределах от 140 до 120 мм.рт.ст.» - это событие.

Если два события не могут происходить одновременно, то есть не имеют общих элементарных событий, принимаемых с ненулевой вероятностей, то вероятность суммы этих двух событий равна сумме вероятностей.

Вероятность того, что произойдет хоть что-то, равна единице. Как следствие – вероятность того, что что-то не произойдет, равно 1 - вероятность того, что это произойдет.

Если два события независимы, то вероятность того, что они произойдут, равно произведению их вероятностей. Почему это так, будет изучаться в курсе медицинской статистики.

Если имеется N независимых наблюдений некого события, происходящего с вероятностью P, то число успешных наблюдений n распределено биномиально B(P,N). Биномиальное распределение затабулировано в Excel, поэтому формул для его вычисления я не даю.



Среднее арифметическое биномиального распределения равно P×N, а среднеквадратичное отклонение - .

Практически же мы наблюдаем не вероятности, а частоты.

Частота PN события определяется как PN=n/N, где N – число наблюдений, а n – число успешных наблюдений, то есть тех, в которых наблюдалось интересующее нас событие.

Частоту удобно рассчитывать в Excel. Пусть, например, в группе из 18 человек 4 студентов-мужчин. Тогда доля мужчин может быть определена как:



В данном случае это дает 22,22…%.

По мере увеличения числа наблюдений наблюдаемая частота стремится к вероятности, PNP.

Проблема состоит в том, что интересует нас вероятность, а наблюдаем мы частоту, то есть вероятность+некая статистическая погрешность. Так как ждать бесконечного увеличения числа наблюдений слишком долго, то нужно выяснить, насколько велика может быть эта самая статистическая погрешность, точнее – насколько велика вероятность того, что она примет те или иные значения.

Для подобной оценки нам надо вначале решить, что мы будем считать маловероятным, а что – нет. Величина, разграничивающая маловероятные события и то, что вполне может произойти, называется уровнем значимости и обозначается как р. Обратная к ней величина Р=1-р, разграничивающая то, что почти наверняка произойдет, и то, что может и не произойти, называется доверительной вероятностью.

Определим, насколько вероятно, что подобное отклонение от популяционной частоты (в студенческом возрасте около 52% популяции – мужчины) может быть случайно. Как было отмечено, при случайном формировании группы число мужчин будет распределено биномиально.



Введем возможное количество мужчин:

Рассчитаем вероятность наличия такого числа мужчин для n=0:



Растянем ячейку с полученным результатом вниз «за хвост», получим частоты для всех вариантов:



Вероятность того, что мужчин будет 4 или меньше, равно 0,009975… Поэтому если мы возьмем уровень значимости р=0,01 или больше, то отличие фактического гендерного состава от ожидаемого будет статистически значимо.



Исследуем задачу о возможном распределении числа успешных наблюдений более аккуратно. Возьмем для начала размер группы в 30 и вероятность в 1%:

Введем возможные значения числа успехов и заголовки для вероятностей:



Рассчитаем вероятность для n=0, обратим внимание на ссылки и фиксацию ссылок:



Вероятность того, что покойников 0 или меньше, равна вероятности того, что покойников 0, так как меньше быть не может.



А вероятность того, что покойников 0 или больше, равна 1.

Формулы в колонке У те же, нужный результат получаем, растянув ячейку Е4 вниз.



При расчете значений в колонке F воспользуемся тем, что вероятность того, что будет n покойников или меньше, равна вероятности того, что будет в точности n покойников + вероятность того, что будет n-1 покойников или меньше.

При расчете колонки G воспользуемся тем, что вероятность того, что будет n покойников или больше, равна вероятности того, что будет n-1 покойников или больше минус вероятность того, что будет n-1 покойников.



В результате получим:



Значит, при р=0,01 му ожидаем, что покойников будет не более 2, а при р=0,05 – не более 1.



Построим частотную диаграмму:

Теперь увеличим летальность до 10%:



Видно, что ожидаемое число покойников – 3 – принимается с наибольшей вероятностью, равной примерно 23%, однако значение 2 принимается с частотой около 2%.



Увеличим летальность до 30%:

Если мы возьмем р=0,01, то вероятность того, что покойников 3 или менее, равна 0,0093. Кроме этого вероятность того, что покойников будет 16 или больше, равна 0,00637.

Следовательно, с вероятностью, несколько больше 0,98, число покойников должно быть в интервале от 4 до 15.

Видно, что для того, чтобы получить доверительные границы в 95%, надо слева и справа «отщипывать» по 2,5%.

По мере увеличения летальности максимум распределения смещается вправо, оно становится более широким и симметричным. Однако если брать летальность более 0,5, то распределение будет «прижиматься к правой оси» и уже левый хвост распределения будет длиннее правого.

Для примера возьмем летальность 0,8.



Мы изучили решение задачи, как по известной вероятности найти ожидаемые значения частоты. Однако на практике нам обычно нужно решение обратной задачи – как по известной частоте найти подходящий диапазон вероятностей. При этом мы должны найти такие вероятности, для которых полученная частота не является маловероятной.

Итак, возьмем уровень значимости р. Пусть получена частота n/N. Найдем вероятность Р1, для которой вероятность того, что будет n-1 или менее успехов равна р/2, и вероятность Р2, для которой вероятность того, что будет n+1 успехов или более равна р/2. Тогда ожидаемое значение вероятности будет в интервале между Р1 и Р2.

Пусть у нас в группе из 30 человек умерло 3, то есть фактическая летальность 10%. Найдем доверительные границы для летальности при р=0,05.



Возьмем для начала летальность в 20%.

Как видно, событие «2 покойника или менее» происходят с вероятностью 0,044, то есть для уровня односторонней значимости 0,025 это событие не является маловероятным.



Возьмем летальность в 30%:

Теперь это событие маловероятно, вероятность 0,002113.



Значит, искомая вероятность – где-то в интервале от 0,2 до 0,3. Поделим его пополам, возьмем летальность в 25%:

Опять маловероятное событие, значит, искомая вероятность между 0,2 и 0,25



Продолжая деление пополам, выйдем на то, что искомая вероятность около 0,22

Аналогичным образом работая с событием «4 покойника или больше», получим нижнюю доверительную границу для летальности.

Как видно, это – долгий и трудоемкий процесс.

Формул для вычисления доверительных границ нет. Точнее – есть приближенные формулы для больших групп, но на небольших группах они безбожно врут.

Поэтому я написал программу, которая рассчитывает доверительные граниы для частоты, и выложил ее на свой сайт в качестве Интернет-сервиса.

Выйдем на мой сайт 1mgmu.com. Перейдем по обведенной ссылке



Введем нужное количество в число наблюдений и успехов:



Если надо, можно поменять р.



Нажмем на кнопку «Посчитать».