Уровень значимости в статистике

Содержание
  1. Уровень статистической значимости (р)
  2. Откуда берется уровень статистической значимости «р»
  3. Что показывает уровень статистической значимости «р»
  4. Какой уровень статистической значимости лучше: 0,01 или 0,05
  5. p-значение
  6. О чём говорит p-value?
  7. Примеры про p-value
  8. 1. Определите ожидаемые в вашем эксперименте результаты
  9. 2. Определите наблюдаемые результаты вашего эксперимента
  10. 3. Определите число степеней свободы вашего эксперимента
  11. 4. Сравните ожидаемые и наблюдаемые результаты с помощью критерия хи-квадрат
  12. 5. Выберите уровень значимости
  13. 6. Используйте таблицу с данными распределения хи-квадрат, чтобы найти ваше p-значение
  14. 7. Решите, отклонить или оставить вашу нулевую гипотезу
  15. Азбука медицинской статистики. Глава II. Размер выборки, генеральная совокупность, статистическая гипотеза и p-value
  16. Важные определения
  17. Сколько ­испытуемых?
  18. Уровень значимости и уровень надежности в EXCEL
  19. Уровень надежности
  20. Уровень надежности в MS EXCEL
  21. Уровень значимости статистического критерия
  22. Оценка статистической значимости
  23. Вычисление стандартного отклонения
  24. Проверка статистических гипотез: основные понятия и примеры
  25. Статистические гипотезы: основная и альтернативная
  26. Статистические критерии для проверки гипотез
  27. Уровень значимости α, ошибки первого и второго рода
  28. Нахождение границ области принятия гипотезы

Уровень статистической значимости (р)

Уровень значимости в статистике

  • Пишу на заказ дипломные, курсовые, магистерские работы по психологии, а также рефераты и эссе; делаю контрольные, отчеты по практике и статистические расчеты.Я профессиональный психолог и автор работ по психологии с многолетним стажем. Выступаю как индивидуальный предприниматель (ИП): заключаю договор, выдаю чеки об оплате.Помогаю студентам-психологам более 12 лет (этот сайт существует с 2007). Делаю качественно и быстро. Помогу даже с очень трудными темами.Вы всегда можете узнать у меня, как идут дела с дипломной; оперативно передать пожелания руководителя; спросить то, что не понятно. Я всегда на связи.Опишите ситуацию, и я скажу стоимость написания вашей работы.

/ Статистические расчеты / Уровень статистической значимости

В таблицах результатов статистических расчётов в курсовых, дипломных и магистерских работах по психологии всегда присутствует показатель «р».

Например, в соответствии с задачами исследования были рассчитаны различия уровня осмысленности жизни у мальчиков и девочек подросткового возраста.

Среднее значениеU-критерий Манна-УитниУровень статистической значимости (p)
Мальчики (20 чел.)Девочки (5 чел.)
Цели28,935,217,50,027*
Процесс30,132,038,50,435
Результат25,229,029,50,164
Локус контроля – «Я»20,323,6230,067
Локус контроля – «Жизнь»30,433,827,50,126
Осмысленность жизни98,9111,2260,103

* – различия статистически достоверны (р0,05)

В правом столбце указано значение «р» и именно по его величине можно определить значимы различия осмысленности жизни в будущем у мальчиков и девочек или не значимы. Правило простое:

  • Если уровень статистической значимости «р» меньше либо равен 0,05, то делаем вывод, что различия значимы. В приведенной таблице различия между мальчиками и девочками значимы в отношении показателя «Цели» – осмысленность жизни в будущем. У девочек этот показатель статистически значимо выше, чем у мальчиков.
  • Если уровень статистической значимости «р» больше 0,05, то делается заключение, что различия не значимы. В приведенной таблице различия между мальчиками и девочками не значимы по всем остальным показателям, за исключением первого.

Откуда берется уровень статистической значимости «р»

Уровень статистической значимости вычисляется статистической программой вместе с расчётом статистического критерия. В этих программах можно также задать критическую границу уровня статистической значимости и соответствующие показатели будут выделяться программой.

Например, в программе STATISTICA при расчете корреляций можно установить границу «р», например, 0,05 и все статистически значимые взаимосвязи будут выделены красным цветом.

Если расчёт статистического критерия проводится вручную, то уровень значимости «р» выявляется путем сравнения значения полученного критерия с критическим значением.

Что показывает уровень статистической значимости «р»

Все статистические расчеты носят приблизительный характер. Уровень этой приблизительности и определяет «р». Уровень значимости записывается в виде десятичных дробей, например, 0,023 или 0,965.

Если умножить такое число на 100, то получим показатель р в процентах: 2,3% и 96,5%.

Эти проценты отражают вероятность ошибочности нашего предположения о взаимосвязи, например, между агрессивностью и тревожностью.

То есть, коэффициент корреляции 0,58 между агрессивностью и тревожностью получен при уровне статистической значимости 0,05 или вероятности ошибки 5%. Что это конкретно означает?

Выявленная нами корреляция означает, что в нашей выборке наблюдается такая закономерность: чем выше агрессивность, тем выше тревожность.

То есть, если мы возьмем двух подростков, и у одного тревожность будет выше, чем у другого, то, зная о положительной корреляции, мы можем утверждать, что у этого подростка и агрессивность будет выше.

Но так как в статистике все приблизительно, то, утверждая это, мы допускаем, что можем ошибиться, причем вероятность ошибки 5%. То есть, сделав 20 таких сравнений в этой группе подростков, мы можем 1 раз ошибиться с прогнозом об уровне агрессивности, зная тревожность.

Какой уровень статистической значимости лучше: 0,01 или 0,05

Уровень статистической значимости отражает вероятность ошибки. Следовательно, результат при р=0,01 более точный, чем при р=0,05.

В психологических исследованиях приняты два допустимых уровня статистической значимости результатов:

р=0,01 – высокая достоверность результата сравнительного анализа или анализа взаимосвязей;

р=0,05 – достаточная точность.

 Надеюсь, эта статья поможет вам написать работу по психологии самостоятельно. Если понадобится помощь, обращайтесь (все виды работ по психологии; статистические расчеты). Заказать

Источник: http://dip-psi.ru/uroven-statisticheskoy-znachimosti

p-значение

Уровень значимости в статистике

P-значение (англ. P-value) — величина, используемая при тестировании статистических гипотез. Фактически это вероятность ошибки при отклонении нулевой гипотезы (ошибки первого рода). Проверка гипотез с помощью P-значения является альтернативой классической процедуре проверки через критическое значение распределения.

Обычно P-значение равно вероятности того, что случайная величина с данным распределением (распределением тестовой статистики при нулевой гипотезе) примет значение, не меньшее, чем фактическое значение тестовой статистики. Википедия.

Иначе говоря, p-значение – это наименьшее значение уровня значимости (т.е. вероятности отказа от справедливой гипотезы), для которого вычисленная проверочная статистика ведет к отказу от нулевой гипотезы. Обычно p-значение сравнивают с общепринятыми стандартными уровнями значимости 0,005 или 0,01.

Например, если вычисленное по выборке значение проверочной статистики соответствует p = 0,005, это указывает на вероятность справедливости гипотезы 0,5%. Таким образом, чем p-значение меньше, тем лучше, поскольку при этом увеличивается «сила» отклонения нулевой гипотезы и увеличивается ожидаемая значимость результата.

Интересное объяснение этого есть на Хабре.

Статистический анализ начинает напоминать черный ящик: на вход подаются данные, на выход — таблица основных результатов и значение p-уровня значимости (p-value).

О чём говорит p-value?

Предположим, мы решили выяснить, существует ли взаимосвязь между пристрастием к кровавым компьютерным играм и агрессивностью в реальной жизни.

Для этого были случайным образом сформированы две группы школьников по 100 человек в каждой (1 группа — фанаты стрелялок, вторая группа — не играющие в компьютерные игры). В качестве показателя агрессивности выступает, например, число драк со сверстниками.

В нашем воображаемом исследовании оказалось, что группа школьников-игроманов действительно заметно чаще конфликтует с товарищами.

Но как нам выяснить, насколько статистически достоверны полученные различия? Может быть, мы получили наблюдаемую разницу совершенно случайно? Для ответа на эти вопросы и используется значение p-уровня значимости (p-value) — это вероятность получить такие или более выраженные различия при условии, что в генеральной совокупности никаких различий на самом деле нет. Иными словами, это вероятность получить такие или еще более сильные различия между нашими группами, при условии, что, на самом деле, компьютерные игры никак не влияют на агрессивность. Звучит не так уж и сложно. Однако, именно этот статистический показатель очень часто интерпретируется неправильно.

Примеры про p-value

Итак, мы сравнили две группы школьников между собой по уровню агрессивности при помощи стандартного t-теста (или непараметрического критерия Хи — квадрат более уместного в данной ситуации) и получили, что заветный p-уровень значимости меньше 0.05 (например 0.04).

Но о чем в действительности говорит нам полученное значение p-уровня значимости? Итак, если p-value — это вероятность получить такие или более выраженные различия при условии, что в генеральной совокупности никаких различий на самом деле нет, то какое, на ваш взгляд, верное утверждение:

1.Компьютерные игры — причина агрессивного поведения с вероятностью 96%.2. Вероятность того, что агрессивность и компьютерные игры не связаны, равна 0.04.3. Если бы мы получили p-уровень значимости больше, чем 0.05, это означало бы, что агрессивность и компьютерные игры никак не связаны между собой.4. Вероятность случайно получить такие различия равняется 0.04.

5. Все утверждения неверны.

Если вы выбрали пятый вариант, то абсолютно правы! Но, как показывают многочисленные исследования, даже люди со значительным опытом в анализе данных часто некорректно интерпретируют значение p-value.

Давайте разберём все ответы по порядку:

Первое утверждение — пример ошибки корреляции: факт значимой взаимосвязи двух переменных ничего не говорит нам о причинах и следствиях. Может быть, это более агрессивные люди предпочитают проводить время за компьютерными играми, а вовсе не компьютерные игры делают людей агрессивнее.

Это уже более интересное утверждение. Всё дело в том, что мы изначально принимаем за данное, что никаких различий на самом деле нет. И, держа это в уме как факт, рассчитываем значение p-value. Поэтому правильная интерпретация: «Если предположить, что агрессивность и компьютерные игры никак не связаны, то вероятность получить такие или еще более выраженные различия составила 0.04».

А что делать, если мы получили незначимые различия? Значит ли это, что никакой связи между исследуемыми переменными нет? Нет, это означает лишь то, что различия, может быть, и есть, но наши результаты не позволили их обнаружить.

Это напрямую связано с самим определением p-value. 0.04 — это вероятность получить такие или ещё более экстремальные различия. Оценить вероятность получить именно такие различия, как в нашем эксперименте, в принципе невозможно!

Вот такие подводные камни могут скрываться в интерпретации такого показателя, как p-value. Поэтому очень важно понимать механизмы, заложенные в основании методов анализа и расчета основных статистических показателей.

1. Определите ожидаемые в вашем эксперименте результаты

Обычно когда ученые проводят эксперимент, у них уже есть идея того, какие результаты считать «нормальными» или «типичными».

Это может быть основано на экспериментальных результатах прошлых опытов, на достоверных наборах данных, на данных из научной литературы, либо ученый может основываться на каких-либо других источниках.

Для вашего эксперимента определите ожидаемые результаты, и выразите их в виде чисел.

Пример: Например, более ранние исследования показали, что в вашей стране красные машины чаще получают штрафы за превышение скорости, чем синие машины. Например, средние результаты показывают предпочтение 2:1 красных машин перед синими. Мы хотим определить, относится ли полиция точно так же предвзято к цвету машин в вашем городе.

Для этого мы будем анализировать штрафы, выданные за превышение скорости.

Если мы возьмем случайный набор из 150 штрафов за превышение скорости, выданных либо красным, либо синим автомобилям, мы ожидаем, что 100 штрафов будет выписано красным автомобилям, а 50 синим, если полиция в нашем городе так же предвзято относится к цвету машин, как это наблюдается по всей стране.

2. Определите наблюдаемые результаты вашего эксперимента

Теперь, когда вы опредили ожидаемые результаты, необходимо провести эксперимент, и найти действительные (или «наблюдаемые») значения. Вам снова необходимо представить эти результаты в виде чисел.

Если мы создаем экспериментальные условия, и наблюдаемые результаты отличаются от ожидаемых, то у нас есть две возможности – либо это произошло случайно, либо это вызвано именно нашим экспериментом.

Цель нахождения p-значения как раз и состоит в том, чтобы определить, отличаются ли наблюдаемые результаты от ожидаемых настолько, чтобы можно было не отвергать «нулевую гипотезу» – гипотезу о том, что между экспериментальными переменными и наблюдаемыми результатами нет никакой связи.

Пример: Например, в нашем городе мы случайно выбрали 150 штрафов за превышение скорости, которые были выданы либо красным, либо синим автомобилям. Мы определили, что 90 штрафов были выписаны красным автомобилям, и 60 синим. Это отличается от ожидаемых результатов, которые равны 100 и 50, соответственно.

Действительно ли наш эксперимент (в данном случае, изменение источника данных с национального на городской) привел к данному изменению в результатах, или наша городская полиция относится предвзято точно так же, как и в среднем по стране, а мы видим просто случайное отклонение? P-значение поможет нам это определить.

3. Определите число степеней свободы вашего эксперимента

Число степеней свободы — это степень изменяемости вашего эксперимента, которая определяется числом категорий, которые вы исследуете. Уравнение для числа степеней свободы – Число степеней свободы = n-1, где «n» это число категорий или переменных, которые вы анализируете в своем эксперименте.

Пример: В нашем эксперименте две категории результатов: одна категория для красных машин, и одна для синих машин. Поэтому в нашем эксперименте у нас 2-1 = 1 степень свободы. Если бы мы сравнивали красные, синие и зеленые машины, у нас было бы 2 степени свободы, и так далее.

4. Сравните ожидаемые и наблюдаемые результаты с помощью критерия хи-квадрат

Хи-квадрат (пишется «x2») это числовое значение, которое измеряет разницу между ожидаемыми и наблюдаемыми значениями эксперимента. Уравнение для хи-квадрата следующее x2 = Σ((o-e)2/e), где «o» это наблюдаемое значение, а «e» это ожидаемое значение. Суммируйте результаты данного уравнения для всех возможных результатов (смотри ниже).

Заметьте, что данное уравнение включает оператор суммирования Σ (сигма). Другими словами, вам необходимо подсчитать ((|o-e|-.

05)2/e) для каждого возможного результата, и сложить полученные числа, чтобы получить значение критерия хи-квадрат. В нашем примере у нас два возможных результата – либо машина, получившая штраф красная, либо синяя.

Поэтому мы должны посчитать ((o-e)2/e) дважды – один раз для красных машин, и один раз для синих машин.

Пример: Давайте подставим наши ожидаемые и наблюдаемые значения в уравнение x2 = Σ((o-e)2/e). Помните, что из-за оператора суммирования нам необходимо посчитать ((o-e)2/e) дважды – один раз для красных автомобилей, и один раз для синих автомобилей. Мы выполним эту работу следующим образом:x2 = ((90-100)2/100) + (60-50)2/50)x2 = ((-10)2/100) + (10)2/50)

x2 = (100/100) + (100/50) = 1 + 2 = 3.

5. Выберите уровень значимости

Теперь, когда мы знаем число степеней свободы нашего эксперимента, и узнали значение критерия хи-квадрат, нам нужно сделать еще одну вещь перед тем, как мы найдем наше p-значение. Нам нужно определить уровень значимости. Говоря простым языком, уровень значимости показывает, насколько мы уверены в наших результатах.

Низкое значение для значимости соответствует низкой вероятности того, что экспериментальные результаты получились случайно, и наоборот. Уровни значимости записываются в виде десятичных дробей (таких как 0.

01), что соответствует вероятности того, что экспериментальные результаты мы получили случайно (в данном случае вероятность этого 1%).

По соглашению, ученые обычно устанавливают уровень значимости своих экспериментов равным 0.05, или 5%.[2] Это означает, что экспериментальные результаты, которые соответствуют такому критерию значимости, только с вероятностью 5% могли получиться чисто случайно.

Другими словами, существует 95% вероятность, что результаты были вызваны тем, как ученый манипулировал экспериментальными переменными, а не случайно.

Для большинства экспериментов 95% уверенности наличия связи между двумя переменными достаточно, чтобы считать, что они «действительно» связаны друг с другом.

Пример: для нашего примера с красными и синими машинами, давайте последуем соглашению между учеными, и установим уровень значимости в 0.05.

6. Используйте таблицу с данными распределения хи-квадрат, чтобы найти ваше p-значение

Ученые и статисты используют большие таблицы для вычисления p-значения своих экспериментов. Данные таблицы обычно имеют вертикальную ось слева, соответствующую числу степеней свободы, и горизонтальную ось сверху, соответствующую p-значению.

Используйте данные таблицы, чтобы сначала найти число ваших степеней свободы, затем посмотрите на ваш ряд слева направо, пока не найдете первое значение, большее вашего значения хи-квадрат. Посмотрите на соответствующее p-значение вверху вашего столбца.

Ваше p-значение находится между этим числом и следующим за ним (тем, которое находится левее вашего).

Таблицы с распределением хи-квадрат можно получить из множества источников (вот по этой ссылке можно найти одну из них).

Пример: Наше значение критерия хи-квадрат было равно 3. Так как мы знаем, что в нашем эксперименте всего 1 степень свободы, выберем самую первую строку.

Идем слева направо по данной строке, пока не встретим значение, большее 3, нашего значения критерия хи-квадрат. Первое, которое мы находим это 3.84. Смотрим вверх нашего столбца, и видим, что соответствующее p-значение равно 0.05.

Это означает, что наше p-значение между 0.05 и 0.1 (следующее p-значение в таблице по возрастанию).

7. Решите, отклонить или оставить вашу нулевую гипотезу

Так как вы определили приблизительное p-значение для вашего эксперимента, вам необходимо решить, отклонять ли нулевую гипотезу вашего эксперимента или нет (напоминаем, это гипотеза о том, что экспериментальные переменные, которыми вы манипулировали не повлияли на наблюдаемые вами результаты).

Если ваше p-значение меньше, чем ваш уровень значимости – поздравляем, вы доказали, что очень вероятна связь между переменными, которыми вы манипулировали и результатами, которые вы наблюдали.

Если ваше p-значение выше, чем ваш уровень значимости, вы не можете с уверенностью сказать, были ли наблюдаемые вами результаты результатом чистой случайности или манипуляцией вашими переменными.

Пример: Наше p-значение находится между 0,05 и 0,1. Это явно не меньше, чем 0,05, поэтому, к сожалению, мы не можем отклонить нашу нулевую гипотезу. Это означает, что мы не достигли минимум 95% вероятности того, чтобы сказать, что полиция в нашем городе выдает штрафы красным и синим автомобилям с такой вероятностью, которая достаточно сильно отличается от средней по стране.

Другими словами, существует 5-10% шанс, что наблюдаемые нами результаты – это не последствия смены места (анализа города, а не всей страны), а просто случайность.

Так как мы потребовали точности меньше чем 5%, мы не можем сказать что мы уверены в том, что полиция нашего города менее предвзято относится к красным автомобилям – существует небольшая (но статистически значимая) вероятность, что это не так.

Источник: http://datascientist.one/p-value/

Азбука медицинской статистики. Глава II. Размер выборки, генеральная совокупность, статистическая гипотеза и p-value

Уровень значимости в статистике

Вне зависимости от целей любого клинического исследования, перед его началом необходимо рассчитать количество объектов для ­изучения.

Давайте представим, что мы изобрели лекарство, которое должно снижать уровень сахара в крови лучше, чем старые аналоги. Мы взяли 60 человек с гипергликемией около 10 ммоль/л. Разделили их на 2 группы по 30 человек. Первая группа принимала наш новый препарат, вторая принимала старый. После определенного периода лечения измерили среднее значение гликемии в каждой группе.

В «нашей» группе, той, что принимала тестовый препарат, среднее значение (М) составило 5,5 ммоль/л, а в группе референтного препарата — 6,5 ммоль/л. Следовательно, наше лекарство полностью нормализовало сахар в крови пациентов, а вот референтное — нет.

Вопрос в том, не случаен ли этот результат и получим ли мы такой же на выборке не из шестидесяти человек, а из десяти ­тысяч?

Основная характеристика любого эксперимента — это его воспроизводимость, т. е. разные исследователи должны получить близкие результаты. Также важно, чтобы полученные результаты могли распространяться на всю генеральную совокупность, т. е. совокупность всех объектов, в отношении которых исследователь хочет сделать какой‑то ­вывод.

В нашем случае генеральная совокупность — это больные сахарным диабетом. К сожалению, невозможно измерить какой‑либо признак у 230 млн человек, больных сахарным диабетом на планете. Поэтому ограничиваются отдельными представителями той или иной генеральной совокупности, эти группы и есть выборка. Можно было бы для точности провести исследование на ста разных выборках, но и это ­неудобно.

К счастью, есть способ вычислить вероятность того, что полученные результаты на 60 пациентах неслучайны и могут быть распространены на всю генеральную ­совокупность.

Важные определения

Для того чтобы продолжать разговор, мы должны познакомиться с важным понятием статистической гипотезы. Существуют 2 статистические ­гипотезы:

  1. Нулевая гипотеза (H0) — это утверждение, что нет различий между группами по интересующему нас параметру. В данном примере это уровень ­гликемии.
  2. Альтернативная гипотеза (H1) — утверждение, что такие различия ­есть.

Таким образом, наша задача c помощью различных статистических критериев — либо принять, либо отклонить нулевую гипотезу. При этом, отклоняя нулевую гипотезу, мы принимаем ­альтернативную.

Так как признак оценивают в ограниченном числе наблюдений, всегда остается вероятность того, что различия между группами могли быть получены случайно и в генеральной совокупности нет никаких различий. Эта вероятность выдается автоматически в статпакетах при расчете критериев различия (например, t-Стьюдента или Манна-Уитни) и называется она — p-value (р-уровень статистической ­значимости).

p = 0,05 — расшифровывается так: вероятность того, что различия между группами случайны, составляет 5 %. Другими словами, если взять 100 выборок из этой же генеральной совокупности, то различия между группами будут в 95 из них.

Уровень значимости p = 0,05 принят учеными во всём мире достаточным для того, чтобы различия были признаны достоверными.

Таким образом, мы доверяем результатам работы критерия, только если его р меньше 0,05, а p = 0,01 или 0,001 это уже более высокая значимость различий, т. е. различия еще более ­неслучайны.

Итак, уровень статистической значимости р — это главный результат проверки статистической гипотезы. Если р-уровень значимости меньше 0,05, то мы отклоняем нулевую гипотезу о том, что нет различий по изучаемым параметрам в генеральной совокупности, и принимаем альтернативную гипотезу, т. е. такие различия есть и они ­неслучайны.

В исследовательской работе есть еще и другая проблема: вероятность НЕ найти различий там, где они на самом деле есть. Это может произойти, если снизить пограничное значение p с 0,05 до p = 0,01 или ­меньше.

Сколько ­испытуемых?

Объем выборки также влияет на уровень статистической значимости. Если взять слишком много народу, можно найти несуществующие различия, а если слишком мало — то «не заметить» имеющиеся. Для расчета выборки используют анализ мощности.

Основная задача этого метода — рассчитать, сколько нужно взять человек в исследование, чтобы подтвердить или отклонить нулевую гипотезу.

Но что такое мощность, она в Ваттах измеряется? Нет! В статистике мощность — это способность статистического критерия отклонять нулевую гипотезу, когда она ­неверна.

Чем больше мощность, тем больше выборки нам будет нужно. Собственно, именно анализ мощности (power analysis) позволяет рассчитать, какую нам взять ­выборку.

Расчет выборки достаточно сложный процесс, но если вам предстоит это делать, то вы его освоите.

Принцип таков: изучить аналогичные исследования, почерпнуть из них средние и стандартные отклонения в группах или же доли пациентов с ремиссией (в зависимости от типа исследования) и подставить эти данные в специальные формулы.

К счастью, современные программы и онлайн-калькуляторы техническую часть выполняют за исследователей: остается только принять результат и подыскивать испытуемых. Выборка может быть как маленькой — 30–40 человек, так и большой — до 350 человек, и зависит это от данных, которые были найдены и подставлены в ­формулы.

При чтении клинического исследования важно обратить ­внимание:

  • рассчитали ли ученые размер выборки на этапе планирования или нет. Если это не оговаривается, а выборка невелика, то, вероятно, лучше ориентироваться на другие, более масштабные ­исследования;
  • какой они выбрали уровень значимости для отклонения нулевой гипотезы (ошибка первого рода); важно, чтобы он был не более 0,05, или 5 %;
  • какая была взята мощность (ошибка второго рода). Лучше, чтобы не менее 0,8, или 80 %. Хотя готовьтесь к тому, что порой мощность не ­пишут.

Итак, теперь вы знаете ответ на сакральный вопрос: какой должна быть выборка — побольше или поменьше? Правильно, выборки должно быть достаточно, чтобы отклонить нулевую статистическую гипотезу и принять альтернативную. В следующей главе медицинской статистики мы обсудим адекватные способы сравнения групп ­испытуемых.

Источник: https://www.katrenstyle.ru/articles/journal/medicine/spotlight/azbuka_meditsinskoy_statistiki_glava_ii

Уровень значимости и уровень надежности в EXCEL

Уровень значимости в статистике

Дадим определение терминам уровень надежности и уровень значимости. Покажем, как и где они используется в MS EXCEL .

Уровень значимости (Level of significance) используется в процедуре проверки гипотез и при построении доверительных интервалов .

СОВЕТ : Для понимания терминов Уровень значимости и Уровень надежности потребуется знание следующих понятий:

Уровень значимости статистического теста – это вероятность отклонить нулевую гипотезу , когда на самом деле она верна. Другими словами, это допустимая для данной задачи вероятность ошибки первого рода (type I error).

Уровень значимости обычно обозначают греческой буквой α ( альфа ). Чаще всего для уровня значимости используют значения 0,001; 0,01; 0,05; 0,10.

Например, при построении доверительного интервала для оценки среднего значения распределения , его ширину рассчитывают таким образом, чтобы вероятность события « выборочное среднее (Х ср ) находится за пределами доверительного интервала » было равно уровню значимости . Реализация этого события считается маловероятным (практически невозможным) и служит основанием для отклонения нулевой гипотезы о равенстве среднего заданному значению .

Ошибка первого рода часто называется риском производителя. Это осознанный риск, на который идет производитель продукции, т.к.

он определяет вероятность того, что годная продукция может быть забракована, хотя на самом деле она таковой не является.

Величина ошибки первого рода задается перед проверкой гипотезы , таким образом, она контролируется исследователем напрямую и может быть задана в соответствии с условиями решаемой задачи.

Чрезмерное уменьшение уровня значимости α (т.е. вероятности ошибки первого рода ) может привести к увеличению вероятности ошибки второго рода , то есть вероятности принять нулевую гипотезу , когда на самом деле она не верна. Подробнее об ошибке второго рода см. статью Ошибка второго рода и Кривая оперативной характеристики .

Уровень значимости обычно указывается в аргументах обратных функций MS EXCEL для вычисления квантилей соответствующего распределения: НОРМ.СТ.ОБР() , ХИ2.ОБР() , СТЬЮДЕНТ.ОБР() и др. Примеры использования этих функций приведены в статьях про проверку гипотез и про построение доверительных интервалов .

Уровень надежности

Уровень доверия (этот термин более распространен в отечественной литературе, чем Уровень надежности ) – означает вероятность того, что доверительный интервал содержит истинное значение оцениваемого параметра распределения.

Уровень доверия равен 1-α, где α – уровень значимости .

Термин Уровень надежности имеет синонимы: уровень доверия, коэффициент доверия, доверительный уровень и доверительная вероятность (англ. Confidence Level , Confidence Coefficient ).

В математической статистике обычно используют значения уровня доверия 90%; 95%; 99%, реже 99,9% и т.д.

Например, Уровень доверия 95% означает, что событие, вероятность которого 1-0,95=5% исследователь считать маловероятным или невозможным. Разумеется, выбор уровня доверия полностью зависит от исследователя. Так, степень доверия авиапассажира к надежности самолета, несомненно, должна быть выше степени доверия покупателя к надежности электрической лампочки.

Примечание : Стоит отметить, что математически не корректно говорить, что Уровень доверия является вероятностью, того что оцениваемый параметр распределения принадлежит доверительному интервалу , вычисленному на основе выборки .

Поскольку, считается, что в математической статистике отсутствуют априорные сведения о параметре распределения.

Математически правильно говорить, что доверительный интервал , с вероятностью равной Уровню доверия, накроет истинное значение оцениваемого параметра распределения.

Уровень надежности в MS EXCEL

В MS EXCEL Уровень надежности упоминается в надстройке Пакет анализа . После вызова надстройки, в диалоговом окне необходимо выбрать инструмент Описательная статистика .

После нажатия кнопки ОК будет выведено другое диалоговое окно.

В этом окне задается Уровень надежности, т.е.значениевероятности в процентах.

После нажатия кнопки ОК в выходном интервале выводится значение равное половине ширины доверительного интервала .

Этот доверительный интервал используется для оценки среднего значения распределения, когда дисперсия не известна (подробнее см. статью про доверительный интервал ).

Необходимо учитывать, что данный доверительный интервал рассчитывается при условии, что выборка берется из нормального распределения . Но, на практике обычно принимается, что при достаточно большой выборке (n>30), доверительный интервал будет построен приблизительно правильно и для распределения, не являющегося нормальным (если при этом это распределение не будет иметь сильной асимметрии ).

Примечание : Понять, что в диалоговом окне речь идет именно об оценке среднего значения распределения , достаточно сложно. Хотя в английской версии диалогового окна это указано прямо: Confidence Level for Mean .

Если Уровень надежности задан 95%, то надстройка Пакет анализа использует следующую формулу (выводится не сама формула, а лишь ее результат):

=СТАНДОТКЛОН.В(Выборка)/КОРЕНЬ(СЧЁТ(Выборка)) *СТЬЮДЕНТ.ОБР.2Х(1-0,95;СЧЁТ(Выборка)-1)

или эквивалентную ей

=СТАНДОТКЛОН.В(Выборка)/КОРЕНЬ(СЧЁТ(Выборка)) *СТЬЮДЕНТ.ОБР((1+0,95)/2;СЧЁТ(Выборка)-1)

где =СТАНДОТКЛОН.В(Выборка)/КОРЕНЬ(СЧЁТ(Выборка)) – является стандартной ошибкой среднего (формулы приведены в файле примера ).

или

=ДОВЕРИТ.СТЬЮДЕНТ(1-0,95; СТАНДОТКЛОН.В(Выборка); СЧЁТ(Выборка))

Подробнее см. в статьях про доверительный интервал .

Источник: https://excel2.ru/articles/uroven-znachimosti-i-uroven-nadezhnosti-v-ms-excel

Уровень значимости статистического критерия

Уровень значимости в статистике

Определение 1

Статистическая значимость – это величина переменной в статистике при малой вероятности случайного возникновения этой или более крайних величин.

Любое исследование предполагает выявление связей между переменными. Связь, как правило, характеризуется силой, направлением надежностью, которая определяется вероятностью её повторного обнаружения. При проведении эксперимента гипотезы проверяются с помощью статистического анализа.

Статистическая значимость является основным результатом проверки гипотезы и количественной оценкой надежности связи. Связь будет значительно надежнее при меньшей вероятности.

Статистическая значимость результата исследования будет выше, чем меньше значение уровня значимости (p).

При других равных условиях уровень значимости будет выше, если больше величина связи, меньшая изменчивость признака, больший объем выборки.

Для определения уровня статистической значимости используется статистический критерий, который включает в себя формулу расчета, правило определения числа степеней свободы, теоретическое распределение степеней свободы, правило соотнесения эмпирического значения критерия для определения того, что вероятность альтернативной гипотезы верна.

  • Курсовая работа 480 руб.
  • Реферат 280 руб.
  • Контрольная работа 190 руб.

Эмпирическое значение критерия получается в результате расчетов по результатам проведенного исследования.

Число степеней свободы представляет собой количество возможных направлений изменчивости признака. Возможные статистические ошибки могут быть первого и второго рода.

Под статистической ошибкой понимается неверное отклонение или принятие гипотезы.

Ошибка первого рода состоит в том, что была отклонена нулевая гипотеза, будучи верной.

Ошибка второго рода заключается в том, была принята нулевая гипотеза, оказавшаяся неверной.

Выбор статистического критерия связан с рядом условий, в частности он:

  • зависит от шкалы, в которой измерен признак;
  • зависит от количества групп для сравнения;
  • зависит от типа групп;
  • зависит от статистических задач, выводимых из экспериментальной гипотезы.

Оценка статистической значимости

С помощью статистического анализа проверяются гипотезы при постановке эксперимента. Сначала необходимо определить свою гипотезу.

При оценке статистической значимости первым шагом будет являться вопрос, ответ на который необходимо получить и сформулировать гипотезу.

Гипотеза представляет собой утверждение об экспериментальных данных, их распределении и свойствах. В любом эксперименте могут существовать нулевые и альтернативные гипотезы. Для определения их схожести или различия, необходимо сравнивать два набора данных.

Если нулевая гипотеза утверждает, что между двумя наборами данных разницы нет, то альтернативная гипотеза является противоположностью нулевой. Она представляет собой утверждение и его надо подтвердить с помощью экспериментальных данных.

Например, если ученики повторяют материал перед занятием, то их оценки не будут более высокие – утверждает нулевая гипотеза, в то время как альтернативная гипотеза утверждает, что, прочитавшие материал перед занятиями получают более высокие оценки.

Во-вторых, надо установить уровень значимости. Это необходимо для того, чтобы определить, насколько распределение данных должно отличаться от обычного, чтобы считать их значимым результатом.

Уровень значимости является порогом, который определяется для статистической значимости.

Рисунок 1. Соотношение значимости и р-уровня. Автор24 — интернет-биржа студенческих работ

Если p-значение меньше уровня значимости или равное ему, то данные будут считаться статистически значимыми. Уровень значимости в основном принимается за 0,05, тогда вероятность обнаружения случайной разницы между разными наборами данных будет равна 5%.

Если уровень значимости будет выше, то результаты будут более достоверными. При необходимости получения более достоверных результатов, нужно p-значение понизить до 0,01.

Для основной части экспериментов с гипотезами уровень значимости достаточно принять равным 0,05.

Далее необходимо определить критерий, который может быть односторонним или двусторонним. В t-критерии Стьюдента, одно из предположений гласит, что данные распределены нормальным образом и представляют собой колоколообразную кривую, посередине которой находится максимальное количество результатов.

Критерий Стьюдента является математическим методом проверки данных и дает возможность установить, выпадают ли данные за пределы нормального распределения.

Двусторонний критерий используется, когда нет уверенности в том, находятся ли данные выше или ниже контрольной группы значений.

Односторонний критерий используется, когда известно, в каком направлении данные могут выйти за пределы нормального распределения.

В примере с учениками можно ожидать, что их оценки будут выше, поэтому используется односторонний критерий.

Вычисление стандартного отклонения

О разбросе данных говорит стандартное отклонение и позволяет заключить, насколько данные, полученные на определенной выборке, близки.

Для этого существует формула, общий вид которой выглядит так – s = √ ∑((xi – µ)2/(N – 1)), где:

  • s — стандартное отклонение;
  • ∑ – сумма всех полученных на выборке данных;
  • xi – i-е значение, т. е. отдельный полученный результат;
  • µ – среднее значение для данной группы;
  • N – общее число данных в выборке.

Например, чтобы найти среднее значение оценки в группе учеников, повторяющих материал перед занятием, возьмем набор данных из пяти точек: 80, 81, 75, 73, 84, найдем их сумму, которая составит 393.

Далее сумму разделим на число значений (в нашем примере их 5) и получим 78,6, что и будет средним значением для данной группы.

Далее необходимо вычислить разницу (xi – µ), для этого из средней величины вычитаем каждое полученное значение.

В нашем примере надо найти пять разностей: (80-78,6), (81-78,6), (75-78,6), (73-78,6), (84-78,6).

Получаем следующие значения – 1,4; 2,4; -3,6; -5,6; 5,4.

Каждая найденная величина дальше возводится в квадрат, и все отрицательные значения исчезнут – в результате получаем 1,96; 5,76; 12,96; 31,36; 29,16.

Полученные значения суммируются 1,96 +5,76+12,96+31,36+29,16 = 81,2.

Далее полученная сумма делится на объем выборки за минусом единицы, потому что не учитывается генеральная совокупность, а для оценки берется выборка из числа всех учащихся.

Получаем N-1=5-1=4. Делим 81, 2:4=20,3.

Из найденного значения извлекается квадратный корень, что является последним шагом в вычислении стандартного отклонения. В нашем примере стандартное отклонение оценок учеников, повторяющих материал перед занятием, составляет s =√20,3 = 4,51.

Источник: https://spravochnick.ru/psihologiya/uroven_znachimosti_statisticheskogo_kriteriya/

Проверка статистических гипотез: основные понятия и примеры

Уровень значимости в статистике

Статистическая гипотеза – это некоторое предположение о свойствах генеральной совокупности, которое необходимо проверить. Статистические гипотезы выдвигаются, когда необходимо проверить, является ли наблюдаемое явление элементом случайности или результатом воздействия некоторых мероприятий.

Например, необходимо выяснить, значительно ли отличается средний объём продаж после проведения рекламной кампании от среднего объёма продаж после проведения рекламной кампании. Если ответ на этот вопрос положителен, то можно сделать вывод о том, что изменения являются результатом рекламной кампании.

Выводы, полученные путём проверки статистических гипотез, носят вероятностный характер: они принимаются с некоторой вероятностью. Статистическая гипотеза может быть также предположением о свойствах двух совокупностей, если, например, в ходе мероприятий имело место воздействие только на одну совокупность и необходимо сделать вывод о том, было ли это воздействие результативным.

Шаги проверки статистических гипотез следующие:

  • формулируется основная гипотеза H0 и альтернативная гипотеза H1;
  • выбирается статистический критерий, с помощью которого будет проверяться гипотеза;
  • задаётся значение уровня значимости α;
  • находятся границы области принятия гипотезы;
  • делается вывод о принятии или отвержении основной гипотезы H0.

Рассмотрим эти шаги и связанные с ними понятия подробнее.

Статистические гипотезы: основная и альтернативная

Основная гипотеза H0 – предположение о свойствах генеральной совокупности, которое является логичным и правдоподобным, но требует проверки. Основная гипотеза обладает “презумпцией невиновности”, или точнее “презумпцией справедливости”: пока не доказано, что её утверждение ложно, она считается истинной.

Альтернативная гипотеза H1 – утвержление о свойствах генеральной совокупности, которое принимается в случае, когда нет возможности принять основную гипотезу.

Приведём примеры того, как формулируются основная и альтернативная гипотезы.

Пример 1. До и после проведения рекламной кампании были собраны данные о среднем объём продаж.

Основная гипотеза H0: средний объём продаж до проведения рекламной кампании незначительно отличается от среднего объёма продаж после проведения рекламной кампании.

Альтернативная гипотеза H1: средний объём продаж изменился после проведения рекламной кампании.

Пример 2. После изменения конфигурации компьютерной сети были собраны случайным образом 200 замеров скорости передачи сообщений.

Основная гипотеза H0: изменение конфигурации не имело эффекта.

Альтернативная гипотеза H1: эффект от изменения статистически значим.

Статистические критерии для проверки гипотез

Статистический критерий – статистическая характеристика выборки, вычисляемая по некоторому математическому соотношению (формуле) на основе данных, имеющихся в выборке.

По значению этой характеристики принимается решение, принимать основную гипотезу или нет. Статистические критерии бывают двух видов:

  • односторонний критерий – критерий, значения которого принадлежат области (0; +∞);
  • двусторонний критерий – критерий, значения которого принадлежат области (-∞; +∞).

Свойства статистического критерия:

  • статистический критерий является случайной величиной, закон распределения которой известен. Зачастую в названии статистического критерия упоминается его закон распределения. Например, критерий хи-квадрат-Пирсона подчиняется закону распределения хи-квадрат;
  • чем ближе значение статистического критерия к нулю, тем более вероятно, что основная гипотеза является верной.

Уровень значимости α, ошибки первого и второго рода

Уровень значимости α – это вероятность ошибки первого рода. Значение уровня значимости обычно достаточно малое и задаётся аналитиком, проверяющим гипотезу. Чаще всего принимает значения 0,01 (1%), 0,05 (5%) и 0,1 (10%).

При проверке гипотезы всегда существует вероятность того, что будет сделано ошибочное заключение. Существуют два рода ошибки.

Ошибка первого рода – отвержение основной гипотезы при том, что она верна.

Ошибка второго рода – принятие основной гипотезы при том, что она ложна.

Со значением уровня значимости связано значение уровня доверия p.

Уровень доверия p – вероятность принятия верной гипотезы. Помним: пока не доказано, что основная гипотеза H0 является ложной, мы считаем её верной. Поэтому уровень значимости будет определять вероятность принятия основной гипотезы. Если уровень значимости α – вероятность отвержения верной гипотезы, то вероятность принятия верной гипотезы: p = 1 – α.

Аналитик сам управляет ошибкой первого рода – задаёт вероятность её наступления.

Ошибкой второго рода он управлять не может – всегда существует вероятность того, что может быть принята неверная гипотеза.

Поэтому, чтобы избежать нежелательных последствий от принятия неверной гипотезы, основная гипотеза формулируется таким образом, чтобы риск от последствий принятия неверной гипотезы был минимальным.

Пример 3. В лаборатории фармацевтического предприятия делается контрольный замер на соответствие контрольного состава лекарственных препаратов стандарту. Какие варианты гипотез могут быть предложены?

Решение.

Первый вариант.

Основная гипотеза H0 – лекарства соответствуют стандарту.

Альтернативная гипотеза H1 – лекарства не соответствуют стандарту.

Второй вариант.

Основная гипотеза H0 – лекарства не соответствуют стандарту.

Альтернативная гипотеза H1 – лекарства соответствуют стандарту.

В первом случае, принимая во внимание, что вероятность принятия основной гипотезы высока, мы имеем высокий риск нежелательных последствий принятия неверной гипотезы.

Во втором случае, даже если мы будем вынуждены принять гипотезу, что лекарственные препараты не соответствуют стандарту, а на самом деле имеет место ошибка второго рода, придётся провести дополнительные контрольные замеры и более тщательно провести анализ химического состава.

В любом случае, это повлечёт за собой более тщательный анализ, а риск нежелательных последствий может оказаться не столь значимым.

По причинам, которые мы выяснили в примере 3, статистические гипотезы часто формулируются следующим образом: “статистическая значимость между факторами незначима”, “выборки незначимо отличаются по своим свойствам”, “фактор не имеет значимого влияния на исследуемый процесс”.

Нахождение границ области принятия гипотезы

Область принятия гипотезы (ОПГ) – подмножество таких значений критерия, при которых основная гипотеза не может быть отвергнута. Область принятия гипотезы всегда включает в себя значение 0.

Критическая область – подмножество таких значений критерия, при которых основная гипотеза не может быть принята.

В случае, если используется односторонний критерий, ОПГ включает в себя подмножество положительных значений критерия. В таком случае у критерия есть только одна критическая область.

В случае, если используется двусторонний критерий, который может принимать как положительные, так и отрицательные значения, у него имеются две критические области: подмножество отрицательных и подмножество положительных значений критерия, при которых гипотеза не может быть принята.

На этом шаге требуется найти такое подмножество значений критерия, к которому значение выбранного критерия будет принадлежать с вероятностью p. Точнее, необходимо найти крайние значения критерия в этом подмножестве.

Поэтому процедура нахождения границ области принятия гипотезы сводится к решению следующей задачи:

P{R'

Источник: https://function-x.ru/statistics_hypotesis.html

О бизнесе
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: