Если отвергается истинная гипотеза то говорится что совершается ошибка

Работа по теме: Элементы мат.статистики. Глава: Ошибки первого и второго рода. ВУЗ: МГАВМиБ.

Ошибки первого и второго рода

Выдвинутая гипотеза
может быть правильной или неправильной,
поэтому возникает необходимость её
проверки. Поскольку проверку производят
статистическими методами, её называют
статистической. В итоге статистической
проверки гипотезы в двух случаях может
быть принято неправильное решение, т.
е. могут быть допущены ошибки двух родов.

Ошибка первого
рода состоит в том, что будет отвергнута
правильная гипотеза.

Ошибка второго
рода состоит в том, что будет принята
неправильная гипотеза.

Подчеркнём, что
последствия этих ошибок могут оказаться
весьма различными. Например, если
отвергнуто правильное решение «продолжать
строительство жилого дома», то эта
ошибка первого рода повлечёт материальный
ущерб: если же принято неправильное
решение «продолжать строительство»,
несмотря на опасность обвала стройки,
то эта ошибка второго рода может повлечь
гибель людей. Можно привести примеры,
когда ошибка первого рода влечёт более
тяжёлые последствия, чем ошибка второго
рода.

Замечание 1.
Правильное решение может быть принято
также в двух случаях:

  1. гипотеза принимается,
    причём и в действительности она
    правильная;

  2. гипотеза отвергается,
    причём и в действительности она неверна.

Замечание 2.
Вероятность совершить ошибку первого
рода принято обозначать через
;
её называют уровнем значимости. Наиболее
часто уровень значимости принимают
равным 0,05 или 0,01. Если, например, принят
уровень значимости, равный 0,05, то это
означает, что в пяти случаях из ста
имеется риск допустить ошибку первого
рода (отвергнуть правильную гипотезу).

Статистический
критерий проверки нулевой гипотезы.
Наблюдаемое значение критерия

Для проверки
нулевой гипотезы используют специально
подобранную случайную величину, точное
или приближённое распределение которой
известно. Обозначим эту величину в целях
общности через
.

Статистическим
критерием

(или просто критерием) называют случайную
величину
,
которая служит для проверки нулевой
гипотезы.

Например, если
проверяют гипотезу о равенстве дисперсий
двух нормальных генеральных совокупностей,
то в качестве критерия
принимают отношение исправленных
выборочных дисперсий:.

Эта величина
случайная, потому что в различных опытах
дисперсии принимают различные, наперёд
неизвестные значения, и распределена
по закону Фишера – Снедекора.

Для проверки
гипотезы по данным выборок вычисляют
частные значения входящих в критерий
величин и таким образом получают частное
(наблюдаемое) значение критерия.

Наблюдаемым
значением
называют значение критерия, вычисленное
по выборкам. Например, если по двум
выборкам найдены исправленные выборочные
дисперсиии,
то наблюдаемое значение критерия.

Критическая
область. Область принятия гипотезы.
Критические точки

После выбора
определённого критерия множество всех
его возможных значений разбивают на
два непересекающихся подмножества:
одно из них содержит значения критерия,
при которых нулевая гипотеза отвергается,
а другая – при которых она принимается.

Критической
областью называют совокупность значений
критерия, при которых нулевую гипотезу
отвергают.

Областью принятия
гипотезы (областью допустимых значений)
называют совокупность значений критерия,
при которых гипотезу принимают.

Основной принцип
проверки статистических гипотез можно
сформулировать так: если наблюдаемое
значение критерия принадлежит критической
области – гипотезу отвергают, если
наблюдаемое значение критерия принадлежит
области принятия гипотезы – гипотезу
принимают.

Поскольку критерий
— одномерная случайная величина, все её
возможные значения принадлежат некоторому
интервалу. Поэтому критическая область
и область принятия гипотезы также
являются интервалами и, следовательно,
существуют точки, которые их разделяют.

Критическими
точками (границами)
называют точки, отделяющие критическую
область от области принятия гипотезы.

Различают
одностороннюю (правостороннюю или
левостороннюю) и двустороннюю критические
области.

Правосторонней
называют критическую область, определяемую
неравенством
>,
где— положительное число.

Левосторонней
называют критическую область, определяемую
неравенством
<,
где— отрицательное число.

Односторонней
называют правостороннюю или левостороннюю
критическую область.

Двусторонней
называют критическую область, определяемую
неравенствами
где.

В частности, если
критические точки симметричны относительно
нуля, двусторонняя критическая область
определяется неравенствами ( в
предположении, что
>0):

,
или равносильным неравенством
.

Отыскание
правосторонней критической области

Как найти критическую
область? Обоснованный ответ на этот
вопрос требует привлечения довольно
сложной теории. Ограничимся её элементами.
Для определённости начнём с нахождения
правосторонней критической области,
которая определяется неравенством
>,
где>0.
Видим, что для отыскания правосторонней
критической области достаточно найти
критическую точку. Следовательно,
возникает новый вопрос: как её найти?

Для её нахождения
задаются достаточной малой вероятностью
– уровнем значимости
.
Затем ищут критическую точку,
исходя из требования, чтобы при условии
справедливости нулевой гипотезы
вероятность того, критерийпримет значение, большее,
была равна принятому уровню значимости:
Р(>)=.

Для каждого критерия
имеются соответствующие таблицы, по
которым и находят критическую точку,
удовлетворяющую этому требованию.

Замечание 1.
Когда
критическая точка уже найдена, вычисляют
по данным выборок наблюдаемое значение
критерия и, если окажется, что
>,
то нулевую гипотезу отвергают; если же<,
то нет оснований, чтобы отвергнуть
нулевую гипотезу.

Пояснение. Почему
правосторонняя критическая область
была определена, исходя из требования,
чтобы при справедливости нулевой
гипотезы выполнялось соотношение

Р(>)=?
(*)

Поскольку вероятность
события
>мала (— малая вероятность), такое событие при
справедливости нулевой гипотезы, в силу
принципа практической невозможности
маловероятных событий, в единичном
испытании не должно наступить. Если всё
же оно произошло, т.е. наблюдаемое
значение критерия оказалось больше,
то это можно объяснить тем, что нулевая
гипотеза ложна и, следовательно, должна
быть отвергнута. Таким образом, требование
(*) определяет такие значения критерия,
при которых нулевая гипотеза отвергается,
а они и составляют правостороннюю
критическую область.

Замечание 2.
Наблюдаемое значение критерия может
оказаться большим
не потому, что нулевая гипотеза ложна,
а по другим причинам (малый объём выборки,
недостатки методики эксперимента и
др.). В этом случае, отвергнув правильную
нулевую гипотезу, совершают ошибку
первого рода. Вероятность этой ошибки
равна уровню значимости.
Итак, пользуясь требованием (*), мы с
вероятностьюрискуем совершить ошибку первого рода.

Замечание 3. Пусть
нулевая гипотеза принята; ошибочно
думать, что тем самым она доказана.
Действительно, известно, что один пример,
подтверждающий справедливость некоторого
общего утверждения, ещё не доказывает
его. Поэтому более правильно говорить,
«данные наблюдений согласуются с нулевой
гипотезой и, следовательно, не дают
оснований её отвергнуть».

На практике для
большей уверенности принятия гипотезы
её проверяют другими способами или
повторяют эксперимент, увеличив объём
выборки.

Отвергают гипотезу
более категорично, чем принимают.
Действительно, известно, что достаточно
привести один пример, противоречащий
некоторому общему утверждению, чтобы
это утверждение отвергнуть. Если
оказалось, что наблюдаемое значение
критерия принадлежит критической
области, то этот факт и служит примером,
противоречащим нулевой гипотезе, что
позволяет её отклонить.

Отыскание
левосторонней и двусторонней критических
областей***

Отыскание
левосторонней и двусторонней критических
областей сводится (так же, как и для
правосторонней) к нахождению соответствующих
критических точек. Левосторонняя
критическая область определяется
неравенством
<(<0).
Критическую точку находят, исходя из
требования, чтобы при справедливости
нулевой гипотезы вероятность того, что
критерий примет значение, меньшее,
была равна принятому уровню значимости:
Р(<)=.

Двусторонняя
критическая область определяется
неравенствами
Критические
точки находят, исходя из требования,
чтобы при справедливости нулевой
гипотезы сумма вероятностей того, что
критерий примет значение, меньшееили большее,
была равна принятому уровню значимости:

.
(*)

Ясно, что критические
точки могут быть выбраны бесчисленным
множеством способов. Если же распределение
критерия симметрично относительно нуля
и имеются основания (например, для
увеличения мощности) выбрать симметричные
относительно нуля точки (-
(>0),
то

Учитывая (*), получим
.

Это соотношение
и служит для отыскания критических
точек двусторонней критической области.
Критические точки находят по соответствующим
таблицам.

Дополнительные
сведения о выборе критической области.
Мощность критерия

Мы строили
критическую область, исходя из требования,
чтобы вероятность попадания в неё
критерия была равна
при условии, что нулевая гипотеза
справедлива. Оказывается целесообразным
ввести в рассмотрение вероятность
попадания критерия в критическую область
при условии, что нулевая гипотеза неверна
и, следовательно, справедлива конкурирующая.

Мощностью критерия
называют вероятность попадания критерия
в критическую область при условии, что
справедлива конкурирующая гипотеза.
Другими словами, мощность критерия есть
вероятность того, что нулевая гипотеза
будет отвергнута, если верна конкурирующая
гипотеза.

Пусть для проверки
гипотезы принят определённый уровень
значимости и выборка имеет фиксированный
объём. Остаётся произвол в выборе
критической области. Покажем, что её
целесообразно построить так, чтобы
мощность критерия была максимальной.
Предварительно убедимся, что если
вероятность ошибки второго рода (принять
неправильную гипотезу) равна
,
то мощность равна 1-.
Действительно, если— вероятность ошибки второго рода, т.е.
события «принята нулевая гипотеза,
причём справедливо конкурирующая», то
мощность критерия равна 1 —.

Пусть мощность 1

возрастает; следовательно, уменьшается
вероятностьсовершить ошибку второго рода. Таким
образом, чем мощность больше, тем
вероятность ошибки второго рода меньше.

Итак, если уровень
значимости уже выбран, то критическую
область следует строить так, чтобы
мощность критерия была максимальной.
Выполнение этого требования должно
обеспечить минимальную ошибку второго
рода, что, конечно, желательно.

Замечание 1.
Поскольку вероятность события «ошибка
второго рода допущена» равна
,
то вероятность противоположного события
«ошибка второго рода не допущена» равна
1 —,
т.е. мощности критерия. Отсюда следует,
что мощность критерия есть вероятность
того, что не будет допущена ошибка
второго рода.

Замечание 2. Ясно,
что чем меньше вероятности ошибок
первого и второго рода, тем критическая
область «лучше». Однако при заданном
объёме выборки уменьшить одновременно
иневозможно; если уменьшить,
тобудет возрастать. Например, если принять=0,
то будут приниматься все гипотезы, в
том числе и неправильные, т.е. возрастает
вероятностьошибки второго рода.

Как же выбрать
наиболее целесообразно? Ответ на этот
вопрос зависит от «тяжести последствий»
ошибок для каждой конкретной задачи.
Например, если ошибка первого рода
повлечёт большие потери, а второго рода
– малые, то следует принять возможно
меньшее.

Если
уже выбрано, то, пользуясь теоремой Ю.
Неймана и Э.Пирсона, можно построить
критическую область, для которойбудет минимальным и, следовательно,
мощность критерия максимальной.

Замечание 3.
Единственный способ одновременного
уменьшения вероятностей ошибок первого
и второго рода состоит в увеличении
объёма выборок.

Соседние файлы в папке Лекции 2 семестр

  • #
  • #
  • #
  • #

Ошибки I и II рода при проверке гипотез, мощность

Общий обзор

Принятие неправильного решения

Мощность и связанные факторы

Проверка множественных гипотез

Общий обзор

Большинство проверяемых гипотез сравнивают между собой группы объектов, которые испытывают влияние различных факторов.

Например, можно сравнить эффективность двух видов лечения, чтобы сократить 5-летнюю смертность от рака молочной железы. Для данного исхода (например, смерть) сравнение, представляющее интерес (напри­мер, различные показатели смертности через 5 лет), называют эффектом или, если уместно, эффектом лечения.

Нулевую гипотезу выражают как отсутствие эффекта (например 5-летняя смертность от рака мо­лочной железы одинаковая в двух группах, получаю­щих разное лечение); двусторонняя альтернативная гипотеза будет означать, что различие эффектов не равно нулю.

Критериальная проверка гипотезы дает возможность определить, достаточно ли аргументов, чтобы отвергнуть нулевую гипотезу. Можно принять только одно из двух решений:

  1. отвергнуть нулевую гипотезу и принять альтер­нативную гипотезу
  2. остаться в рамках нулевой гипотезы

Важно: В литературе достаточно часто встречается понятие «принять нулевую гипотезу». Хотелось бы внести ясность, что со статистической точки зрения принять нулевую гипотезу невозможно, т.к. нулевая гипотеза представляет собой достаточно строгое утверждение (например, средние значения в сравниваемых группах равны ).

Поэтому фразу о принятии нулевой гипотезы следует понимать как то, что мы просто остаемся в рамках гипотезы.

Принятие неправильного решения

Возможно неправильное решение, когда отвергают/не отвергают нулевую гипотезу, потому что есть только выборочная информация.

 
Верная гипотеза
H0 H1
Результат

 применения 

критерия
H0 H0 верно принята H0 неверно принята 

(Ошибка второго рода)
H1 H0 неверно отвергнута 

(Ошибка первого рода)
H0 верно отвергнута

Ошибка 1-го рода: нулевую гипотезу отвергают, когда она истинна, и делают вывод, что имеется эффект, когда в действительности его нет. Максимальный шанс (вероятность) допустить ошибку 1-го рода обозначается α (альфа). Это уровень значимости критерия; нулевую гипотезу отвергают, если наше значение p ниже уровня значимости, т. е., если p < α.

Следует принять решение относительно значения а прежде, чем будут собраны данные; обычно назначают условное значение 0,05, хотя можно выбрать более ограничивающее значение, например 0,01.

Шанс допустить ошибку 1-го рода никогда не превысит выбранного уровня значимости, скажем α = 0,05, так как нулевую гипотезу отвергают только тогда, когда p< 0,05. Если обнаружено, что p > 0,05, то нулевую гипотезу не отвергнут и, следовательно, не допустят ошибки 1-го рода.

Ошибка 2-го рода: не отвергают нулевую гипотезу, когда она ложна, и делают вывод, что нет эффекта, тогда как в действительности он существует. Шанс возникновения ошибки 2-го рода обозначается β (бета); а величина (1-β) называется мощностью критерия.

Следовательно, мощность — это вероятность отклонения нулевой гипотезы, когда она ложна, т.е. это шанс (обычно выраженный в процентах) обнаружить реальный эффект лечения в выборке данного объема как статистически значимый.

В идеале хотелось бы, чтобы мощность критерия составляла 100%; однако это невозможно, так как всегда остается шанс, хотя и незначительный, допустить ошибку 2-го рода.

К счастью, известно, какие факторы влияют на мощность и, таким образом, можно контролировать мощность критерия, рассматривая их.

Мощность и связанные факторы

Планируя исследование, необходимо знать мощность предложенного критерия. Очевидно, можно начинать исследование, если есть «хороший» шанс обнаружить уместный эффект, если таковой существует (под «хорошим» мы подразумеваем, что мощность должна быть по крайней мере 70-80%).

Этически безответственно начинать исследование, у которого, скажем, только 40% вероятности обнаружить реальный эффект лечения; это бесполезная трата времени и денежных средств.

Ряд факторов имеют прямое отношение к мощности критерия.

Объем выборки: мощность критерия увеличивается по мере увеличения объема выборки. Это означает, что у большей выборки больше возможностей, чем у незначительной, обнаружить важный эффект, если он существует.

Когда объем выборки небольшой, у критерия может быть недостаточно мощности, чтобы обнаружить отдельный эффект. Эти методы также можно использовать для оценки мощности критерия для точно установленного объема выборки.

Вариабельность наблюдений: мощность увеличивается по мере того, как вариабельность наблюдений уменьшается.

Интересующий исследователя эффект: мощность критерия больше для более высоких эффектов. Критерий проверки гипотез имеет больше шансов обнаружить значительный реальный эффект, чем незначительный.

Уровень значимости: мощность будет больше, если уровень значимости выше (это эквивалентно увеличению допущения ошибки 1-го рода, α, а допущение ошибки 2-го рода, β, уменьшается).

Таким образом, вероятнее всего, исследователь обнаружит реальный эффект, если на стадии планирования решит, что будет рассматривать значение р как значимое, если оно скорее будет меньше 0,05, чем меньше 0,01.

Обратите внимание, что проверка ДИ для интересующего эффекта указывает на то, была ли мощность адекватной. Большой доверительный интервал следует из небольшой выборки и/или набора данных с существенной вариабельностью и указывает на недостаточную мощность.

Проверка множественных гипотез

Часто нужно выполнить критериальную проверку значимости множественных гипотез на наборе данных с многими переменными или существует более двух видов лечения.

Ошибка 1-го рода драматически увеличивается по мере увеличения числа сравнений, что приводит к ложным выводам относительно гипотез. Следовательно, следует проверить только небольшое число гипотез, выбранных для достижения первоначальной цели исследования и точно установленных априорно.

Можно использовать какую-нибудь форму апостериорного уточнения значения р, принимая во внимание число выполненных проверок гипотез.

Например, при подходе Бонферрони (его часто считают довольно консервативным) умножают каждое значение р на число выполненных проверок; тогда любые решения относительно значимости будут основываться на этом уточненном значении р.

Связанные определения:
p-уровень
Альтернативная гипотеза, альтернатива
Альфа-уровень
Бета-уровень
Гипотеза
Двусторонний критерий
Критерий для проверки гипотезы
Критическая область проверки гипотезы
Мощность
Мощность исследования
Мощность статистического критерия
Нулевая гипотеза
Односторонний критерий
Ошибка I рода
Ошибка II рода
Статистика критерия
Эквивалентные статистические критерии

В начало

Содержание портала

Содержание

  1. Виды гипотез. Ошибки первого и второго рода
  2. Статистическая гипотеза. Ошибки первого и второго рода
  3. 2.4. Статистическая проверка гипотез

Виды гипотез. Ошибки первого и второго рода

СТАТИСТИЧЕСКАЯ ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ

Гипотеза — это предположение о некоторых свойствах изучаемых явлений. Под статистической гипотезой понимают всякое высказывание о генеральной совокупности, которое можно проверить статистически, то есть опираясь на результаты наблюдений в случайной выборке. Рассматривают два вида статистических гипотез: гипотезы о законах распределения генеральной совокупности и гипотезы о параметрах известных распределений.

Так, гипотеза о том, что затраты времени на сборку узла машины в группе механических цехов, выпускающих продукцию одного наименования и имеющих примерно одинаковые технико-экономические условия производства, распределяются по нормальному закону, является гипотезой о законе распределения. А гипотеза о том, что производительность труда рабочих в двух бригадах, выполняющих одну и ту же работу в одинаковых условиях, не различается (при этом производительность труда рабочих каждой бригады имеет нормальный закон распределения), является гипотезой о параметрах распределения.

Подлежащая проверке гипотеза называется нулевой, или основной, и обозначается Н. Нулевой гипотезе противопоставляют конкурирующую, или альтернативную, гипотезу, которую обозначают Н1. Как правило, конкурирующая гипотеза Н1 является логическим отрицанием основной гипотезы Н0.

Примером нулевой гипотезы может быть следующая: средние двух нормально распределенных генеральных совокупностей равны, тогда конкурирующая гипотеза может состоять из предположения, что средние не равны.

Символически это записывается так:

Н: М(Х) = М(Y); Н1: М(Х) М(Y) .

Если нулевая (выдвинутая) гипотеза будет отвергнута, то имеет место конкурирующая гипотеза.

Различают гипотезы простые и сложные. Если гипотеза содержит только одно предположение, то это — простая гипотеза. Сложная гипотеза состоит из конечного или бесконечного числа простых гипотез.

Например, гипотеза Н: p = p (неизвестная вероятность p равна гипотетической вероятности p) — простая, а гипотеза Н: p

Другой пример можно привести из области юриспруденции. Будем рассматривать работу судей как действия по проверке презумпции невиновности подсудимого. В качестве основной проверяемой гипотезы следует рассмотреть гипотезу Н: подсудимый невиновен. Тогда альтернативной гипотезой Н1 является гипотеза: обвиняемый виновен в совершении преступления. Очевидно, что суд может совершить ошибки первого или второго рода при вынесении приговора подсудимому.

Если допущена ошибка первого рода, то это означает, что суд наказал невиновного: подсудимому был вынесен обвинительный приговор, когда на самом деле он не совершал преступления. Если же судьи допустили ошибку второго рода, то это значит, что суд вынес оправдательный приговор, когда на самом деле обвиняемый виновен в совершении преступления. Очевидно, что последствия ошибки первого рода для обвиняемого будут значительно более серьезными, в то время как для общества наиболее опасными являются последствия ошибки второго рода.

Вероятность совершить ошибку первого рода называют уровнем значимости критерия и обозначают .

В большинстве случаев уровень значимости критерия принимают равным 0,01 или 0,05. Если, например, уровень значимости принят равным 0,01, то это означает, что в одном случае из ста имеется риск допустить ошибку первого рода (то есть отвергнуть правильную нулевую гипотезу).

Вероятность совершить ошибку второго рода обозначают . Вероятность не совершить ошибку второго рода, то есть отвергнуть нулевую гипотезу, когда она неверна, называется мощностью критерия.

Найдите 2 минуты и прочитайте про:

Форма государства: понятие и элементы Если категория «сущность государства» отвечает на вопрос, в чем заключается главное, закономерное, определяющее в государстве, то.
ОТНОШЕНИЯ МЕЖДУ ПОНЯТИЯМИ. КРУГИ ЭЙЛЕРА ПОНЯТИЕ Каждый предмет или явление обладает некими свойствами (признаками).
Классификация нарушений безопасности связи и их характеристика, порядок проведения расследований по фактам грубых нарушений безопасности связи Нарушения безопасности связи подразделяются на три категории: 1-ой категории, 2-ой категории и 3-ей категории.
Особенности введения масляных растворов. 1. Масляные растворы вводятся чаще — подкожно, реже — внутримышечно. 2. НЕЛЬЗЯ ДОПУСКАТЬ введение масляных растворов в кровеносный.
Определение функциональной недостаточности (нарушения) суставов Для определения ФНС при МСЭ используются информативные методы: изометрическая нагрузка.

Источник

Статистическая гипотеза. Ошибки первого и второго рода

Тема: Проверка статистических гипотез

1. Статистическая гипотеза. Ошибки первого и второго рода

2. Статистический критерий проверки нулевой гипотезы

3. Сравнение двух дисперсий нормальных генеральных совокупностей

4. Проверка о распределении генеральной совокупности. Критерий Пирсона

Статистическая гипотеза. Ошибки первого и второго рода

В некоторых случаях требуется знать закон распределения генеральной совокупности, который неизвестен, однако есть основания предполагать, что он имеет определенный вид (например, экспоненциальный). Тогда выдвигается гипотеза: генеральная совокупность распределена по экспоненциальному закону.

В других случаях закон распределения известен, но неизвестны его параметры. Если есть основания предполагать, что неизвестный параметр равен определенному значению , то выдвигается гипотеза: .

Статистической называют гипотезу о виде неизвестного распределения или о параметрах известных распределений.

Наряду с данной гипотезой рассматривают и противоречащую ей гипотезу. В случае когда выдвинутая гипотеза отвергается, обычно принимается противоречащая ей гипотеза.

Нулевой (основной) называют выдвинутую гипотезу H.

Конкурирующей (альтернативной) называют гипотезу H1, которая противоречит основной.

Например, если нулевая гипотеза H: Mx=10 (т.е. математическое ожидание нормально распределенной величины равно 10). Тогда гипотеза H1 может иметь вид H1: Mx ¹ 10.

Проверку правильности или неправильности выдвинутой гипотезы проводят статистическими методами. В результате такой проверки может быть принято правильное или неправильное решение. Поэтому различают ошибки двух родов.

Ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза.

Ошибка второго рода состоит в том, что будет принята неправильная гипотеза.

Например, основная гипотеза состоит в том, что предприятие получает прибыль. Если это правильная гипотеза, то ошибка первого рода состоит в том, что данная гипотеза отвергается. Если принимается решение о том, что прибыль предприятие не получает, то это ошибка второго рода.

Обычно ошибка первого рода влечет за собой ошибку второго рода: если отвергнута гипотеза о том, что предприятие получает прибыль, то, естественно, принимается решение о том, что оно не имеет прибыли.

Однако на практике возможны и другие ситуации. В большинстве случаев рассматриваются гипотезы о законах распределения. Если отвергается правильный закон распределения, то совершается ошибка первого рода. Но после этого может быть принято решение уточнить данные, т.е другая гипотеза не принимается. Если же принимается другое распределение, то совершается ошибка второго рода.

Иногда ошибку первого рода называют «альфа-риск», а ошибку второго рода – «бета-риск».

Источник

2.4. Статистическая проверка гипотез

Статистической называют гипотезу о виде закона распределения или о параметрах известного распределения. В первом случае гипотеза непараметрическая, во втором – параметрическая.

Гипотеза Н, подлежащая проверке, называется нулевой (основной). Наряду с нулевой рассматривают гипотезуН1, которая будет приниматься, если отклоняется Н. Такая гипотеза называется альтернативной (конкурирующей). Например, если проверяется гипотеза о равенстве параметра Θ некоторому значению Θ, т.е. Н: Θ= Θ, то в качестве альтернативной могут рассматриваться следующие гипотезы:

; ;;.

Выбор альтернативной гипотезы определяется конкретной формулировкой задачи.

Гипотезу называют простой, если она содержит одно конкретное предположение. Гипотезу называют сложной, если она состоит из конечного или бесконечного числа простых гипотез (;;).

Сущность проверки статистической гипотезы заключается в том, чтобы установить, согласуются или нет данные наблюдений и выдвинутая гипотеза. Эта задача решается с помощью специальных методов математической статистики – методов статической проверки гипотез.

При проверке гипотезы выборочные данные могут противоречить гипотезе Но. Тогда она отклоняется. Если же статистические данные согласуются с выдвинутой гипотезой, то она не отклоняется. В последнем случае часто говорят, что нулевая гипотеза принимается (такая формулировка не совсем точна, однако она широко распространена). Статистическая проверка гипотез на основании выборочных данных неизбежно связана с риском принятия ложного решения. При этом возможны ошибки двух родов.

Ошибка первого рода состоит в том, что будет отвергнута правильная нулевая гипотеза.

Ошибка второго рода состоит в том, что будет принята нулевая гипотеза, в то время как в действительности верна альтернативная гипотеза.

Возможные результаты статистических выводов представлены следующей таблицей:

про верки гипотезы

Возможные состояния гипотезы

Ошибка первого рода

Ошибка второго рода

Последствия указанных ошибок неравнозначны. Первая приводит к более осторожному, консервативному решению, вторая — к неоправданному риску. Что лучше или хуже — зависит от конкретной постановки задачи и содержания нулевой гипотезы. Например, если Но состоит в признании продукции предприятия качественной и допущена ошибка первого рода, то будет забракована годная продукция. Допустив ошибку второго рода, мы отправим потребителю брак. Очевидно, последствия второй ошибки более серьезны с точки зрения имиджа фирмы и ее долгосрочных перспектив.

Исключить ошибки первого и второго рода невозможно в силу ограниченности выборки. Поэтому стремятся минимизировать потери от этих ошибок. Отметим, что одновременное уменьшение вероятностей данных ошибок невозможно, так как задачи их уменьшения являются конкурирующими, и снижение вероятности допустить одну из них влечет за собой увеличение вероятности допустить другую. В большинстве случаев единственный способ уменьшения вероятности ошибок состоит в увеличении объема выборки.

Вероятность совершить ошибку первого рода принято обозначать буквой α, и ее называют уровнем значимости. Вероятность совершить ошибку второго рода обозначают β. Тогда вероятность не совершить ошибку второго рода (1 — β) называется мощностью критерия.

Обычно значения α задают заранее, «круглыми» числами (например, 0,1; 0,05; 0,01 и т.п.), а затем стремятся построить критерий наибольшей мощности. Таким образом, если α = 0,05, то это означает, что исследователь не хочет совершить ошибку первого рода более чем в 5 случаях из 100.

Проверку статистической гипотезы осуществляют на основании данных выборки. Для этого используют специально подобранную СВ (статистику, критерий), точное или приближенное значение которой известно. Эту величину обозначают:

U (или Z) — если она имеет стандартизированное нормальное распределение;

T если она распределена по закону Стьюдента;

— если она распределена по закону ;

F — если она имеет распределение Фишера.

В целях общности будем обозначать такую СВ через К.

Таким образом, статистическим критерием называют СВ К, которая служит для проверки нулевой гипотезы. После выбора определенного критерия множество всех его возможных значений разбивают на два непересекающихся подмножества: одно из них содержит значения критерия, при которых нулевая гипотеза отклоняется, другое — при которых она не отклоняется.

Совокупность значений критерия, при которых нулевую гипотезу отклоняют, называют критической областью. Совокупность значений критерия, при которых нулевую гипотезу не отклоняют, называют областью принятия гипотезы.

Основной принцип проверки статистических гипотез можно сформулировать так: если наблюдаемое значение критерия К (вычисленное по выборке) принадлежит критической области, то нулевую гипотезу отклоняют. Если же наблюдаемое значение критерия К принадлежит области принятия гипотезы, то нулевую гипотезу не отклоняют (принимают).

Точки, разделяющие критическую область и область принятия гипотезы, называют критическими.

Перейдем к определению критических точек, а следовательно, и критической области.

В основу этого определения положен принцип практической невозможности маловероятных событий (принцип практической уверенности): если вероятность события А в данном испытании очень мала, то при однократном выполнении испытания можно быть уверенным в том, что событие А не произойдёт, и в практической деятельности вести себя так, как будто событие А вообще невозможно. Этот принцип не может быть доказан математически, но подтверждается всем практическим опытом человеческой деятельности. Например, отправляясь в путешествие самолётом, мы не рассчитываем погибнуть в авиационной катастрофе, хотя некоторая (весьма малая) вероятность такого события существует. Заметим, что принцип сформулирован лишь «при однократном выполнении испытания». При многократном повторении испытаний мы уже не можем считать маловероятное событие А практически невозможным.

Пусть для проверки нулевой гипотезы Но служит критерий К. Тогда вероятность того, что СВ К попадет в произвольный интервал ),можно найти по формуле: , а.

3ададим вероятность α настолько малой (0,05; 0,01), чтобы попадание СВ К за пределы интервала можно было бы считать маловероятным событием. Тогда, исходя из принципа практической невозможности маловероятных событий, можно считать, что если Но справедлива, то при ее проверке с помощью критерия К по данным одной выборки наблюдаемое значение К должно наверняка попасть в интервал . Если же наблюдаемое значение К попадает за пределы указанного интервала, то произойдет маловероятное, практически невозможное событие. Это дает основание считать, что с вероятностью 1 — α нулевая гипотеза Н несправедлива.

Точки являются критическими.

Область принятия гипотезы

Критическая область называется двусторонней критической областью. Она определяется в случае, когда альтернативная гипотеза имеет вид: .

Кроме двусторонней, рассматривают также односторонние критические областиправостороннюю и левостороннюю.

Правосторонней называют критическую область, определяемую из соотношения . Она используется в случае, когда альтернативная гипотеза имеет вид: .

Левосторонней называют критическую область , определяемую из соотношения . Она используется в случае, когда альтернативная гипотеза имеет вид: .

Общая схема проверки гипотез:

1. Формулировка проверяемой (нулевой — Но) и альтернативной 1) гипотез.

Выбор соответствующего уровня значимости α.

Определение объема выборки п.

Определение критической области и области принятия гипотезы.

Вычисление наблюдаемого значения критерия Кнабл.

Источник

This article is about erroneous outcomes of statistical tests. For closely related concepts in binary classification and testing generally, see false positives and false negatives.

In statistical hypothesis testing, a type I error is the mistaken rejection of an actually true null hypothesis (also known as a «false positive» finding or conclusion; example: «an innocent person is convicted»), while a type II error is the failure to reject a null hypothesis that is actually false (also known as a «false negative» finding or conclusion; example: «a guilty person is not convicted»).[1] Much of statistical theory revolves around the minimization of one or both of these errors, though the complete elimination of either is a statistical impossibility if the outcome is not determined by a known, observable causal process.
By selecting a low threshold (cut-off) value and modifying the alpha (α) level, the quality of the hypothesis test can be increased.[2] The knowledge of type I errors and type II errors is widely used in medical science, biometrics and computer science.[clarification needed]

Intuitively, type I errors can be thought of as errors of commission, i.e. the researcher unluckily concludes that something is the fact. For instance, consider a study where researchers compare a drug with a placebo. If the patients who are given the drug get better than the patients given the placebo by chance, it may appear that the drug is effective, but in fact the conclusion is incorrect.
In reverse, type II errors are errors of omission. In the example above, if the patients who got the drug did not get better at a higher rate than the ones who got the placebo, but this was a random fluke, that would be a type II error. The consequence of a type II error depends on the size and direction of the missed determination and the circumstances. An expensive cure for one in a million patients may be inconsequential even if it truly is a cure.

Definition[edit]

Statistical background[edit]

In statistical test theory, the notion of a statistical error is an integral part of hypothesis testing. The test goes about choosing about two competing propositions called null hypothesis, denoted by H0 and alternative hypothesis, denoted by H1. This is conceptually similar to the judgement in a court trial. The null hypothesis corresponds to the position of the defendant: just as he is presumed to be innocent until proven guilty, so is the null hypothesis presumed to be true until the data provide convincing evidence against it. The alternative hypothesis corresponds to the position against the defendant. Specifically, the null hypothesis also involves the absence of a difference or the absence of an association. Thus, the null hypothesis can never be that there is a difference or an association.

If the result of the test corresponds with reality, then a correct decision has been made. However, if the result of the test does not correspond with reality, then an error has occurred. There are two situations in which the decision is wrong. The null hypothesis may be true, whereas we reject H0. On the other hand, the alternative hypothesis H1 may be true, whereas we do not reject H0. Two types of error are distinguished: type I error and type II error.[3]

Type I error[edit]

The first kind of error is the mistaken rejection of a null hypothesis as the result of a test procedure. This kind of error is called a type I error (false positive) and is sometimes called an error of the first kind. In terms of the courtroom example, a type I error corresponds to convicting an innocent defendant.

Type II error[edit]

The second kind of error is the mistaken failure to reject the null hypothesis as the result of a test procedure. This sort of error is called a type II error (false negative) and is also referred to as an error of the second kind. In terms of the courtroom example, a type II error corresponds to acquitting a criminal.[4]

Crossover error rate[edit]

The crossover error rate (CER) is the point at which type I errors and type II errors are equal. A system with a lower CER value provides more accuracy than a system with a higher CER value.

False positive and false negative[edit]

In terms of false positives and false negatives, a positive result corresponds to rejecting the null hypothesis, while a negative result corresponds to failing to reject the null hypothesis; «false» means the conclusion drawn is incorrect. Thus, a type I error is equivalent to a false positive, and a type II error is equivalent to a false negative.

Table of error types[edit]

Tabularised relations between truth/falseness of the null hypothesis and outcomes of the test:[5]

 Table of error types Null hypothesis (H0) is
 
True False
Decision
about null
hypothesis (H0)
Don’t
reject
Correct inference
(true negative)

(probability = 1−α)

Type II error
(false negative)
(probability = β
Reject Type I error
(false positive)
(probability = α
Correct inference
(true positive)

(probability = 1−β)
 

Error rate[edit]

The results obtained from negative sample (left curve) overlap with the results obtained from positive samples (right curve). By moving the result cutoff value (vertical bar), the rate of false positives (FP) can be decreased, at the cost of raising the number of false negatives (FN), or vice versa (TP = True Positives, TPR = True Positive Rate, FPR = False Positive Rate, TN = True Negatives).

A perfect test would have zero false positives and zero false negatives. However, statistical methods are probabilistic, and it cannot be known for certain whether statistical conclusions are correct. Whenever there is uncertainty, there is the possibility of making an error. Considering this nature of statistics science, all statistical hypothesis tests have a probability of making type I and type II errors.[6]

  • The type I error rate is the probability of rejecting the null hypothesis given that it is true. The test is designed to keep the type I error rate below a prespecified bound called the significance level, usually denoted by the Greek letter α (alpha) and is also called the alpha level. Usually, the significance level is set to 0.05 (5%), implying that it is acceptable to have a 5% probability of incorrectly rejecting the true null hypothesis.[7]
  • The rate of the type II error is denoted by the Greek letter β (beta) and related to the power of a test, which equals 1−β.[8]

These two types of error rates are traded off against each other: for any given sample set, the effort to reduce one type of error generally results in increasing the other type of error.[9]

The quality of hypothesis test[edit]

The same idea can be expressed in terms of the rate of correct results and therefore used to minimize error rates and improve the quality of hypothesis test. To reduce the probability of committing a type I error, making the alpha value more stringent is quite simple and efficient. To decrease the probability of committing a type II error, which is closely associated with analyses’ power, either increasing the test’s sample size or relaxing the alpha level could increase the analyses’ power.[10] A test statistic is robust if the type I error rate is controlled.

Varying different threshold (cut-off) value could also be used to make the test either more specific or more sensitive, which in turn elevates the test quality. For example, imagine a medical test, in which an experimenter might measure the concentration of a certain protein in the blood sample. The experimenter could adjust the threshold (black vertical line in the figure) and people would be diagnosed as having diseases if any number is detected above this certain threshold. According to the image, changing the threshold would result in changes in false positives and false negatives, corresponding to movement on the curve.[11]

Example[edit]

Since in a real experiment it is impossible to avoid all type I and type II errors, it is important to consider the amount of risk one is willing to take to falsely reject H0 or accept H0. The solution to this question would be to report the p-value or significance level α of the statistic. For example, if the p-value of a test statistic result is estimated at 0.0596, then there is a probability of 5.96% that we falsely reject H0. Or, if we say, the statistic is performed at level α, like 0.05, then we allow to falsely reject H0 at 5%. A significance level α of 0.05 is relatively common, but there is no general rule that fits all scenarios.

Vehicle speed measuring[edit]

The speed limit of a freeway in the United States is 120 kilometers per hour. A device is set to measure the speed of passing vehicles. Suppose that the device will conduct three measurements of the speed of a passing vehicle, recording as a random sample X1, X2, X3. The traffic police will or will not fine the drivers depending on the average speed {bar {X}}. That is to say, the test statistic

{displaystyle T={frac {X_{1}+X_{2}+X_{3}}{3}}={bar {X}}}

In addition, we suppose that the measurements X1, X2, X3 are modeled as normal distribution N(μ,4). Then, T should follow N(μ,4/3) and the parameter μ represents the true speed of passing vehicle. In this experiment, the null hypothesis H0 and the alternative hypothesis H1 should be

H0: μ=120     against      H1: μ>120.

If we perform the statistic level at α=0.05, then a critical value c should be calculated to solve

{displaystyle Pleft(Zgeqslant {frac {c-120}{frac {2}{sqrt {3}}}}right)=0.05}

According to change-of-units rule for the normal distribution. Referring to Z-table, we can get

{displaystyle {frac {c-120}{frac {2}{sqrt {3}}}}=1.645Rightarrow c=121.9}

Here, the critical region. That is to say, if the recorded speed of a vehicle is greater than critical value 121.9, the driver will be fined. However, there are still 5% of the drivers are falsely fined since the recorded average speed is greater than 121.9 but the true speed does not pass 120, which we say, a type I error.

The type II error corresponds to the case that the true speed of a vehicle is over 120 kilometers per hour but the driver is not fined. For example, if the true speed of a vehicle μ=125, the probability that the driver is not fined can be calculated as

{displaystyle P=(T<121.9|mu =125)=Pleft({frac {T-125}{frac {2}{sqrt {3}}}}<{frac {121.9-125}{frac {2}{sqrt {3}}}}right)=phi (-2.68)=0.0036}

which means, if the true speed of a vehicle is 125, the driver has the probability of 0.36% to avoid the fine when the statistic is performed at level 125 since the recorded average speed is lower than 121.9. If the true speed is closer to 121.9 than 125, then the probability of avoiding the fine will also be higher.

The tradeoffs between type I error and type II error should also be considered. That is, in this case, if the traffic police do not want to falsely fine innocent drivers, the level α can be set to a smaller value, like 0.01. However, if that is the case, more drivers whose true speed is over 120 kilometers per hour, like 125, would be more likely to avoid the fine.

Etymology[edit]

In 1928, Jerzy Neyman (1894–1981) and Egon Pearson (1895–1980), both eminent statisticians, discussed the problems associated with «deciding whether or not a particular sample may be judged as likely to have been randomly drawn from a certain population»:[12] and, as Florence Nightingale David remarked, «it is necessary to remember the adjective ‘random’ [in the term ‘random sample’] should apply to the method of drawing the sample and not to the sample itself».[13]

They identified «two sources of error», namely:

(a) the error of rejecting a hypothesis that should have not been rejected, and
(b) the error of failing to reject a hypothesis that should have been rejected.

In 1930, they elaborated on these two sources of error, remarking that:

…in testing hypotheses two considerations must be kept in view, we must be able to reduce the chance of rejecting a true hypothesis to as low a value as desired; the test must be so devised that it will reject the hypothesis tested when it is likely to be false.

In 1933, they observed that these «problems are rarely presented in such a form that we can discriminate with certainty between the true and false hypothesis» . They also noted that, in deciding whether to fail to reject, or reject a particular hypothesis amongst a «set of alternative hypotheses», H1, H2…, it was easy to make an error:

…[and] these errors will be of two kinds:

(I) we reject H0 [i.e., the hypothesis to be tested] when it is true,[14]
(II) we fail to reject H0 when some alternative hypothesis HA or H1 is true. (There are various notations for the alternative).

In all of the papers co-written by Neyman and Pearson the expression H0 always signifies «the hypothesis to be tested».

In the same paper they call these two sources of error, errors of type I and errors of type II respectively.[15]

[edit]

Null hypothesis[edit]

It is standard practice for statisticians to conduct tests in order to determine whether or not a «speculative hypothesis» concerning the observed phenomena of the world (or its inhabitants) can be supported. The results of such testing determine whether a particular set of results agrees reasonably (or does not agree) with the speculated hypothesis.

On the basis that it is always assumed, by statistical convention, that the speculated hypothesis is wrong, and the so-called «null hypothesis» that the observed phenomena simply occur by chance (and that, as a consequence, the speculated agent has no effect) – the test will determine whether this hypothesis is right or wrong. This is why the hypothesis under test is often called the null hypothesis (most likely, coined by Fisher (1935, p. 19)), because it is this hypothesis that is to be either nullified or not nullified by the test. When the null hypothesis is nullified, it is possible to conclude that data support the «alternative hypothesis» (which is the original speculated one).

The consistent application by statisticians of Neyman and Pearson’s convention of representing «the hypothesis to be tested» (or «the hypothesis to be nullified») with the expression H0 has led to circumstances where many understand the term «the null hypothesis» as meaning «the nil hypothesis» – a statement that the results in question have arisen through chance. This is not necessarily the case – the key restriction, as per Fisher (1966), is that «the null hypothesis must be exact, that is free from vagueness and ambiguity, because it must supply the basis of the ‘problem of distribution,’ of which the test of significance is the solution.»[16] As a consequence of this, in experimental science the null hypothesis is generally a statement that a particular treatment has no effect; in observational science, it is that there is no difference between the value of a particular measured variable, and that of an experimental prediction.[citation needed]

Statistical significance[edit]

If the probability of obtaining a result as extreme as the one obtained, supposing that the null hypothesis were true, is lower than a pre-specified cut-off probability (for example, 5%), then the result is said to be statistically significant and the null hypothesis is rejected.

British statistician Sir Ronald Aylmer Fisher (1890–1962) stressed that the «null hypothesis»:

… is never proved or established, but is possibly disproved, in the course of experimentation. Every experiment may be said to exist only in order to give the facts a chance of disproving the null hypothesis.

— Fisher, 1935, p.19

Application domains[edit]

Medicine[edit]

In the practice of medicine, the differences between the applications of screening and testing are considerable.

Medical screening[edit]

Screening involves relatively cheap tests that are given to large populations, none of whom manifest any clinical indication of disease (e.g., Pap smears).

Testing involves far more expensive, often invasive, procedures that are given only to those who manifest some clinical indication of disease, and are most often applied to confirm a suspected diagnosis.

For example, most states in the USA require newborns to be screened for phenylketonuria and hypothyroidism, among other congenital disorders.

Hypothesis: «The newborns have phenylketonuria and hypothyroidism»

Null Hypothesis (H0): «The newborns do not have phenylketonuria and hypothyroidism»,

Type I error (false positive): The true fact is that the newborns do not have phenylketonuria and hypothyroidism but we consider they have the disorders according to the data.

Type II error (false negative): The true fact is that the newborns have phenylketonuria and hypothyroidism but we consider they do not have the disorders according to the data.

Although they display a high rate of false positives, the screening tests are considered valuable because they greatly increase the likelihood of detecting these disorders at a far earlier stage.

The simple blood tests used to screen possible blood donors for HIV and hepatitis have a significant rate of false positives; however, physicians use much more expensive and far more precise tests to determine whether a person is actually infected with either of these viruses.

Perhaps the most widely discussed false positives in medical screening come from the breast cancer screening procedure mammography. The US rate of false positive mammograms is up to 15%, the highest in world. One consequence of the high false positive rate in the US is that, in any 10-year period, half of the American women screened receive a false positive mammogram. False positive mammograms are costly, with over $100 million spent annually in the U.S. on follow-up testing and treatment. They also cause women unneeded anxiety. As a result of the high false positive rate in the US, as many as 90–95% of women who get a positive mammogram do not have the condition. The lowest rate in the world is in the Netherlands, 1%. The lowest rates are generally in Northern Europe where mammography films are read twice and a high threshold for additional testing is set (the high threshold decreases the power of the test).

The ideal population screening test would be cheap, easy to administer, and produce zero false-negatives, if possible. Such tests usually produce more false-positives, which can subsequently be sorted out by more sophisticated (and expensive) testing.

Medical testing[edit]

False negatives and false positives are significant issues in medical testing.

Hypothesis: «The patients have the specific disease».

Null hypothesis (H0): «The patients do not have the specific disease».

Type I error (false positive): «The true fact is that the patients do not have a specific disease but the physicians judges the patients was ill according to the test reports».

False positives can also produce serious and counter-intuitive problems when the condition being searched for is rare, as in screening. If a test has a false positive rate of one in ten thousand, but only one in a million samples (or people) is a true positive, most of the positives detected by that test will be false. The probability that an observed positive result is a false positive may be calculated using Bayes’ theorem.

Type II error (false negative): «The true fact is that the disease is actually present but the test reports provide a falsely reassuring message to patients and physicians that the disease is absent».

False negatives produce serious and counter-intuitive problems, especially when the condition being searched for is common. If a test with a false negative rate of only 10% is used to test a population with a true occurrence rate of 70%, many of the negatives detected by the test will be false.

This sometimes leads to inappropriate or inadequate treatment of both the patient and their disease. A common example is relying on cardiac stress tests to detect coronary atherosclerosis, even though cardiac stress tests are known to only detect limitations of coronary artery blood flow due to advanced stenosis.

Biometrics[edit]

Biometric matching, such as for fingerprint recognition, facial recognition or iris recognition, is susceptible to type I and type II errors.

Hypothesis: «The input does not identify someone in the searched list of people»

Null hypothesis: «The input does identify someone in the searched list of people»

Type I error (false reject rate): «The true fact is that the person is someone in the searched list but the system concludes that the person is not according to the data».

Type II error (false match rate): «The true fact is that the person is not someone in the searched list but the system concludes that the person is someone whom we are looking for according to the data».

The probability of type I errors is called the «false reject rate» (FRR) or false non-match rate (FNMR), while the probability of type II errors is called the «false accept rate» (FAR) or false match rate (FMR).

If the system is designed to rarely match suspects then the probability of type II errors can be called the «false alarm rate». On the other hand, if the system is used for validation (and acceptance is the norm) then the FAR is a measure of system security, while the FRR measures user inconvenience level.

Security screening[edit]

False positives are routinely found every day in airport security screening, which are ultimately visual inspection systems. The installed security alarms are intended to prevent weapons being brought onto aircraft; yet they are often set to such high sensitivity that they alarm many times a day for minor items, such as keys, belt buckles, loose change, mobile phones, and tacks in shoes.

Here, the null hypothesis is that the item is not a weapon, while the alternative hypothesis is that the item is a weapon.

A type I error (false positive): «The true fact is that the item is not a weapon but the system still alarms».

Type II error (false negative) «The true fact is that the item is a weapon but the system keeps silent at this time».

The ratio of false positives (identifying an innocent traveler as a terrorist) to true positives (detecting a would-be terrorist) is, therefore, very high; and because almost every alarm is a false positive, the positive predictive value of these screening tests is very low.

The relative cost of false results determines the likelihood that test creators allow these events to occur. As the cost of a false negative in this scenario is extremely high (not detecting a bomb being brought onto a plane could result in hundreds of deaths) whilst the cost of a false positive is relatively low (a reasonably simple further inspection) the most appropriate test is one with a low statistical specificity but high statistical sensitivity (one that allows a high rate of false positives in return for minimal false negatives).

Computers[edit]

The notions of false positives and false negatives have a wide currency in the realm of computers and computer applications, including computer security, spam filtering, Malware, Optical character recognition and many others.

For example, in the case of spam filtering the hypothesis here is that the message is a spam.

Thus, null hypothesis: «The message is not a spam».

Type I error (false positive): «Spam filtering or spam blocking techniques wrongly classify a legitimate email message as spam and, as a result, interferes with its delivery».

While most anti-spam tactics can block or filter a high percentage of unwanted emails, doing so without creating significant false-positive results is a much more demanding task.

Type II error (false negative): «Spam email is not detected as spam, but is classified as non-spam». A low number of false negatives is an indicator of the efficiency of spam filtering.

See also[edit]

  • Binary classification
  • Detection theory
  • Egon Pearson
  • Ethics in mathematics
  • False positive paradox
  • False discovery rate
  • Family-wise error rate
  • Information retrieval performance measures
  • Neyman–Pearson lemma
  • Null hypothesis
  • Probability of a hypothesis for Bayesian inference
  • Precision and recall
  • Prosecutor’s fallacy
  • Prozone phenomenon
  • Receiver operating characteristic
  • Sensitivity and specificity
  • Statisticians’ and engineers’ cross-reference of statistical terms
  • Testing hypotheses suggested by the data
  • Type III error

References[edit]

  1. ^ «Type I Error and Type II Error». explorable.com. Retrieved 14 December 2019.
  2. ^ Chow, Y. W.; Pietranico, R.; Mukerji, A. (27 October 1975). «Studies of oxygen binding energy to hemoglobin molecule». Biochemical and Biophysical Research Communications. 66 (4): 1424–1431. doi:10.1016/0006-291x(75)90518-5. ISSN 0006-291X. PMID 6.
  3. ^ A modern introduction to probability and statistics : understanding why and how. Dekking, Michel, 1946-. London: Springer. 2005. ISBN 978-1-85233-896-1. OCLC 262680588.{{cite book}}: CS1 maint: others (link)
  4. ^ A modern introduction to probability and statistics : understanding why and how. Dekking, Michel, 1946-. London: Springer. 2005. ISBN 978-1-85233-896-1. OCLC 262680588.{{cite book}}: CS1 maint: others (link)
  5. ^ Sheskin, David (2004). Handbook of Parametric and Nonparametric Statistical Procedures. CRC Press. p. 54. ISBN 1584884401.
  6. ^ Smith, R. J.; Bryant, R. G. (27 October 1975). «Metal substitutions incarbonic anhydrase: a halide ion probe study». Biochemical and Biophysical Research Communications. 66 (4): 1281–1286. doi:10.1016/0006-291x(75)90498-2. ISSN 0006-291X. PMC 9650581. PMID 3.
  7. ^ Lindenmayer, David. (2005). Practical conservation biology. Burgman, Mark A. Collingwood, Vic.: CSIRO Pub. ISBN 0-643-09310-9. OCLC 65216357.
  8. ^ Chow, Y. W.; Pietranico, R.; Mukerji, A. (27 October 1975). «Studies of oxygen binding energy to hemoglobin molecule». Biochemical and Biophysical Research Communications. 66 (4): 1424–1431. doi:10.1016/0006-291x(75)90518-5. ISSN 0006-291X. PMID 6.
  9. ^ Smith, R. J.; Bryant, R. G. (27 October 1975). «Metal substitutions incarbonic anhydrase: a halide ion probe study». Biochemical and Biophysical Research Communications. 66 (4): 1281–1286. doi:10.1016/0006-291x(75)90498-2. ISSN 0006-291X. PMC 9650581. PMID 3.
  10. ^ Smith, R. J.; Bryant, R. G. (27 October 1975). «Metal substitutions incarbonic anhydrase: a halide ion probe study». Biochemical and Biophysical Research Communications. 66 (4): 1281–1286. doi:10.1016/0006-291x(75)90498-2. ISSN 0006-291X. PMC 9650581. PMID 3.
  11. ^ Moroi, K.; Sato, T. (15 August 1975). «Comparison between procaine and isocarboxazid metabolism in vitro by a liver microsomal amidase-esterase». Biochemical Pharmacology. 24 (16): 1517–1521. doi:10.1016/0006-2952(75)90029-5. ISSN 1873-2968. PMID 8.
  12. ^ NEYMAN, J.; PEARSON, E. S. (1928). «On the Use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference Part I». Biometrika. 20A (1–2): 175–240. doi:10.1093/biomet/20a.1-2.175. ISSN 0006-3444.
  13. ^ C.I.K.F. (July 1951). «Probability Theory for Statistical Methods. By F. N. David. [Pp. ix + 230. Cambridge University Press. 1949. Price 155.]». Journal of the Staple Inn Actuarial Society. 10 (3): 243–244. doi:10.1017/s0020269x00004564. ISSN 0020-269X.
  14. ^ Note that the subscript in the expression H0 is a zero (indicating null), and is not an «O» (indicating original).
  15. ^ Neyman, J.; Pearson, E. S. (30 October 1933). «The testing of statistical hypotheses in relation to probabilities a priori». Mathematical Proceedings of the Cambridge Philosophical Society. 29 (4): 492–510. Bibcode:1933PCPS…29..492N. doi:10.1017/s030500410001152x. ISSN 0305-0041. S2CID 119855116.
  16. ^ Fisher, R.A. (1966). The design of experiments. 8th edition. Hafner:Edinburgh.

Bibliography[edit]

  • Betz, M.A. & Gabriel, K.R., «Type IV Errors and Analysis of Simple Effects», Journal of Educational Statistics, Vol.3, No.2, (Summer 1978), pp. 121–144.
  • David, F.N., «A Power Function for Tests of Randomness in a Sequence of Alternatives», Biometrika, Vol.34, Nos.3/4, (December 1947), pp. 335–339.
  • Fisher, R.A., The Design of Experiments, Oliver & Boyd (Edinburgh), 1935.
  • Gambrill, W., «False Positives on Newborns’ Disease Tests Worry Parents», Health Day, (5 June 2006). [1] Archived 17 May 2018 at the Wayback Machine
  • Kaiser, H.F., «Directional Statistical Decisions», Psychological Review, Vol.67, No.3, (May 1960), pp. 160–167.
  • Kimball, A.W., «Errors of the Third Kind in Statistical Consulting», Journal of the American Statistical Association, Vol.52, No.278, (June 1957), pp. 133–142.
  • Lubin, A., «The Interpretation of Significant Interaction», Educational and Psychological Measurement, Vol.21, No.4, (Winter 1961), pp. 807–817.
  • Marascuilo, L.A. & Levin, J.R., «Appropriate Post Hoc Comparisons for Interaction and nested Hypotheses in Analysis of Variance Designs: The Elimination of Type-IV Errors», American Educational Research Journal, Vol.7., No.3, (May 1970), pp. 397–421.
  • Mitroff, I.I. & Featheringham, T.R., «On Systemic Problem Solving and the Error of the Third Kind», Behavioral Science, Vol.19, No.6, (November 1974), pp. 383–393.
  • Mosteller, F., «A k-Sample Slippage Test for an Extreme Population», The Annals of Mathematical Statistics, Vol.19, No.1, (March 1948), pp. 58–65.
  • Moulton, R.T., «Network Security», Datamation, Vol.29, No.7, (July 1983), pp. 121–127.
  • Raiffa, H., Decision Analysis: Introductory Lectures on Choices Under Uncertainty, Addison–Wesley, (Reading), 1968.

External links[edit]

  • Bias and Confounding – presentation by Nigel Paneth, Graduate School of Public Health, University of Pittsburgh

This article is about erroneous outcomes of statistical tests. For closely related concepts in binary classification and testing generally, see false positives and false negatives.

In statistical hypothesis testing, a type I error is the mistaken rejection of an actually true null hypothesis (also known as a «false positive» finding or conclusion; example: «an innocent person is convicted»), while a type II error is the failure to reject a null hypothesis that is actually false (also known as a «false negative» finding or conclusion; example: «a guilty person is not convicted»).[1] Much of statistical theory revolves around the minimization of one or both of these errors, though the complete elimination of either is a statistical impossibility if the outcome is not determined by a known, observable causal process.
By selecting a low threshold (cut-off) value and modifying the alpha (α) level, the quality of the hypothesis test can be increased.[2] The knowledge of type I errors and type II errors is widely used in medical science, biometrics and computer science.[clarification needed]

Intuitively, type I errors can be thought of as errors of commission, i.e. the researcher unluckily concludes that something is the fact. For instance, consider a study where researchers compare a drug with a placebo. If the patients who are given the drug get better than the patients given the placebo by chance, it may appear that the drug is effective, but in fact the conclusion is incorrect.
In reverse, type II errors are errors of omission. In the example above, if the patients who got the drug did not get better at a higher rate than the ones who got the placebo, but this was a random fluke, that would be a type II error. The consequence of a type II error depends on the size and direction of the missed determination and the circumstances. An expensive cure for one in a million patients may be inconsequential even if it truly is a cure.

Definition[edit]

Statistical background[edit]

In statistical test theory, the notion of a statistical error is an integral part of hypothesis testing. The test goes about choosing about two competing propositions called null hypothesis, denoted by H0 and alternative hypothesis, denoted by H1. This is conceptually similar to the judgement in a court trial. The null hypothesis corresponds to the position of the defendant: just as he is presumed to be innocent until proven guilty, so is the null hypothesis presumed to be true until the data provide convincing evidence against it. The alternative hypothesis corresponds to the position against the defendant. Specifically, the null hypothesis also involves the absence of a difference or the absence of an association. Thus, the null hypothesis can never be that there is a difference or an association.

If the result of the test corresponds with reality, then a correct decision has been made. However, if the result of the test does not correspond with reality, then an error has occurred. There are two situations in which the decision is wrong. The null hypothesis may be true, whereas we reject H0. On the other hand, the alternative hypothesis H1 may be true, whereas we do not reject H0. Two types of error are distinguished: type I error and type II error.[3]

Type I error[edit]

The first kind of error is the mistaken rejection of a null hypothesis as the result of a test procedure. This kind of error is called a type I error (false positive) and is sometimes called an error of the first kind. In terms of the courtroom example, a type I error corresponds to convicting an innocent defendant.

Type II error[edit]

The second kind of error is the mistaken failure to reject the null hypothesis as the result of a test procedure. This sort of error is called a type II error (false negative) and is also referred to as an error of the second kind. In terms of the courtroom example, a type II error corresponds to acquitting a criminal.[4]

Crossover error rate[edit]

The crossover error rate (CER) is the point at which type I errors and type II errors are equal. A system with a lower CER value provides more accuracy than a system with a higher CER value.

False positive and false negative[edit]

In terms of false positives and false negatives, a positive result corresponds to rejecting the null hypothesis, while a negative result corresponds to failing to reject the null hypothesis; «false» means the conclusion drawn is incorrect. Thus, a type I error is equivalent to a false positive, and a type II error is equivalent to a false negative.

Table of error types[edit]

Tabularised relations between truth/falseness of the null hypothesis and outcomes of the test:[5]

 Table of error types Null hypothesis (H0) is
 
True False
Decision
about null
hypothesis (H0)
Don’t
reject
Correct inference
(true negative)

(probability = 1−α)

Type II error
(false negative)
(probability = β
Reject Type I error
(false positive)
(probability = α
Correct inference
(true positive)

(probability = 1−β)
 

Error rate[edit]

The results obtained from negative sample (left curve) overlap with the results obtained from positive samples (right curve). By moving the result cutoff value (vertical bar), the rate of false positives (FP) can be decreased, at the cost of raising the number of false negatives (FN), or vice versa (TP = True Positives, TPR = True Positive Rate, FPR = False Positive Rate, TN = True Negatives).

A perfect test would have zero false positives and zero false negatives. However, statistical methods are probabilistic, and it cannot be known for certain whether statistical conclusions are correct. Whenever there is uncertainty, there is the possibility of making an error. Considering this nature of statistics science, all statistical hypothesis tests have a probability of making type I and type II errors.[6]

  • The type I error rate is the probability of rejecting the null hypothesis given that it is true. The test is designed to keep the type I error rate below a prespecified bound called the significance level, usually denoted by the Greek letter α (alpha) and is also called the alpha level. Usually, the significance level is set to 0.05 (5%), implying that it is acceptable to have a 5% probability of incorrectly rejecting the true null hypothesis.[7]
  • The rate of the type II error is denoted by the Greek letter β (beta) and related to the power of a test, which equals 1−β.[8]

These two types of error rates are traded off against each other: for any given sample set, the effort to reduce one type of error generally results in increasing the other type of error.[9]

The quality of hypothesis test[edit]

The same idea can be expressed in terms of the rate of correct results and therefore used to minimize error rates and improve the quality of hypothesis test. To reduce the probability of committing a type I error, making the alpha value more stringent is quite simple and efficient. To decrease the probability of committing a type II error, which is closely associated with analyses’ power, either increasing the test’s sample size or relaxing the alpha level could increase the analyses’ power.[10] A test statistic is robust if the type I error rate is controlled.

Varying different threshold (cut-off) value could also be used to make the test either more specific or more sensitive, which in turn elevates the test quality. For example, imagine a medical test, in which an experimenter might measure the concentration of a certain protein in the blood sample. The experimenter could adjust the threshold (black vertical line in the figure) and people would be diagnosed as having diseases if any number is detected above this certain threshold. According to the image, changing the threshold would result in changes in false positives and false negatives, corresponding to movement on the curve.[11]

Example[edit]

Since in a real experiment it is impossible to avoid all type I and type II errors, it is important to consider the amount of risk one is willing to take to falsely reject H0 or accept H0. The solution to this question would be to report the p-value or significance level α of the statistic. For example, if the p-value of a test statistic result is estimated at 0.0596, then there is a probability of 5.96% that we falsely reject H0. Or, if we say, the statistic is performed at level α, like 0.05, then we allow to falsely reject H0 at 5%. A significance level α of 0.05 is relatively common, but there is no general rule that fits all scenarios.

Vehicle speed measuring[edit]

The speed limit of a freeway in the United States is 120 kilometers per hour. A device is set to measure the speed of passing vehicles. Suppose that the device will conduct three measurements of the speed of a passing vehicle, recording as a random sample X1, X2, X3. The traffic police will or will not fine the drivers depending on the average speed {bar {X}}. That is to say, the test statistic

{displaystyle T={frac {X_{1}+X_{2}+X_{3}}{3}}={bar {X}}}

In addition, we suppose that the measurements X1, X2, X3 are modeled as normal distribution N(μ,4). Then, T should follow N(μ,4/3) and the parameter μ represents the true speed of passing vehicle. In this experiment, the null hypothesis H0 and the alternative hypothesis H1 should be

H0: μ=120     against      H1: μ>120.

If we perform the statistic level at α=0.05, then a critical value c should be calculated to solve

{displaystyle Pleft(Zgeqslant {frac {c-120}{frac {2}{sqrt {3}}}}right)=0.05}

According to change-of-units rule for the normal distribution. Referring to Z-table, we can get

{displaystyle {frac {c-120}{frac {2}{sqrt {3}}}}=1.645Rightarrow c=121.9}

Here, the critical region. That is to say, if the recorded speed of a vehicle is greater than critical value 121.9, the driver will be fined. However, there are still 5% of the drivers are falsely fined since the recorded average speed is greater than 121.9 but the true speed does not pass 120, which we say, a type I error.

The type II error corresponds to the case that the true speed of a vehicle is over 120 kilometers per hour but the driver is not fined. For example, if the true speed of a vehicle μ=125, the probability that the driver is not fined can be calculated as

{displaystyle P=(T<121.9|mu =125)=Pleft({frac {T-125}{frac {2}{sqrt {3}}}}<{frac {121.9-125}{frac {2}{sqrt {3}}}}right)=phi (-2.68)=0.0036}

which means, if the true speed of a vehicle is 125, the driver has the probability of 0.36% to avoid the fine when the statistic is performed at level 125 since the recorded average speed is lower than 121.9. If the true speed is closer to 121.9 than 125, then the probability of avoiding the fine will also be higher.

The tradeoffs between type I error and type II error should also be considered. That is, in this case, if the traffic police do not want to falsely fine innocent drivers, the level α can be set to a smaller value, like 0.01. However, if that is the case, more drivers whose true speed is over 120 kilometers per hour, like 125, would be more likely to avoid the fine.

Etymology[edit]

In 1928, Jerzy Neyman (1894–1981) and Egon Pearson (1895–1980), both eminent statisticians, discussed the problems associated with «deciding whether or not a particular sample may be judged as likely to have been randomly drawn from a certain population»:[12] and, as Florence Nightingale David remarked, «it is necessary to remember the adjective ‘random’ [in the term ‘random sample’] should apply to the method of drawing the sample and not to the sample itself».[13]

They identified «two sources of error», namely:

(a) the error of rejecting a hypothesis that should have not been rejected, and
(b) the error of failing to reject a hypothesis that should have been rejected.

In 1930, they elaborated on these two sources of error, remarking that:

…in testing hypotheses two considerations must be kept in view, we must be able to reduce the chance of rejecting a true hypothesis to as low a value as desired; the test must be so devised that it will reject the hypothesis tested when it is likely to be false.

In 1933, they observed that these «problems are rarely presented in such a form that we can discriminate with certainty between the true and false hypothesis» . They also noted that, in deciding whether to fail to reject, or reject a particular hypothesis amongst a «set of alternative hypotheses», H1, H2…, it was easy to make an error:

…[and] these errors will be of two kinds:

(I) we reject H0 [i.e., the hypothesis to be tested] when it is true,[14]
(II) we fail to reject H0 when some alternative hypothesis HA or H1 is true. (There are various notations for the alternative).

In all of the papers co-written by Neyman and Pearson the expression H0 always signifies «the hypothesis to be tested».

In the same paper they call these two sources of error, errors of type I and errors of type II respectively.[15]

[edit]

Null hypothesis[edit]

It is standard practice for statisticians to conduct tests in order to determine whether or not a «speculative hypothesis» concerning the observed phenomena of the world (or its inhabitants) can be supported. The results of such testing determine whether a particular set of results agrees reasonably (or does not agree) with the speculated hypothesis.

On the basis that it is always assumed, by statistical convention, that the speculated hypothesis is wrong, and the so-called «null hypothesis» that the observed phenomena simply occur by chance (and that, as a consequence, the speculated agent has no effect) – the test will determine whether this hypothesis is right or wrong. This is why the hypothesis under test is often called the null hypothesis (most likely, coined by Fisher (1935, p. 19)), because it is this hypothesis that is to be either nullified or not nullified by the test. When the null hypothesis is nullified, it is possible to conclude that data support the «alternative hypothesis» (which is the original speculated one).

The consistent application by statisticians of Neyman and Pearson’s convention of representing «the hypothesis to be tested» (or «the hypothesis to be nullified») with the expression H0 has led to circumstances where many understand the term «the null hypothesis» as meaning «the nil hypothesis» – a statement that the results in question have arisen through chance. This is not necessarily the case – the key restriction, as per Fisher (1966), is that «the null hypothesis must be exact, that is free from vagueness and ambiguity, because it must supply the basis of the ‘problem of distribution,’ of which the test of significance is the solution.»[16] As a consequence of this, in experimental science the null hypothesis is generally a statement that a particular treatment has no effect; in observational science, it is that there is no difference between the value of a particular measured variable, and that of an experimental prediction.[citation needed]

Statistical significance[edit]

If the probability of obtaining a result as extreme as the one obtained, supposing that the null hypothesis were true, is lower than a pre-specified cut-off probability (for example, 5%), then the result is said to be statistically significant and the null hypothesis is rejected.

British statistician Sir Ronald Aylmer Fisher (1890–1962) stressed that the «null hypothesis»:

… is never proved or established, but is possibly disproved, in the course of experimentation. Every experiment may be said to exist only in order to give the facts a chance of disproving the null hypothesis.

— Fisher, 1935, p.19

Application domains[edit]

Medicine[edit]

In the practice of medicine, the differences between the applications of screening and testing are considerable.

Medical screening[edit]

Screening involves relatively cheap tests that are given to large populations, none of whom manifest any clinical indication of disease (e.g., Pap smears).

Testing involves far more expensive, often invasive, procedures that are given only to those who manifest some clinical indication of disease, and are most often applied to confirm a suspected diagnosis.

For example, most states in the USA require newborns to be screened for phenylketonuria and hypothyroidism, among other congenital disorders.

Hypothesis: «The newborns have phenylketonuria and hypothyroidism»

Null Hypothesis (H0): «The newborns do not have phenylketonuria and hypothyroidism»,

Type I error (false positive): The true fact is that the newborns do not have phenylketonuria and hypothyroidism but we consider they have the disorders according to the data.

Type II error (false negative): The true fact is that the newborns have phenylketonuria and hypothyroidism but we consider they do not have the disorders according to the data.

Although they display a high rate of false positives, the screening tests are considered valuable because they greatly increase the likelihood of detecting these disorders at a far earlier stage.

The simple blood tests used to screen possible blood donors for HIV and hepatitis have a significant rate of false positives; however, physicians use much more expensive and far more precise tests to determine whether a person is actually infected with either of these viruses.

Perhaps the most widely discussed false positives in medical screening come from the breast cancer screening procedure mammography. The US rate of false positive mammograms is up to 15%, the highest in world. One consequence of the high false positive rate in the US is that, in any 10-year period, half of the American women screened receive a false positive mammogram. False positive mammograms are costly, with over $100 million spent annually in the U.S. on follow-up testing and treatment. They also cause women unneeded anxiety. As a result of the high false positive rate in the US, as many as 90–95% of women who get a positive mammogram do not have the condition. The lowest rate in the world is in the Netherlands, 1%. The lowest rates are generally in Northern Europe where mammography films are read twice and a high threshold for additional testing is set (the high threshold decreases the power of the test).

The ideal population screening test would be cheap, easy to administer, and produce zero false-negatives, if possible. Such tests usually produce more false-positives, which can subsequently be sorted out by more sophisticated (and expensive) testing.

Medical testing[edit]

False negatives and false positives are significant issues in medical testing.

Hypothesis: «The patients have the specific disease».

Null hypothesis (H0): «The patients do not have the specific disease».

Type I error (false positive): «The true fact is that the patients do not have a specific disease but the physicians judges the patients was ill according to the test reports».

False positives can also produce serious and counter-intuitive problems when the condition being searched for is rare, as in screening. If a test has a false positive rate of one in ten thousand, but only one in a million samples (or people) is a true positive, most of the positives detected by that test will be false. The probability that an observed positive result is a false positive may be calculated using Bayes’ theorem.

Type II error (false negative): «The true fact is that the disease is actually present but the test reports provide a falsely reassuring message to patients and physicians that the disease is absent».

False negatives produce serious and counter-intuitive problems, especially when the condition being searched for is common. If a test with a false negative rate of only 10% is used to test a population with a true occurrence rate of 70%, many of the negatives detected by the test will be false.

This sometimes leads to inappropriate or inadequate treatment of both the patient and their disease. A common example is relying on cardiac stress tests to detect coronary atherosclerosis, even though cardiac stress tests are known to only detect limitations of coronary artery blood flow due to advanced stenosis.

Biometrics[edit]

Biometric matching, such as for fingerprint recognition, facial recognition or iris recognition, is susceptible to type I and type II errors.

Hypothesis: «The input does not identify someone in the searched list of people»

Null hypothesis: «The input does identify someone in the searched list of people»

Type I error (false reject rate): «The true fact is that the person is someone in the searched list but the system concludes that the person is not according to the data».

Type II error (false match rate): «The true fact is that the person is not someone in the searched list but the system concludes that the person is someone whom we are looking for according to the data».

The probability of type I errors is called the «false reject rate» (FRR) or false non-match rate (FNMR), while the probability of type II errors is called the «false accept rate» (FAR) or false match rate (FMR).

If the system is designed to rarely match suspects then the probability of type II errors can be called the «false alarm rate». On the other hand, if the system is used for validation (and acceptance is the norm) then the FAR is a measure of system security, while the FRR measures user inconvenience level.

Security screening[edit]

False positives are routinely found every day in airport security screening, which are ultimately visual inspection systems. The installed security alarms are intended to prevent weapons being brought onto aircraft; yet they are often set to such high sensitivity that they alarm many times a day for minor items, such as keys, belt buckles, loose change, mobile phones, and tacks in shoes.

Here, the null hypothesis is that the item is not a weapon, while the alternative hypothesis is that the item is a weapon.

A type I error (false positive): «The true fact is that the item is not a weapon but the system still alarms».

Type II error (false negative) «The true fact is that the item is a weapon but the system keeps silent at this time».

The ratio of false positives (identifying an innocent traveler as a terrorist) to true positives (detecting a would-be terrorist) is, therefore, very high; and because almost every alarm is a false positive, the positive predictive value of these screening tests is very low.

The relative cost of false results determines the likelihood that test creators allow these events to occur. As the cost of a false negative in this scenario is extremely high (not detecting a bomb being brought onto a plane could result in hundreds of deaths) whilst the cost of a false positive is relatively low (a reasonably simple further inspection) the most appropriate test is one with a low statistical specificity but high statistical sensitivity (one that allows a high rate of false positives in return for minimal false negatives).

Computers[edit]

The notions of false positives and false negatives have a wide currency in the realm of computers and computer applications, including computer security, spam filtering, Malware, Optical character recognition and many others.

For example, in the case of spam filtering the hypothesis here is that the message is a spam.

Thus, null hypothesis: «The message is not a spam».

Type I error (false positive): «Spam filtering or spam blocking techniques wrongly classify a legitimate email message as spam and, as a result, interferes with its delivery».

While most anti-spam tactics can block or filter a high percentage of unwanted emails, doing so without creating significant false-positive results is a much more demanding task.

Type II error (false negative): «Spam email is not detected as spam, but is classified as non-spam». A low number of false negatives is an indicator of the efficiency of spam filtering.

See also[edit]

  • Binary classification
  • Detection theory
  • Egon Pearson
  • Ethics in mathematics
  • False positive paradox
  • False discovery rate
  • Family-wise error rate
  • Information retrieval performance measures
  • Neyman–Pearson lemma
  • Null hypothesis
  • Probability of a hypothesis for Bayesian inference
  • Precision and recall
  • Prosecutor’s fallacy
  • Prozone phenomenon
  • Receiver operating characteristic
  • Sensitivity and specificity
  • Statisticians’ and engineers’ cross-reference of statistical terms
  • Testing hypotheses suggested by the data
  • Type III error

References[edit]

  1. ^ «Type I Error and Type II Error». explorable.com. Retrieved 14 December 2019.
  2. ^ Chow, Y. W.; Pietranico, R.; Mukerji, A. (27 October 1975). «Studies of oxygen binding energy to hemoglobin molecule». Biochemical and Biophysical Research Communications. 66 (4): 1424–1431. doi:10.1016/0006-291x(75)90518-5. ISSN 0006-291X. PMID 6.
  3. ^ A modern introduction to probability and statistics : understanding why and how. Dekking, Michel, 1946-. London: Springer. 2005. ISBN 978-1-85233-896-1. OCLC 262680588.{{cite book}}: CS1 maint: others (link)
  4. ^ A modern introduction to probability and statistics : understanding why and how. Dekking, Michel, 1946-. London: Springer. 2005. ISBN 978-1-85233-896-1. OCLC 262680588.{{cite book}}: CS1 maint: others (link)
  5. ^ Sheskin, David (2004). Handbook of Parametric and Nonparametric Statistical Procedures. CRC Press. p. 54. ISBN 1584884401.
  6. ^ Smith, R. J.; Bryant, R. G. (27 October 1975). «Metal substitutions incarbonic anhydrase: a halide ion probe study». Biochemical and Biophysical Research Communications. 66 (4): 1281–1286. doi:10.1016/0006-291x(75)90498-2. ISSN 0006-291X. PMC 9650581. PMID 3.
  7. ^ Lindenmayer, David. (2005). Practical conservation biology. Burgman, Mark A. Collingwood, Vic.: CSIRO Pub. ISBN 0-643-09310-9. OCLC 65216357.
  8. ^ Chow, Y. W.; Pietranico, R.; Mukerji, A. (27 October 1975). «Studies of oxygen binding energy to hemoglobin molecule». Biochemical and Biophysical Research Communications. 66 (4): 1424–1431. doi:10.1016/0006-291x(75)90518-5. ISSN 0006-291X. PMID 6.
  9. ^ Smith, R. J.; Bryant, R. G. (27 October 1975). «Metal substitutions incarbonic anhydrase: a halide ion probe study». Biochemical and Biophysical Research Communications. 66 (4): 1281–1286. doi:10.1016/0006-291x(75)90498-2. ISSN 0006-291X. PMC 9650581. PMID 3.
  10. ^ Smith, R. J.; Bryant, R. G. (27 October 1975). «Metal substitutions incarbonic anhydrase: a halide ion probe study». Biochemical and Biophysical Research Communications. 66 (4): 1281–1286. doi:10.1016/0006-291x(75)90498-2. ISSN 0006-291X. PMC 9650581. PMID 3.
  11. ^ Moroi, K.; Sato, T. (15 August 1975). «Comparison between procaine and isocarboxazid metabolism in vitro by a liver microsomal amidase-esterase». Biochemical Pharmacology. 24 (16): 1517–1521. doi:10.1016/0006-2952(75)90029-5. ISSN 1873-2968. PMID 8.
  12. ^ NEYMAN, J.; PEARSON, E. S. (1928). «On the Use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference Part I». Biometrika. 20A (1–2): 175–240. doi:10.1093/biomet/20a.1-2.175. ISSN 0006-3444.
  13. ^ C.I.K.F. (July 1951). «Probability Theory for Statistical Methods. By F. N. David. [Pp. ix + 230. Cambridge University Press. 1949. Price 155.]». Journal of the Staple Inn Actuarial Society. 10 (3): 243–244. doi:10.1017/s0020269x00004564. ISSN 0020-269X.
  14. ^ Note that the subscript in the expression H0 is a zero (indicating null), and is not an «O» (indicating original).
  15. ^ Neyman, J.; Pearson, E. S. (30 October 1933). «The testing of statistical hypotheses in relation to probabilities a priori». Mathematical Proceedings of the Cambridge Philosophical Society. 29 (4): 492–510. Bibcode:1933PCPS…29..492N. doi:10.1017/s030500410001152x. ISSN 0305-0041. S2CID 119855116.
  16. ^ Fisher, R.A. (1966). The design of experiments. 8th edition. Hafner:Edinburgh.

Bibliography[edit]

  • Betz, M.A. & Gabriel, K.R., «Type IV Errors and Analysis of Simple Effects», Journal of Educational Statistics, Vol.3, No.2, (Summer 1978), pp. 121–144.
  • David, F.N., «A Power Function for Tests of Randomness in a Sequence of Alternatives», Biometrika, Vol.34, Nos.3/4, (December 1947), pp. 335–339.
  • Fisher, R.A., The Design of Experiments, Oliver & Boyd (Edinburgh), 1935.
  • Gambrill, W., «False Positives on Newborns’ Disease Tests Worry Parents», Health Day, (5 June 2006). [1] Archived 17 May 2018 at the Wayback Machine
  • Kaiser, H.F., «Directional Statistical Decisions», Psychological Review, Vol.67, No.3, (May 1960), pp. 160–167.
  • Kimball, A.W., «Errors of the Third Kind in Statistical Consulting», Journal of the American Statistical Association, Vol.52, No.278, (June 1957), pp. 133–142.
  • Lubin, A., «The Interpretation of Significant Interaction», Educational and Psychological Measurement, Vol.21, No.4, (Winter 1961), pp. 807–817.
  • Marascuilo, L.A. & Levin, J.R., «Appropriate Post Hoc Comparisons for Interaction and nested Hypotheses in Analysis of Variance Designs: The Elimination of Type-IV Errors», American Educational Research Journal, Vol.7., No.3, (May 1970), pp. 397–421.
  • Mitroff, I.I. & Featheringham, T.R., «On Systemic Problem Solving and the Error of the Third Kind», Behavioral Science, Vol.19, No.6, (November 1974), pp. 383–393.
  • Mosteller, F., «A k-Sample Slippage Test for an Extreme Population», The Annals of Mathematical Statistics, Vol.19, No.1, (March 1948), pp. 58–65.
  • Moulton, R.T., «Network Security», Datamation, Vol.29, No.7, (July 1983), pp. 121–127.
  • Raiffa, H., Decision Analysis: Introductory Lectures on Choices Under Uncertainty, Addison–Wesley, (Reading), 1968.

External links[edit]

  • Bias and Confounding – presentation by Nigel Paneth, Graduate School of Public Health, University of Pittsburgh

Все, что вам нужно знать о проверке гипотез — часть I


  Перевод


  Ссылка на автора

Статистика — это все о данных, но одни данные не интересны. Это интерпретация данных, которые нас интересуют …

Область Data Science развивается как никогда раньше. Многие компании в настоящее время ищут профессионалов, которые могут просеять свои данные о добыче золота и помочь им эффективно принимать быстрые бизнес-решения. Это также дает возможность многим работающим профессионалам переключить свою карьеру на область Data Science.

Имея этот ИИ, Data Science окружает многих студентов колледжей и хочет продолжить свою карьеру в области Data Science. И эта шумиха вокруг Data Science правильно провозглашена Томасом Х. Давенпортом и Д.Дж. Патил в одной из статей Harvard Business Review,

«Data Scientist: самая сексуальная работа XXI века»

В современном мире аналитики модели машинного обучения в строительстве стали сравнительно простыми (благодаря более надежным и гибким инструментам и алгоритмам), но фундаментальные концепции по-прежнему сбивают с толку. Одним из таких понятий является проверка гипотез.

В этом посте я пытаюсь прояснить основные понятия проверки гипотез с помощью иллюстраций.


Что такое проверка гипотез? Чего мы пытаемся достичь? Зачем нам нужно проверять гипотезы? Мы должны знать ответы на все эти вопросы, прежде чем мы продолжим.

Статистика это все о данных. Данные сами по себе не интересны. Это интерпретация данных, которые нас интересуют. ИспользованиеПроверка гипотезымы пытаемся интерпретировать или делать выводы о населении, используя выборочные данные.Проверка гипотезоценивает два взаимоисключающих утверждения о совокупности, чтобы определить, какое утверждение лучше всего подтверждается данными выборки. Всякий раз, когда мы хотим заявить о распределении данных или о том, отличается ли один набор результатов от другого набора результатов в прикладном машинном обучении, мы должны полагаться на статистические проверки гипотез.

Есть два возможных результата: если результат подтверждает гипотезу, то вы произвели измерение. Если результат противоречит гипотезе, то вы сделали открытие — Энрико Ферми

Давайте посмотрим на терминологию, которую мы должны знать вПроверка гипотезы

1. Параметр и статистика:

параметрявляется кратким описанием фиксированной характеристики или показателя целевой группы населения. Параметр обозначает истинное значение, которое будет получено при проведении переписи, а не выборки.

Пример:Среднее (μ), дисперсия (σ²), стандартное отклонение (σ), пропорция (π)

Население: Население — это совокупность объектов, которые мы хотим изучить / протестировать. Коллекция объектов может быть города, студенты, фабрики и т. Д. Это зависит от изучения под рукой.

В реальном мире сложно получить полную информацию о населении. Следовательно, мы выбираем выборку из этой совокупности и получаем те же статистические показатели, упомянутые выше. И эти меры называются выборочной статистикой. Другими словами,

статистикаявляется кратким описанием характеристики или меры выборки. Выборочная статистика используется в качестве оценки параметра совокупности.

Пример:Среднее значение выборки (x̄), дисперсия выборки (S²), стандартное отклонение выборки (S), пропорция выборки (п)

Фото от CliffsNotes

2. Распределение выборки:

Распределение выборки — это распределение вероятностей статистики, полученной с помощью большого числа выборок, взятых из определенной совокупности.

Пример:Предположим, что простая выборка из пяти больниц должна быть взята из населения 20 больниц. Возможны следующие варианты: (20, 19, 18, 17, 16) или (1,2,4,7,8) или любая из 15 504 (с использованием комбинаций 20C)) различных образцов размера 5.

В целом среднее значение распределения выборки будет приблизительно эквивалентно среднему значению для населения, т.е. E (x̄) = μ

Чтобы узнать больше о распределении выборки, пожалуйста, проверьте это ниже видео:

Видео из ханской академии

3. Стандартная ошибка (SE):

Стандартная ошибка (SE) очень похожа на стандартное отклонение. Оба являются мерами распространения. Чем выше число, тем больше разбросаны ваши данные. Проще говоря, два термина по сути равны, но есть одно важное отличие. Пока стандартная ошибка используетстатистика(пример данных) использование стандартного отклоненияпараметры(данные о населении)

Стандартная ошибка говорит вам, насколько далеко ваша выборочная статистика (например, среднее значение выборки) отклоняется от фактического среднего значения населения. Чем больше размер вашей выборки, тем меньше SE. Другими словами, чем больше размер выборки, тем ближе среднее значение выборки к среднему значению популяции.

Чтобы узнать больше о стандартной ошибке (SE), пожалуйста, смотрите видео ниже

Теперь давайте рассмотрим следующий пример, чтобы лучше понять остальные концепции.


4. (а) Нулевая гипотеза (H₀):

Заявление, в котором не ожидается никакой разницы или эффекта. Если нулевая гипотеза не отклонена, никакие изменения не будут внесены.

Слово «ноль» в данном контексте означает, что общепринятый факт, что исследователи аннулируют. Это не означает, что само утверждение является нулевым! (Возможно, этот термин следует называть «недействительной гипотезой», поскольку это может вызвать меньше путаницы)

4. (б). Альтернативная гипотеза (H₁):

Утверждение, что ожидается некоторое различие или эффект. Принятие альтернативной гипотезы приведет к изменению мнений или действий. Это противоположность нулевой гипотезы.

Чтобы узнать больше о нулевых и альтернативных гипотезах, пожалуйста, посмотрите это видео ниже


5. (а). Односторонний тест:

Односторонний тест — это тест статистической гипотезы, в котором критическая область распределения является односторонней, так что она либо превышает определенное значение, либо меньше, но не одновременно. Если тестируемый образец попадает в одностороннюю критическую область, альтернативная гипотеза будет принята вместо нулевой гипотезы.

Односторонний тест также известен как направленная гипотеза или направленный тест.

Критический регион:Критическая область — это область значений, которая соответствует отклонению нулевой гипотезы на некотором выбранном уровне вероятности.

5. (б). Двусторонний тест:

Двухсторонний тест — это метод, в котором критическая область распределения является двусторонней, и он проверяет, является ли выборка больше или меньше определенного диапазона значений. Если тестируемый образец попадает в одну из критических областей, альтернативная гипотеза принимается вместо нулевой гипотезы.

По соглашению, двусторонние тесты используются для определения значимости на уровне 5%, то есть каждая сторона распределения сокращается на 2,5%.


6. Тестовая статистика:

тестовая статистикаизмеряет, насколько близко образец пришел к нулевой гипотезе. Его наблюдаемое значение изменяется случайным образом от одной случайной выборки к другой выборке. Тестовая статистика содержит информацию о данных, которые имеют значение для принятия решения о том, следует ли отклонить нулевую гипотезу или нет.

Различные тесты гипотез используют разные статистические тесты, основанные на вероятностной модели, принятой в нулевой гипотезе. Общие тесты и их тестовая статистика включают в себя:

Изображение из https://support.minitab.com

В общем, выборочные данные должны предоставить достаточные доказательства, чтобы отвергнуть нулевую гипотезу и сделать вывод, что эффект существует в популяции. В идеале, проверка гипотезы не позволяет отклонить нулевую гипотезу, когда эффект отсутствует в популяции, и отвергает нулевую гипотезу, когда эффект существует.


К настоящему времени мы понимаем, что вся проверка гипотез работает на основе имеющегося образца. Мы можем прийти к другому выводу, если образец будет изменен. Есть два типа ошибок, которые относятся к неверным выводам о нулевой гипотезе.

7. (а). Ошибка типа I:

Тип-IОшибка возникает, когда результаты выборки приводят к отклонению нулевой гипотезы, когда она на самом деле верна.Тип-Iошибки эквивалентны ложным срабатываниям.

Тип-Iошибки можно контролировать. Значение альфа, которое связано суровень значимостичто мы выбрали, имеет прямое отношение кТип-Iошибки.

7. (б). Ошибка типа II:

Тип-IIошибка возникает, когда на основании результатов выборки нулевая гипотеза не отклоняется, если она фактически ложна.Тип-IIошибки эквивалентны ложным негативам.


Уровень значимости (α):

Вероятность сделатьТип-Iошибка, и это обозначаетсяальфа (α), Альфа это максимальная вероятность того, что у нас естьТип-Iошибка. Для уровня достоверности 95% значение альфа составляет 0,05. Это означает, что существует 5% вероятность того, что мы отвергнем истинную нулевую гипотезу.


P-значение:

р-значениеиспользуется во всей статистике, от t-тестов до простого регрессионного анализа до моделей на основе дерева, почти во всех моделях машинного обучения. Мы все используемP-значениеопределить статистическую значимость в тесте гипотезы. Несмотря на то чтоР-значениескользкая концепция, которую люди часто неправильно интерпретируют.

P-значениеоцените, насколько хорошо выборочные данные подтверждают аргумент защитника дьявола о том, что нулевая гипотеза верна. Он измеряет, насколько совместимы ваши данные с нулевой гипотезой. Насколько вероятен эффект, наблюдаемый в ваших данных выборки, если нулевая гипотеза верна?

Другими словами, если нулевая гипотеза верна,Р-значениевероятность получения результата как экстремального или более экстремального, чем результат выборки, только по случайной случайности

Высокие значения P:Ваши данные, скорее всего, с истинным нулем

Низкие значения P:Ваши данные вряд ли с истинным нулем

Пример: Предположим, что вы проверяете следующую гипотезу на уровне значимости (α) 5%, и вы получаете значение p как 3%, и ваша выборочная статистикаИксзнак равно25

H₀: μ = 20

H₁: μ> 20

Интерпретация р-значения выглядит следующим образом:

Мы видели выше, чтоαтакже известен как совершениеТип-Iошибка. Когда мы говорим, αзнак равно5%, мы можем отклонить нашу нулевую гипотезу 5 из 100 раз, даже если это правда. Теперь, когда нашиР-значение3%, что меньшеα(мы определенно ниже порога совершенияТип-Iошибка),означает получение выборочной статистики как можно более экстремальной (x̄>знак равно25) учитывая, что H₀ истинно, очень меньше. Другими словами, мы не можем получить нашу выборочную статистику, если предположим, что H₀ истинно. Следовательно, мы отвергаем H₀ и принимаем H₁. Предположим, вы получаетеР-значениекак 6%, т. е. вероятность получения выборочной статистики как можно более экстремальной, тем выше, учитывая, что нулевая гипотеза верна. Таким образом, мы не можем отказаться от H₀, по сравнению сαмы не можем рисковатьТип-Iошибка больше, чем согласованный уровень значимости. Следовательно, мы не можем отвергнуть нулевую гипотезу и отвергнуть альтернативную гипотезу.

Теперь, когда мы поняли основную терминологию вПроверка гипотезы,Теперь давайте рассмотрим этапы проверки гипотез и приведем пример с примером.

Например, крупный универмаг рассматривает возможность введения услуги интернет-магазина. Новая услуга будет введена, если более 40 процентов интернет-пользователей совершают покупки через Интернет.

Шаг 1: сформулируйте гипотезы:

Подходящий способ сформулировать гипотезы:

H₀: π ≤ 0,40

H₁: π> 0,40

Если нулевая гипотеза H₀ отклонена, то будет принята альтернативная гипотеза H₁ и введена новая услуга интернет-покупок. С другой стороны, если мы не сможем отклонить H₀, то новая услуга не должна быть введена, пока не будут получены дополнительные доказательства. Этот тест нулевой гипотезы являетсяодин хвостТест, потому что альтернативная гипотеза выражается направленно: доля интернет-пользователей, которые используют Интернет для покупок, превышает 0,40.

Шаг 2: Выберите подходящий тест:

Чтобы проверить нулевую гипотезу, необходимо выбрать соответствующий статистический метод. Для этого примераZстатистика, которая соответствует стандартному нормальному распределению, будет уместной.

z = (p-π) / σₚ, где σₚ = sqrt (π (1-π) / n)

Шаг 3: Выберите уровень значимости, α:

Мы поняли чтоУровень значимостиотносится кТип-Iошибка. В нашем примере ошибка Типа I произошла бы, если бы мы пришли к выводу, основываясь на выборочных данных, что доля клиентов, предпочитающих новый тарифный план, была больше 0,40, тогда как на самом деле она была меньше или равна 0,40.

Ошибка типа II возникла бы, если бы мы пришли к выводу, основываясь на выборочных данных, что доля клиентов, предпочитающих новый тарифный план, была меньше или равна 0,40, тогда как фактически она была больше 0,40.

Необходимо сбалансировать два типа ошибок. В качестве компромисса α часто устанавливается на 0,05; иногда это 0,01; другие значения α редки. Мы рассмотрим 0,05 для нашего примера.

Шаг 4: Соберите данные и рассчитайте статистику теста:

Размер выборки определяется после учета требуемого значения α и других качественных соображений, таких как бюджетные ограничения для сбора данных выборки. Для нашего примера, скажем, 30 пользователей были опрошены, а 17 указали, что они использовали Интернет для покупок.

Таким образом, значение пропорции выборки составляетр = 17/30 = 0,567.

Значениеσₚ = SQRT ((0,40) (0,60) / 30) = 0,089.

Тестовая статистикаZможно рассчитать как

г = (р-π) / σₚ = (0.567-0.40) /0.089=1.88

Шаг 5: Определите вероятность (или критическое значение):

Используя стандартные нормальные таблицы из приведенного выше, вероятность полученияZзначение 1,88 составляет 0,96995, т.е.Р (z≤1.88) = 0,96995,Но мы хотели вычислить вероятность справа отz (потому что мы заинтересованы в получении значения вероятности, которое попадает в область отклонения или критическую область),то есть1-0.96995знак равно0,03005, Эта вероятность прямо сопоставима с(поскольку α совершает ошибку Типа I, а рассчитанное нами значение вероятности также попадает в критическую область)

Если вы хотите понять, как искать значения вероятностей для данных z-оценок, посмотрите видео ниже:

В качестве альтернативы, критическое значениег,который даст область справа от критического значения 0,05, находится между 1,64(при 1,64 вероятность составляет 0,94950)и 1,65(при 1,65 вероятность равна 0 95053)и равен 1,645(вероятность равна 0,95, то есть слева от нормального распределения, что означает, что справа она равна 0,05),

Обратите внимание, что при определении критического значения статистики теста, область в хвосте за критическим значением либоα или α / 2.этоαдля одностороннего теста иα / 2для двустороннего теста. Наш пример — односторонний тест.

Если вы хотите понять, как искать критическое значениеα,Пожалуйста, посмотрите видео ниже:

Шаг 6 и 7: сравните вероятность (или критическое значение) и примите решение:

Вероятность, связанная с вычисленным или наблюдаемым значением статистики теста, составляет 0,03005. Это вероятность полученияР-значение0,567 (доля образца =п)когда π = 0,40. Это меньше уровня значимости 0,05. Следовательно, нулевая гипотеза отвергается.

В качестве альтернативы рассчитывается значение тестовой статистикиг = 1,88лежит в области отклонения, за пределами значения 1,645. Снова, тот же самый вывод отклонить нулевую гипотезу сделан.

Обратите внимание, что два способа проверки нулевой гипотезы эквивалентны, но математически противоположны в направлении сравнения. Если вероятность, связанная с вычисленным или наблюдаемым значением тестовой статистики (TSCAL), равнаменьше, чемНа уровне значимости (α) нулевая гипотеза отвергается. Однако, если абсолютное значение рассчитанного значения статистики тестабольше чемабсолютное значение критического значения тестовой статистики (TSCR), нулевая гипотеза отклоняется. Причина этого смещения знака состоит в том, что чем больше абсолютное значение TSCAL, тем меньше вероятность получения более экстремального значения тестовой статистики при нулевой гипотезе.

если вероятность TSCAL <уровень значимости (α), то отклонить H₀.

Но, если | TSCAL | > | TSCR |, затем отклонить H₀

Шаг 8: Вывод:

В нашем примере мы заключаем, что есть свидетельства того, что доля интернет-пользователей, совершающих покупки через Интернет, значительно превышает 0,40. Следовательно, рекомендация для универмага будет заключаться в том, чтобы ввести новый сервис интернет-магазинов.

Этот пример относится к одному образцу теста пропорций. Тем не менее, существует несколько типов тестов, которые зависят от знаний о населении и рассматриваемой проблемы.

Например, у нас есть t-тест, Z-тест. Тест хи-квадрат, тест Манна-Уитни, тест Вилкоксона и т. Д.

На этом я хотел бы завершить часть I «Все, что вам нужно знать о проверке гипотез». Я буду обсуждать параметрические и непараметрические тесты и какой тест использовать в каком сценарии в части II. До тех порСчастливого обучения…

Спасибо за чтение!

Пожалуйста, поделитесь своим мнением в разделе комментариев ниже.

Ссылки:

  1. Маркетинговые исследования — прикладная ориентация Naresh K Malhotra и Satyabhushan Dash
  2. https://www.cliffsnotes.com/study-guides/statistics/sampling/populations-samples-parameters-and-statistics
  3. https://www.statisticshowto.datasciencecentral.com
  4. https://www.khanacademy.org
  5. https://blog.minitab.com

Понравилась статья? Поделить с друзьями:

Читайте также:

  • Если от ботокса опустились веки как исправить
  • Если осела дверь как исправить
  • Если оплатил триколор а каналы не показывают ошибка 10
  • Если окислился алюминий как исправить
  • Если одно плечо ниже другого как исправить взрослому

  • 0 0 голоса
    Рейтинг статьи
    Подписаться
    Уведомить о
    guest

    0 комментариев
    Старые
    Новые Популярные
    Межтекстовые Отзывы
    Посмотреть все комментарии