P - ЗНАЧЕНИЕ, ИСТИННАЯ СТАТИСТИЧЕСКАЯ ЗНАЧИМОСТЬ? Предупреждающее примечание

Хотя основатели проверки значимости и проверки гипотез не намерены переплетать две идеи, как если бы они дополняли друг друга, неудобное объединение этих двух практик в одну последовательную, удобную, неопровержимую и неверно интерпретируемую практику усеяло наши стандартные учебники статистики и медицинские журналы.

Хотя основатели проверки значимости и проверки гипотез не намерены переплетать две идеи, как если бы они дополняли друг друга, неудобное объединение этих двух практик в одну последовательную, удобную, неопровержимую и неверно интерпретируемую практику усеяло наши стандартные учебники статистики и медицинские журналы. В данной статье исследуются факторы, способствующие этой практике, прослеживается историческая эволюция школ проверки гипотез Фишера и Неймана-Пирсона, раскрываются заблуждения и нетрадиционный и общий подход к проблеме. Наконец, он предлагает рекомендации о том, что нужно сделать для исправления ситуации.

ВСТУПЛЕНИЕ

Медицинские журналы изобилуют значениями P и проверками гипотез. Среди медицинских исследователей принято цитировать, является ли проведенная ими проверка гипотез значимой или несущественной, и многие исследователи очень воодушевляются, когда обнаруживают «статистически значимое» открытие, не понимая, что это означает. Кроме того, в то время как медицинские журналы изобилуют заявлениями, такими как: «статистически значимо», «маловероятно из-за случая», «не значимо», «из-за случайности» или таких обозначений, как «P>0,05», «P

Идея проверки значимости была предложена Р. А. Фишером, но за последние шесть десятилетий ее полезность, понимание и интерпретация были неправильно поняты и породили так много научных работ, чтобы исправить ситуацию 3. Наряду со статистической проверкой гипотезы используется значение P, значение и интерпретация которого также было неправильно использовано. Чтобы лучше разобраться в предмете, краткая история эволюции статистической проверки гипотез должна устранить некоторые недоразумения.

Краткая история тестирования ценности и значимости P

Тестирование значимости развилось из идеи и практики выдающегося статистика Р. А. Фишера в 1930-х годах. Его идея проста: предположим, мы обнаружили связь между уровнем бедности и недоеданием среди детей в возрасте до пяти лет. Это открытие, но может ли это быть случайное открытие? Или, возможно, мы хотим оценить, улучшает ли новая диетическая терапия состояние питания детей с недостаточным питанием. Мы изучаем группу истощенных детей, получавших новую терапию, и сопоставимую группу, получавшую старую диетическую терапию, и обнаружили в новой терапевтической группе улучшение состояния питания на 2 единицы по сравнению со старой терапевтической группой. Это открытие, очевидно, будет приветствоваться, но также возможно, что это открытие является чисто случайным. Таким образом,Фишер рассматривал значение P как индекс, измеряющий силу доказательств против нулевой гипотезы (в наших примерах гипотеза об отсутствии связи между уровнем бедности и недоеданием или о том, что новая терапия не улучшает состояние питания). Для количественной оценки силы доказательств против нулевой гипотезы «он выступал за P

Таблица 1.

Ошибки, связанные с результатами эксперимента.

Правда
Результат экспериментаНулевая гипотеза вернаНулевая гипотеза ложна
Отклонить нулевую гипотезуКоэффициент ошибок типа I (α)Мощность = 1- β
Принять нулевую гипотезуПравильное решениеКоэффициент ошибок типа II (β)

Результат проверки гипотез может быть одним из двух: отклонить одну гипотезу и принять другую. Принятие этой практики выявляет один-два типа ошибок: отклонить нулевую гипотезу, когда она должна быть принята (т. Е. Два метода лечения различаются, когда они на самом деле одинаковы, также известный как ложноположительный результат, ошибка типа I или альфа-ошибка. ) или принять нулевую гипотезу, когда она должна была быть отвергнута (т. е. сделать вывод о том, что они одинаковы, хотя на самом деле они различаются, также известный как ложноотрицательный результат, ошибка типа II или ошибка бета-версии).

Что означает значение P?

Значение P определяется как вероятность при допущении отсутствия эффекта или разницы (нулевая гипотеза) получения результата, равного или более экстремального, чем то, что наблюдалось на самом деле. Буква P обозначает вероятность и измеряет, насколько вероятно, что любое наблюдаемое различие между группами вызвано случайностью. Как вероятность, P может принимать любое значение от 0 до 1. Значения, близкие к 0, указывают на то, что наблюдаемое различие вряд ли вызвано случайностью, тогда как значение P, близкое к 1, предполагает отсутствие различий между группами, кроме как случайного. Таким образом, в медицинских журналах часто встречаются такие прилагательные, как «очень значимый» или «очень значительный» после цитирования значения P в зависимости от того, насколько близко это значение к нулю.

До появления компьютеров и статистического программного обеспечения исследователи полагались на табличные значения P для принятия решений. Эта практика в настоящее время устарела, и использование точного значения P предпочтительнее. Статистическое программное обеспечение может дать точное значение P и позволяет оценить диапазон значений, которые P может принимать от 0 до 1. Вкратце, например, вес 18 субъектов был взят из сообщества, чтобы определить, является ли их масса тела идеальной (т. Е. 100 кг). Используя t-критерий Стьюдента, t оказалось 3,76 при 17 степенях свободы. Сравнение t statс табличными значениями t = 3,26 больше критического значения 2,11 при p = 0,05 и, следовательно, попадает в зону отбраковки. Таким образом, мы отвергаем нулевую гипотезу о том, что ì = 100, и заключаем, что разница значительна. Но при использовании SPSS (статистического программного обеспечения) при вводе данных была получена следующая информация: t = 3,758, P = 0,0016, средняя разница = 12,78 и доверительные интервалы 5,60 и 19,95. В настоящее время методологи все чаще рекомендуют исследователям сообщать точное значение Р. Например, P = 0,023, а не P

Проверка гипотез

Статистический тест предоставляет механизм для принятия количественных решений о процессе или процессах. Цель состоит в том, чтобы сделать выводы о параметре совокупности путем анализа различий между статистикой наблюдаемой выборки и результатами, которые можно получить, если какое-либо исходное предположение верно. Это сравнение может представлять собой одно наблюдаемое значение по сравнению с некоторой предполагаемой величиной или может проводиться между двумя или более связанными или несвязанными группами. Выбор статистического теста зависит от характера данных и дизайна исследования.

Нейман и Пирсон предложили этот процесс, чтобы обойти субъективную практику Фишера оценки силы доказательств против нулевого эффекта. В своей обычной форме выдвигаются две гипотезы: нулевая гипотеза (обычно утверждение о нулевом эффекте) и альтернативная гипотеза (обычно противоположная нулевой гипотезе). На основании результатов проверки гипотез одна гипотеза отклоняется, а другая принимается на основе заранее заданного произвольного эталона. Этот ориентир обозначается значением Р. Однако можно допустить ошибку: можно отвергнуть одну гипотезу, хотя на самом деле ее следует принять, и наоборот. Есть ошибка типа I или ошибка (т. Е. Разницы не было, но на самом деле она была) и ошибка типа II или ошибка (т. Е. Когда была разница, а на самом деле ее не было). В простом форматеПроверка гипотезы включает следующие этапы:

Определите нулевые и альтернативные гипотезы.

Определите подходящую статистику теста и ее распределение в предположении, что нулевая гипотеза верна.

Задайте уровень значимости и определите соответствующее критическое значение тестовой статистики в предположении, что нулевая гипотеза верна.

Рассчитайте статистику теста на основе данных. После обсуждения значения P и проверки гипотез теперь рассматриваются ошибки проверки гипотез и значения P.

Ошибки проверки гипотез

В статье, которую я представил для публикации в одном из широко читаемых медицинских журналов в Нигерии, один из рецензентов прокомментировал возрастно-половое распределение участников: «Есть ли разница в половом распределении с учетом статистики хи-квадрат»? Статистически этот вопрос не содержит каких-либо вопросов, и это один из многих случаев среди медицинских исследователей (в том числе и супервизоров последипломного образования), когда к проверке гипотез быстро и спонтанно прибегают без должного рассмотрения ее надлежащего применения. Целью моего исследования было определение распространенности сахарного диабета в сельской местности; В мои задачи не входило определение какой-либо связи между полом и распространенностью сахарного диабета. Неопытным,этот комментарий определенно побудит к проведению проверки гипотез просто для того, чтобы удовлетворить редактора и рецензента, чтобы статья прошла мимо. Однако результаты таких статистических тестов становятся трудными для понимания и интерпретации в свете данных. (В результате исследования выяснилось, что все люди с повышенным уровнем глюкозы в крови натощак - женщины). Есть несколько заблуждений, связанных с проверкой гипотез. Ниже приведен небольшой список, который поможет избежать этих заблуждений.Ниже приведен небольшой список, который поможет избежать этих заблуждений.Ниже приведен небольшой список, который поможет избежать этих заблуждений.

Неспособность отвергнуть нулевую гипотезу приводит к ее принятию. ( Нет.Если вы не можете отвергнуть нулевую гипотезу, это означает, что нет достаточных доказательств для отклонения)

Использование á = 0,05 является стандартом с объективной основой ( á = 0,05 - это просто соглашение, которое развилось из практики Р. А. Фишера. Нет четкого различия между «значимыми» и «несущественными» результатами, только увеличение веские доказательства против нулевой гипотезы, когда P становится меньше (P = 0,02 сильнее, чем P = 0,04)

Маленькое значение P указывает на большие эффекты ( Нет.Значение P ничего не говорит о размере эффекта)

Статистическая значимость подразумевает клиническую значимость. ( Нет.Статистическая значимость очень мало говорит о клинической значимости связи. Между статистической значимостью и клинической значимостью существует большая разница. По статистическому определению при á = 0,05 это означает, что 1 из 20 сравнений, в которых верна нулевая гипотеза приведет к P

Заблуждения относительно значения P

Подобно тому, как проверка гипотезы связана с некоторыми заблуждениями, так же как и значение P с общими первопричинами: «Становится естественным, что любая находка, достойная внимания, должна иметь значение P менее 0,05, мигающее, как установленный Богом штамп одобрения. '12. Присущая Фишеру субъективность подхода к значению P и последующее плохое понимание этого подхода медицинским сообществом могут быть причиной того, что значение P связано с множеством заблуждений. В-третьих, усугубляла ситуацию величина P, выдаваемая исследователями как «паспорта к публикации» 13. Ранее мы осознали неадекватность значения P в клинических испытаниях Файнштейна 14,

«Метод принятия статистических решений о« значимости »порождает одну из самых разрушительных ироний в современной биологической науке. Чтобы избежать обычных категориальных данных, критически настроенный исследователь обычно прилагает огромные усилия для измерения. Он получит специальные машины и сложные технологические устройства, чтобы дополнить свое старое категоричное утверждение новыми измерениями «непрерывных» размерных данных. Однако после всей этой работы по получению «непрерывных» данных и после расчета всех статистических тестов данных исследователь принимает окончательное решение о своих результатах на основе совершенно произвольной пары дихотомических категорий. Эти категории, которые называются «значимыми» и «несущественными», обычно разграничиваются значением P, равным 0,05 или 0,01, выбранным в соответствии с капризным диктатом статистика.редактор, рецензент или грантополучатель. Если уровень, требуемый для «значимого», составляет 0,05 или ниже, а возникающее значение P составляет 0,06, исследователь может быть готов отказаться от хорошо спланированного, превосходно проведенного, тщательно проанализированного и научно важного эксперимента, потому что он не смог пересечь прокрустово Граница, требуемая для статистической апробации.

Мы должны попытаться понять, что Фишер хотел иметь индекс измерения, который поможет ему определить силу доказательства против нулевого эффекта. Но, как было сказано ранее, его идея была плохо понята и подвергнута критике, что привело к тому, что Нейман и Пирсон разработали проверку гипотез, чтобы обойти проблему. Но это результат их попытки: «принять» или «отклонить» нулевую гипотезу или, альтернативно, «значимо» или «не значимо». Неадекватность значения P для принятия решений пронизывает все планы эпидемиологических исследований. Такой подход к проверке гипотез по принципу «голова или хвост» привел к тому, что заинтересованные стороны (статистик, редактор, рецензент или агентство, предоставляющее гранты) оказались во все более растущей неразберихе и затруднениях.Статистики признают неадекватность значения P как единственного стандартного суждения при анализе клинических испытаний 15. Так же, как проверка гипотез не лишена предостережений, так и значения Р. Некоторые из них представлены ниже.

Пороговое значение P

Предполагается, что статистически значимые (P

Статистическая значимость результата не имеет клинической значимости. Большое исследование может обнаружить небольшой, клинически несущественный результат.

Случайность редко бывает самой важной проблемой. Помните, что при проведении исследования участникам обычно заполняют анкету. В этой анкете в большинстве случаев собирается большой объем информации из нескольких переменных, включенных в анкету. То, как задавались вопросы, и как на них были даны ответы, являются важными источниками ошибок (систематических ошибок), которые трудно измерить.

Что влияет на значение P?

Как правило, эти факторы влияют на значение P.

Размер эффекта . Обычно цель исследования - обнаружить разницу между двумя препаратами, процедурами или программами. Некоторые статистические данные используются для измерения масштабов эффекта от этих вмешательств. Они варьируются: r 2, ç 2, ù 2, R 2, Q 2, d Коэна и g Хеджа. Возникают две проблемы: использование соответствующего индекса для измерения эффекта и, во-вторых, размер эффекта. Разница в 7 кг или 10 мм рт. Ст. Будет иметь более низкое значение P (и более вероятно, что она будет значительной), чем разница в 2 кг или 4 мм рт.

Размер выборки . Чем больше выборка, тем больше вероятность обнаружения различия. Кроме того, разница в 7 кг в исследовании с 500 участниками даст более низкое значение P, чем разница в 7 кг, наблюдаемая в исследовании с участием 250 участников в каждой группе.

Распространение данных . Разброс наблюдений в наборе данных обычно измеряется со стандартным отклонением. Чем больше стандартное отклонение, тем больше разброс наблюдений и ниже значение P.

Значение P и статистическая значимость: необычная причина

И школы Фишериана, и школы Неймана-Пирсона (NP) не придерживались практики утверждения: «Значения P менее 0,05 считались статистически значимыми» или «Значение P составляло 0,02, и, следовательно, имелась статистически значимая разница». Эти и многие аналогичные утверждения были переплетены в медицинских журналах и стандартных учебниках статистики и послужили необычным основанием для объединения двух школ. Этот брак неудобств еще больше усугубил путаницу и непонимание школ Фишера и Неймана-Пирсона. Комбинация мыслей Фишера и НП (как показано в приведенных выше утверждениях) не пролила свет на правильную интерпретацию статистической проверки гипотезы и р-значения.Гибрид двух школ, который часто читают в медицинских журналах и учебниках по статистике, создает впечатление, что эти две школы были и совместимы как единый согласованный метод статистического вывода 4, 23, 24. Эта путаница, увековеченная медицинскими журналами, учебниками по статистике, рецензентами и редакторами, почти сделала невозможным публикацию отчета об исследовании без заявлений или обозначений, таких как «статистически значимый» или «статистически незначимый» или «P 0,05». Стерн затем спросил: «Можем ли мы избавиться от P-значений? Его ответ был: «Практический опыт говорит« нет »- почему? 21 ”практически сделали невозможным публикацию отчета об исследовании без заявлений или обозначений, таких как «статистически значимый» или «статистически незначимый», или «P 0,05». Стерн, затем спросил: «Можем ли мы избавиться от P-значения? Его ответ был: «Практический опыт говорит« нет »- почему? 21 ”практически сделали невозможным публикацию отчета об исследовании без заявлений или обозначений, таких как «статистически значимый» или «статистически незначимый», или «P 0,05». Стерн, затем спросил: «Можем ли мы избавиться от P-значения? Его ответ был: «Практический опыт говорит« нет »- почему? 21 ”

Однако следующий раздел «P-значение и доверительный интервал: общая основа» предоставляет один из возможных путей решения, казалось бы, неразрешимой проблемы. Гудман прокомментировал подход с использованием значений P и доверительного интервала в статистических выводах и его способность решать проблему. «Немногочисленные попытки исключить значения P из журналов в пользу доверительных интервалов, как правило, не увенчались успехом, что указывает на то, что потребность исследователей в количественных доказательствах остается сильной и что они часто чувствуют себя потерянными без них» 6.

Значение P и доверительный интервал: точки соприкосновения

Таким образом, до сих пор в данной статье рассматривалась историческая эволюция проверки «значимости», как было первоначально предложено Р. А. Фишером. Нейман и Пирсон не привыкли к его субъективному подходу и поэтому предложили «проверку гипотез», включающую бинарные исходы: «принять» или «отклонить» нулевую гипотезу. Это, как мы видели, не «решило» проблему полностью. Таким образом, была необходима общая точка соприкосновения, и сочетание значения P и доверительных интервалов обеспечило столь необходимую точку соприкосновения.

Прежде чем продолжить, мы должны кратко понять, что означает доверительные интервалы (ДИ), пройдя через то, что означают значения p и проверка гипотез. Предположим, что у нас есть две диеты A и B для двух групп недоедающих детей. У детей, соблюдающих диету А, наблюдалось увеличение массы тела на 8 кг, в то время как увеличение массы тела на 3 кг наблюдалось на диете В. Таким образом, эффект увеличения веса составляет в среднем 5 кг. Но очевидно, что увеличение может быть менее 3 кг, а также более 8 кг, поэтому диапазон и вероятность, связанная с этим диапазоном, могут быть представлены в доверительных интервалах. Таким образом, для 95% доверительного интервала в этом примере будет означать, что если исследование повторяется 100 раз, 95 из 100 раз, ДИ будет содержать истинное увеличение веса. Формально 95% ДИ:«Интервал, рассчитанный на основе данных выборки, который при многократном повторении исследования будет содержать истинный эффект в 95% случаев».

В 1980-х годах ряд британских статистиков пытались продвигать использование этого подхода, основанного на общих принципах, при проведении статистического анализа 16, 17, 18. Они призвали объединить представление значения P и доверительных интервалов. Использование доверительных интервалов при проверке гипотез - один из четырех популярных методов, изданных редакторами журналов и выдающимися статистиками 19. В соответствии с этим Совет по научным вопросам Американской психологической ассоциации заказал белую книгу «Рабочая группа по статистическим выводам». Целевая группа предложила:

«При составлении выводимой статистики (например, t-тесты, F-тесты и хи-квадрат) включайте информацию о полученном… .. значении тестовой статистики, степени свободы, вероятности получения такого экстремального значения, как или более крайнее, чем полученное [т. е. значение P]…. Обязательно включите достаточную описательную статистику [например, размер выборки для каждой ячейки, средние значения, корреляции, стандартные отклонения]…. Отчетность о доверительных интервалах [для оценок параметров, для функций параметра, таких как различия в средних значениях и для величины эффекта] может быть чрезвычайно эффективным способом представления результатов ... потому что доверительные интервалы объединяют информацию о местоположении и точности и часто могут быть напрямую используется для определения уровней значимости »20.

Джонатан Стерн и Дэйви Смит предложили свои рекомендации по составлению отчетов о статистическом анализе, как показано во вставке 21:

Вставка 1: Предлагаемые инструкции по представлению результатов статистического анализа в медицинских журналах.

Описание различий как статистически значимых недопустимо.

Всегда следует включать доверительные интервалы для основных результатов, но следует использовать уровни 90%, а не 95%. Доверительные интервалы не следует использовать в качестве суррогатного средства проверки значимости на общепринятом 5% уровне. Интерпретация доверительных интервалов должна быть сосредоточена на значении (клинической значимости) диапазона значений в интервале.

Когда имеется значимая нулевая гипотеза, силу свидетельств против нее следует индексировать по значению P. Чем меньше значение P, тем убедительнее доказательства.

Несмотря на то, что существенно сократить объем выполняемых драгировок данных невозможно, авторам следует очень скептически относиться к анализу подгрупп в клинических испытаниях и обсервационных исследованиях. Всегда следует представлять силу доказательств взаимодействия - что эффекты действительно различаются между подгруппами. Утверждения, сделанные на основе выводов подгруппы, должны быть даже более сдержанными, чем заявления, сделанные относительно основных эффектов.

При проведении наблюдательных исследований следует помнить, что соображения смешения и предвзятости не менее важны, чем вопросы, обсуждаемые в этой статье.

С 1980-х годов, когда британские статистики выступали за использование доверительных интервалов, журнал за журналом публикуют заявления относительно его использования. В редакционной статье журнала «Клиническая химия» читалось следующее:

«Нет сомнений в том, что доверительный интервал для разницы между двумя истинными (т. Е. Совокупность) средними или пропорциями, основанный на наблюдаемой разнице между оценками выборки, предоставляет более полезную информацию, чем значение P, независимо от того, насколько оно точно, для вероятности что истинная разница равна нулю. Доверительный интервал отражает точность значений выборки с точки зрения их стандартного отклонения и размера выборки ... »22

В заключение важно знать, почему статистически лучше использовать значение P и доверительные интервалы, чем значение P и проверку гипотез:

Доверительные интервалы подчеркивают важность оценки перед проверкой гипотез. Более информативно указать величину эффекта, чем использовать проверку значимых и несущественных гипотез.

Ширина CI обеспечивает меру надежности или точности оценки.

Доверительные интервалы значительно упрощают определение того, имеет ли открытие какое-либо существенное (например, клиническое) значение, в отличие от статистической значимости.

В то время как статистически значимые тесты уязвимы для ошибок типа I, CI - нет.

Доверительные интервалы можно использовать в качестве критерия значимости. Простое правило состоит в том, что если 95% ДИ не включают нулевое значение (обычно ноль для разницы в средних и пропорциях; один для относительного риска и отношения шансов), нулевая гипотеза отклоняется на уровне 0,05.

Наконец, использование КЭ способствует накоплению знаний, обязывая исследователей метааналитически мыслить об оценке, воспроизведении и сравнении интервалов между исследованиями 25. Например, в метаанализе исследований, посвященных внутривенному введению нитратов при остром инфаркте миокарда, было обнаружено снижение смертности где-то между четвертью и двумя третями. Между тем предыдущие шесть испытаний 26 показали противоречивые результаты: одни испытания показали, что вводить нитраты внутривенно опасно, тогда как другие показали, что это фактически снижает смертность. Для шести испытаний отношение шансов, 95% доверительный интервал и P-значения составляют: OR = 0,33 (CI = 0,09, 1,13, P = 0,08); OR = 0,24 (CI = 0,08, 0,74, P = 0,01); OR = 0,83 (CI = 0,33, 2,12, P = 0,07); OR = 2,04 (CI = 0,39, 10,71, P = 0,04); OR = 0,58 (CI = 0,19,1,65; P = 0,29) и OR = 0,48 (CI = 0,28, 0,82;P = 0,007). Первое, третье, четвертое и пятое исследования кажутся вредными; в то время как второй и шестой кажутся полезными (в снижении смертности).

Что надо сделать?

Хотя можно внести изменения и улучшить практику, однако, как предупреждает Коэн: «Не ищите волшебной альтернативы… Ее не существует» 27.

Основание для изменения этой практики должно быть заложено в основу педагогической статистики: в классе. Учебная программа и обучение в классе должны четко различать две школы. Историческая эволюция должна быть четко объяснена, так же как и значение «статистической значимости». Классное обучение правильным концепциям должно начинаться в бакалавриате и переходить к обучению в классе аспиранта, даже если это означает, что это обучение будет на вводном уровне.

Мы должны продвигать и поощрять использование доверительных интервалов для статистики выборки и размеров эффекта. Эта обязанность лежит на преподавателях статистики, редакторах медицинских журналов, рецензентах и ​​любом учреждении, предоставляющем гранты.

Как правило, исследователям, готовящимся к исследованию, рекомендуется проконсультироваться со статистиком на начальном этапе своего исследования, чтобы избежать неправильной интерпретации значения P, особенно если они используют статистическое программное обеспечение для анализа своих данных.