Подгонка данных
Подгонка данных (также просеивание данных, выуживание данных, p-хаккинг) — это злоупотребление анализом данных с целью поиска закономерностей, которые можно представить как статистически значимые, что увеличивает риск ложноположительных результатов. Это достигается путем проведения множества статистических тестов на одном и том же наборе данных и публикации только тех результатов, которые оказались статистически значимыми.[1]
Процесс подгонки данных включает проверку множества гипотез с использованием одного набора данных методом полного перебора — либо через комбинации переменных, которые могут показать корреляцию, либо через группы наблюдений, демонстрирующие различия средних значений, либо путем их разделения на подгруппы по каким-либо другим характеристикам.
Обычные тесты статистической значимости основаны на вероятности получения определенного результата в одном эксперименте и обязательно учитывают некоторый риск ошибок (ошибочное отклонение нулевой гипотезы). Этот уровень риска называется уровнем значимости. Когда проводится большое количество тестов, некоторые из них неизбежно дадут ложные результаты. Например, 5% случайно выбранных гипотез могут быть (ошибочно) признаны статистически значимыми при уровне значимости 5%, 1% — при уровне значимости 1% и так далее. Если проверяется достаточное количество гипотез, можно быть уверенным, что некоторые из них окажутся статистически значимыми, даже если это является заблуждением, поскольку практически любой набор данных с элементами случайности может содержать ложные корреляции. Если это не учитывать, множественные сравнения могут легко ввести исследователей в заблуждение.
Подгонка данных является примером игнорирования проблемы множественных сравнений. Одна из его форм — отсутствие в статьях информации о количестве проведенных сравнений подгрупп.[2]
Отбор выводов из данных
Обычная процедура частотного статистического тестирования гипотез заключается в разработке исследовательской гипотезы, такой как «люди из высших социальных классов живут дольше», сборе соответствующих данных, а затем проведении статистического теста значимости, чтобы определить, насколько велика вероятность получения таких данных в одном исследовании. Этот последний шаг называется проверкой нулевой гипотезы.
Ключевым моментом правильного статистического анализа является проверка гипотезы с помощью доказательств (данных), которые не использовались при её формулировке. Это критически важно, поскольку любой набор данных содержит определенные закономерности, обусловленные исключительно случайностью. Если гипотеза не проверяется на другом наборе данных из той же генеральной совокупности, невозможно оценить вероятность того, что выявленная закономерность является случайной.
Простой пример: подбрасывание монеты пять раз дало результат 2 орла и 3 решки, из чего можно сделать вывод, что монета выпадает вверх решкой с вероятностью 3/5 против 2/5 выпасть вверх орлом. Если эту гипотезу проверить на том же наборе данных, она подтвердится, но такое подтверждение бессмысленно. Правильной процедурой было бы заранее сформулировать гипотезу о вероятности выпадения решки, а затем многократно подбрасывать монету, чтобы проверить, отклоняется ли гипотеза. Если после пяти бросков выпало 3 решки и 2 орла, можно сформулировать новую гипотезу о том, что вероятность выпадения решки составляет 3/5, но её можно проверить только на новом наборе бросков.
Важно понимать, что статистическая значимость, полученная при неправильной процедуре, является абсолютно ложной — тесты значимости не защищают от подгонки данных.
Гипотеза, выдвинутая на основе нерепрезентативных данных
Предположим, что исследование случайной выборки людей включает ровно двух человек с днем рождения 7 августа: Марию и Ивана. Человек, занимающийся подгонкой данных, может попытаться найти дополнительное сходство между Марией и Иваном. Перебирая сотни или тысячи возможных совпадений между ними, каждое из которых имеет низкую вероятность быть значимым, почти наверняка можно найти необычное совпадение. Возможно, Иван и Мария — единственные два человека в исследовании, которые три года оставались несовершеннолетними в колледже. Тогда, в результате подгонки данных, может быть сформулирована предвзятая гипотеза: «Люди, родившиеся 7 августа, имеют значительно более высокий шанс оставаться несовершеннолетними более двух лет в колледже».
Сами данные, вырванные из контекста, могут показаться убедительными, поскольку никто с другим днем рождения не провел три года несовершеннолетия в колледже. Однако если (как вероятнее всего) эта гипотеза ложна, то этот результат, скорее всего, не будет воспроизводим. При любой попытке проверить, имеют ли другие люди, родившиеся 7 августа, ту же особенность, почти наверняка будут получены противоречивые результаты.
Предвзятость
Предвзятость — это систематическая ошибка в анализе. Например, врачи назначали пациентам с ВИЧ и высоким сердечно-сосудистым риском определенное лечение — абакавир, а пациентам с меньшим риском — другие препараты. Это затрудняло простую оценку эффективности абакавира по сравнению с другими методами лечения. Анализ, не учитывающий эту предвзятость, мог ошибочно прийти к выводу, что абакавир опасен, так как пациенты, принимавшие его, изначально имели более высокий риск, и среди них чаще случались сердечные приступы.
Эта проблема может быть особенно серьезной, например, в наблюдательных исследованиях.
Пропуски данных, неучтенные дополнительные факторы и потеря данных наблюдения после вмешательства также могут привести к предвзятости.
Выборка только тех исследований, где было получено значимое p, приводит к игнорированию исследований с отрицательными результатами — что является примером публикационной предвзятости. Это также известно как «предвзятость файлового ящика», поскольку менее значимые результаты остаются в архиве и никогда не публикуются.
Многократное моделирование
Другой аспект влияния знания данных на результаты статистических тестов можно увидеть при анализе данных методом линейной регрессии. Ключевым шагом в этом процессе является решение о том, какие ковариаты включать в уравнение, объясняющее одну или несколько других переменных.
Существуют как статистические (например, пошаговая регрессия), так и содержательные соображения, которые заставляют исследователей отдавать предпочтение одним моделям перед другими, что приводит к более свободному использованию статистических тестов. Однако исключение одной или нескольких переменных из уравнения на основе данных означает, что стандартные статистические процедуры больше не могут достоверно применяться к оставшимся переменным так, будто ничего не произошло.
Оставшиеся переменные прошли некоторую предварительную проверку (возможно, неточную и интуитивную), тогда как исключенные переменные — нет. В 1966 году Селвин и Стюарт сравнили переменные, оставшиеся в модели, с рыбой, которая не проскочила сквозь сеть, подразумевая, что их эффекты должны быть больше, чем эффекты исключенных переменных.
Это не только изменяет результаты всех последующих тестов на окончательной объяснительной модели, но также может привести к предвзятости и изменить среднеквадратическую ошибку оценки.[3][4]
Примеры в метеорологии и эпидемиологии
В метеорологии гипотезы часто формулируются с использованием данных до настоящего времени и проверяются на основе будущих метеорологических данных, что гарантирует, что даже подсознательно будущие данные не могут повлиять на формулировку гипотезы. Обычно такая дисциплина требует ожидания появления новых данных, чтобы показать прогнозируемую силу сформулированной теории против нулевой гипотезы. Этот процесс гарантирует, что никто не может обвинить исследователя в ручной подгонке прогностической модели под имеющиеся данные, так как будущая погода еще не известна.
В качестве другого примера, предположим, что наблюдатели отмечают, что в определенном городе возможно существует кластер рака, но нет твердой гипотезы, почему это так. Однако у них есть доступ к большому количеству демографических данных о городе и его окрестностях, которые содержат измерения сотен или тысяч различных переменных, преимущественно некоррелированных. Даже если все эти переменные не зависят от уровня заболеваемости раком, велика вероятность, что хотя бы одна переменная существенно коррелирует с частотой рака в этой местности. Хотя это может служить в пользу гипотезы, для подтверждения необходимо дальнейшее тестирование с использованием тех же переменных, но с данными из другой местности. Обратите внимание, что p-значение 0,01 свидетельствует о том, что в 1 % случаев результат, по крайней мере, такой экстремальный, будет получен случайным образом; если проверяются сотни или тысячи гипотез (с взаимно относительно некоррелированными независимыми переменными), то скорее всего можно получить p-значение меньше 0,01 для многих нулевых гипотез.
Средства защиты
Искать закономерности в данных — это правомерно. Применение статистического анализа к тем же данным, из которых возникает закономерность, неправомерно. Одним из способов построения гипотез, избегая фильтрации данных, является проведение рандомизированных выборочных тестов. Исследователь собирает набор данных, а затем случайным образом распределяет его на две подмножества A и B. Только одно подмножество — скажем, подмножество A — исследуется для создания гипотез. После того как гипотеза сформулирована, она должна быть проверена на подмножестве B, которое не использовалось для построения гипотезы. Только тогда, когда данные из подмножества B также поддерживают эту гипотезу, разумно считать, что гипотеза может быть справедливой. (Это простой тип перекрестной проверки, который часто называют обучающим тестом или валидацией с разделенной половиной.)
Другим средством защиты от фильтрации данных является запись количества всех тестов значимости, проведенных в ходе исследования, и просто разделение уровня значимости («альфа») на это число; такова коррекция Бонферрони. Однако это очень консервативный способ. Общеизвестный альфа-коэффициент 0,05, разделенный таким образом на 1000, чтобы учесть 1000 тестов значимости, дает очень строгую альфу 0,00005. Методами, особенно полезными для дисперсионного анализа и для построения доверительных интервалов для регрессий, включающих базовые функции, являются метод Шеффе, а если исследователь имеет в виду только попарные сравнения, метод Тьюки. Использование коэффициента ложных открытий Бенджамини и Хохберга является более сложным подходом, который стал популярным методом контроля множественных сравнений.
Можно четко разделить анализ данных на подтверждающий и исследовательский. Выводы, основанные на статистике, подходят только для первого из них.
В конце концов, статистическая значимость теста и статистическая уверенность нахождения являются общими свойствами данных и метода, который используется для исследования этих данных. Таким образом, если кто-то говорит, что определенное событие имеет вероятность 20 % ± 2 %, в 19 случаях из 20, это означает, что вероятность события, оцененная именно тем методом, который использовался, находится между 18 % и 22 % с вероятностью 0,95. Никакое заявление о статистической значимости не может быть сделано без должного учета метода, который использовался для оценки данных.
Академические журналы все чаще переходят к практике предварительно заявленного отчета, который направлен на борьбу с очень серьезными проблемами, такими как фильтрация данных и HARKing (англ. Hypothesizing After the Results are Known, выдвижение гипотез после того, как результаты стали известны), которые сделали исследования по тестированию гипотез очень ненадежными: например, журнал Nature Human Behaviour перешел на предварительно заявленный отчет, поскольку он “переносит [акценты] с результатов исследования на вопросы, которыми руководствуется исследование, и методы, которые используются для ответов на них”.[5] European Journal of Personality определяет этот формат следующим образом: «В предварительно заявленном отчете авторы создают предложение исследования, которое включает теоретические и эмпирические предпосылки, исследовательские вопросы / гипотезы и пилотные данные (если таковые имеются). После подачи в редакцию это предложение будет рассмотрено до начала сбора данных, и если оно будет принято, статья, полученная после этой рецензируемой процедуры, будет опубликована независимо от результатов исследования».[6]
Общедоступность методов и результатов исследования по принципу открытой науки еще больше усложняет использование метода фильтрации данных.[7]
Список литературы
- ↑ Davey Smith, G.; Ebrahim, S. (2002). Data dredging, bias, or confounding. BMJ. 325 (7378): 1437–1438. doi:10.1136/bmj.325.7378.1437. PMC 1124898. PMID 12493654.
- ↑ Young, S. S.; Karr, A. (2011). Deming, data and observational studies (PDF). Significance. 8 (3): 116–120. doi:10.1111/j.1740-9713.2011.00506.x. Архивировано (PDF) 2020-12-05. Дата обращения: 2020-11-17.
{{cite journal}}:|archive-date=/|archive-url=несоответствие временной метки; предлагается 5 декабря 2020 (справка) - ↑ Selvin, H.C.; Stuart, A. (1966). Data-Dredging Procedures in Survey Analysis. The American Statistician. 20 (3): 20–23. doi:10.1080/00031305.1966.10480401. JSTOR 2681493.
- ↑ Berk, R.; Brown, L.; Zhao, L. (2009). Statistical Inference After Model Selection. J Quant Criminol. 26 (2): 217–236. doi:10.1007/s10940-009-9077-7. Архивировано 2020-09-20. Дата обращения: 2020-11-17.
{{cite journal}}:|archive-date=/|archive-url=несоответствие временной метки; предлагается 20 сентября 2020 (справка) - ↑ Promoting reproducibility with registered reports. Nature Human Behaviour. 1 (1): 0034. 2017-01-10. doi:10.1038/s41562-016-0034.
- ↑ Streamlined review and registered reports soon to be official at EJP. ejp-blog.com. Дата обращения: 17 ноября 2020. Архивировано 24 июля 2020 года.
- ↑ Vyse, Stuart (2017). P-Hacker Confessions: Daryl Bem and Me. Skeptical Inquirer. 41 (5): 25–27. Архивировано 5 августа 2018. Дата обращения: 2018-08-05.
Примечания
Ioannidis, John P.A. (2005-08-30). Why Most Published Research Findings Are False. PLOS Medicine. 2 (8). San Francisco: Public Library of Science: e124. doi:10.1371/journal.pmed.0020124. ISSN 1549-1277. PMC 1182327. PMID 16060722.{{cite journal}}: Википедия:Обслуживание CS1 (не помеченный открытым DOI) (ссылка)
Head, Megan L.; Holman, Luke; Lanfear, Rob; Kahn, Andrew T.; Jennions, Michael D. (2015-03-13). The Extent and Consequences of P-Hacking in Science. PLOS Biology. 13 (3): e1002106. doi:10.1371/journal.pbio.1002106. PMC 4359000. PMID 25768323.{{cite journal}}: Википедия:Обслуживание CS1 (не помеченный открытым DOI) (ссылка)
Insel, Thomas (2014-11-14). P-Hacking. NIMH Director's Blog (англ.). Архивировано 2020-11-11. Дата обращения: 2020-11-17. {{cite news}}: |archive-date= / |archive-url= несоответствие временной метки; предлагается 11 ноября 2020 (справка)
Smith, Gary. Standard Deviations: Flawed Assumptions, Tortured Data, and Other Ways to Lie with Statistics. — Gerald Duckworth & Co, 2016. — ISBN 9780715649749.