Статистическая проверка: когда боты «правят» ученых

Знаете того коллегу, который всегда подходит к вашему столу и громко говорит, что нашел ошибку в отчете, который вы сдаете? С одной стороны, это хорошо - не надо, чтобы начальник видел, как ты еще путаешь "их/там". С другой стороны, какая боль.

В последние несколько месяцев ученые испытывают те же смешанные чувства, что и statcheck, новое приложение, которое сканирует психологические исследования на наличие ошибок. И, как и в случае с «услужливым» коллегой, это способ раскрытия информации задел некоторых за живое.

Начнем с того, что именно делает statcheck. Сэм Шварцкопф, невролог из Университетского колледжа Лондона, который ведет научный блог NeuroNeurotic, сравнивает его с проверкой орфографии для статистики.«Большинство ошибок, отмеченных statcheck, скорее всего, несущественны», - объясняет он по электронной почте. «Поэтому немного больно видеть ошибку, но на самом деле это не приносит большого вреда». Опечатка, например. Приятно ловить, но не страшно.

Однако, когда statcheck помечает ошибки как «потенциально изменяющие выводы», это похоже на обнаружение опечатки, которая «изменит смысл предложения», - говорит Шварцкопф. Но это также не означает, что эти статистические ошибки определенно меняют результаты.

«Держу пари, что большинство таких ошибок, вероятно, являются опечатками и на самом деле не меняют выводы», - говорит Шварцкопф. «Во многих случаях вы можете сказать по результатам, цифрам или графикам, что выводы верны, а статистический тест просто искажен».

Конечно, будут случаи, когда будет фактическая ошибка, что будет означать, что была ошибка с фактическим расчетом, или что цифры мошеннические. В любом случае, это потребует ручной старомодной проверки.

Звучит здорово, правда? Способ для ученых проверять свои исследования перед отправкой и помогать работать над получением более точных результатов. Но массовое развертывание statcheck было немного более драматичным: 50 000 статей на PubPeer (онлайн-платформа, которая позволяет исследователям обмениваться опубликованными статьями и обсуждать их) были проанализированы с помощью statcheck и, таким образом, были отмечены автоматически сгенерированными отчетами - даже если отчет просто говорил, что ошибок нет.

Не все были в восторге от того, что их работа была проанализирована и прокомментирована без запроса, особенно на форуме, где комментарий к статье обычно означает обнаруженную ошибку. Иными словами, флаг, указывающий, что документ был отсканирован программой statcheck, может привести к неправильному толкованию.

И важно помнить, что statcheck ни в коем случае не является совершенным искусственным интеллектом. «Поскольку statcheck - это автоматизированный алгоритм, он никогда не будет таким точным, как ручная проверка», - говорит Мишель Нуйтен по электронной почте. Нюйтен - доктор философии. студент Тилбургского университета в Нидерландах и помог создать statcheck. «Из-за ошибок, которые делает statcheck, вам всегда нужно вручную проверять любые несоответствия, отмеченные statcheck, прежде чем делать убедительные выводы».

И Нюйтен, и Крис Хартгеринк (исследователь, который просматривал документы PubPeer и сообщал о них), были уверены, что в statcheck есть баги и ошибки. Руководство по statcheck также включает подробные списки того, что statcheck не может сделать.

Что возвращает нас к тому, на что также указывает Шварцкопф: Поиск ошибок в статистике - отличный способ предупредить, но он не обязательно рассказывает историю данных. В документе сообщается, что каждая восьмая статья содержала ошибку, которая могла повлиять на статистический вывод, что могло бы привести всех нас к панике, что наука ошибается, что верх есть низ, и никому нельзя доверять. Но statcheck не говорит нам, сколько ошибок на самом деле повлияло на выводы исследований. Он просто отмечает потенциальные грубые несоответствия.

Schwarzkopf предупреждает, что нам не нужно паниковать, что все эти ошибки означают ложные выводы. «Подавляющее большинство даже из этих одной из восьми ошибок, вероятно, несущественны, потому что они происходят из-за опечаток, а не из-за фактических просчетов результатов», - говорит он. «Безусловно, хорошо выявлять такие ошибки, но они не делают недействительной интерпретацию результатов. Единственный способ отличить, вызвана ли ошибка опечаткой или истинным просчетом, - это посмотреть на сами данные и воспроизвести статистику».

Другими словами, мы должны убедиться, что авторы и публикации проверяют (а затем перепроверяют) статистику перед публикацией и, что особенно важно, также воспроизводят результаты.

И хотя некоторые ученые не были в восторге от того, что их работа была проанализирована или отмечена в PubPeer, справедливо сказать, что исследователи найдут облегчением использовать технологию statcheck для перепроверки своей работы, которую они могут теперь это легко сделать на

Интересно

Важно отметить, что statcheck предназначен только для работы с психологическими документами. Найтен и ее коллеги в настоящее время работают над финансированием для расширения statcheck на другие области, такие как биомедицинские науки и экономика.