Неповторимое открытие: что такое кризис воспроизводимости в науке

Фото: РБК
Фото: РБК
«Поза силы» и «поза слабости», соблазн открытия и лаборатория как микро-вселенная. РБК Тренды разобрались в том, почему научные открытия одних ученых иногда оказываются фиктивными, когда их проверяют другие

Этот материал ребята из команды Трендов обсудили в выпуске подкаста «Летучка». Послушать можно на любой удобной платформе: в плеере выше, в Apple Podcasts, CastBox, «Яндекс.Музыке», Google Podcasts и везде, где есть подкасты.

В 2005 году Джон Иоаннидис, известный американский врач-эпидемиолог и статистик, опубликовал эссе, которое произвело настоящий шок. Будоражило уже само название: «Почему большинство опубликованных результатов исследований ложны».

В этом эссе профессор Стэнфордского университета доказывал, что значительное количество опубликованных медицинских исследований содержат результаты, которые невозможно воспроизвести. То есть, если ученый Y возьмется повторить эксперимент, который провел ученый X, отчитавшийся об открытии, то, скорее всего, он не придет к аналогичному результату.

Принцип воспроизводимости — один самых важных с точки зрения валидации научного знания. Если он не соблюдается, значит с исследованием что-то «не так», и его нужно проводить заново, используя более качественную методологию.

Позднее в ответ на статью Иоаннидиса был создан крупный проект «Воспроизводимость» (Reproducibility Project), который сразу перепроверил 100 психологических исследований. Результаты оказались ошеломительными: если в 97 из 100 исследований отмечалось, что оно содержит в себе статистически значимые результаты, то после проверки это подтвердилось лишь в 36% случаев.

В итоге, схожие проблемы были зафиксированы не только в медицине и психологии, но и в социологии, политологии, биостатистике, эволюционной биологии и не только. Кризис воспроизводимости или кризис репликации («replication crisis») приобрел поистине междисциплинарный характер.

Так, в 2016 году авторитетный журнал Nature опубликовал данные большого опроса, в котором приняли участие 1500 ученых. Он показал, что более 70% исследователей пытались и не смогли воспроизвести эксперименты другого ученого, а более половины — не смогли воспроизвести свои собственные.

При этом за время этой большой ревизии, охватившей глобальный научный мир, стали вскрываться довольно экзотичные «открытия». Например, в одном исследовании утверждалось, что поисковые системы ухудшают память. В другом доказывалось, что есть (буквально) «поза силы», придающая человеку уверенность, и «поза слабости», ее отнимающая.

При этом кризис воспроизводимости — довольно сложное явление. Его не получится объяснить банальной исследовательской недобросовестностью. Согласно исследованию, которое приводит Дэвид Шпигельхалтер в книге «Искусство статистики. Как находить ответы в данных», «проверка анонимных самоотчетов показала, что 2% ученых признались в фальсификации данных».

Напротив, куда большую роль играет бюрократическая среда, в которой живет современный ученый или его исследовательская психология (фетиш на научные открытия). Но есть и более глубокие корни этого кризиса, которые уходят к самой методологии современной науки. В частности, к тому, каким образом проводится эксперимент и насколько корректно регистрируется каждый его этап.

Публикуй или умри!

Одно из самых важных объяснений, с помощью которого «расколдовывается» кризис воспроизводимости, — современная исследовательская среда. Причем речь идет не только о том, в каких условиях вынужден работать ученый, но и о давлении, которое оказывает на него медиа и общество.

«Нужно понимать, что сложившаяся система наукометрии и в целом усиливающаяся власть медиа подталкивают ученых к публикации непроверенных и часто преувеличенных результатов», — рассказывает Тарас Вархотов, доцент доцент кафедры философии и методологии науки МГУ им. М.В. Ломоносова.

По словам эксперта, вместе с переходом к «эффективному» государственному управлению наукой, который начался в 1980-х годах и был обусловлен растущей дороговизной исследований, ученый фактически оказался в подневольном положении.

Периодические бюджетные дефициты, которые приводили к перераспределению финансирования, заставляли бюрократию постоянно ужесточать требования к научным организациям, чтобы «оправдать» затраты и усилить подотчетность.

В частности, это привело к тому, что академическому сообществу были навязаны формальные количественные показатели, которые не могли не отразиться на качестве исследований. «Publish or perish» (англ. — «Публикуй или умри») — этот новый неформальный императив, ставший плодом этих показателей, превратился для ученого в новую норму и головную боль.

Получить стимулирующие выплаты, новый грант, пройти переаттестацию, подняться по карьерной лестнице — отныне все это стало возможным только с соответствующими публикационными баллами. Мало того, что это требование приводило к профессиональному выгоранию. Оно, очевидно, плохо подходило самому характеру научной деятельности.

Как любят шутить российские ученые: в современном университете Кант продержался бы недолго, ведь «Критику чистого разума» он писал более десяти лет и за это время не опубликовал ни одной статьи.

Неудивительно, что, оказавшись под жестким бюрократическим прессом, многие ученые стали банально торопиться, экономя на перепроверке и скрупулезном продумывании методологии. Согласно уже упомянутому опросу журнала Nature, 60% респондентов признались, что публикационное давление и избирательное предоставление отчетов сыграли решающую роль в том, что они отдали в печать сырые исследования.

Искушение открытием

Но свою роль в кризисе воспроизводимости играет и давление со стороны медиасреды, которая провоцирует сразу два процесса. С одной стороны, медиопространство «живет» научными сенсациями и фетишизирует их. Что, в свою очередь, косвенно сказывается на исследователе, который обычно и без того замотивирован получить Нобелевскую премию.

«В эпоху, когда все мы стремимся к новой информации и новым впечатлениям, неудивительно, что СМИ придают остроту текстам об исследованиях и провоцируют необычные (часто преувеличенные) заявления, выходящие за рамки серьезных статистических фактов», — пишет в своей книге Дэвид Шпигельхалтер.

Среди спровоцированных этой жаждой к впечатлениям курьезов, британский статистик приводит пример некоего исследования, согласно которому, если пить алкоголь и смотреть в это время телевизор более пяти часов в сутки, риск столкнуться с фатальной легочной эмболией возрастает в 2,5 раза.

На выходе получаем статью с «цепляющим» заголовком: «Почему просмотр телевизора в пьяном виде может вас убить», и исследование, внутри которого неверно истолкованные статистические данные. При более пристальном анализе, пишет Шпигельхалтер, оказывается, что для столкновения с таким заболеванием перед телевизором нужно сидеть по пять часов в течение 12 тысяч лет. Что, очевидно, девальвирует всякий смысл этого «открытия».

Впрочем, самый громкий пример такого конъюнктурного открытия — известный Стэнфордский тюремный эксперимент. Он оказал огромное влияние на медиа и культуру, поскольку прекрасно вписывался в волну популярности теории тоталитаризма с ее мифом о существовании «закрытых» и «открытых» обществах.

Однако позднее на уровне воспроизводимости этот эксперимент был последовательно раскритикован научным сообществом — и за свою методологию, и за полученные результаты. Филипп Зимбардо — психолог, проведший этот эксперимент, — слишком сильно хотел выдать желаемое за действительное, и своего он в итоге добился в ущерб опытным процедурным нормам, заключили эксперты.

С другой стороны, этому же искушению подвергаются и солидные научные журналы. Они не только с охотой забирают рукописи только с «яркими» выводами, но и все чаще отказываются публиковать статьи с отрицательными результатами. Хотя последние обладают большим значением для научного сообщества, поскольку предостерегают других исследователей от работы с неработающими гипотезами и методологией.

В англоязычной литературе у этой проблемы даже есть специфическая рубрика — publication bias. Так, согласно исследованию Джеймса Нойлипа и Рика Крэндалла, более 70% редакторов из 79 журналов по социальным наукам заявили, что предпочитают новые исследования повторным. А многие организации, финансирующие науку, признались, что отдают предпочтение только «новаторским» и «оригинальным» исследованиям.

В результате, подобное стремления редакторов публиковать лишь яркие, демонстративные и статистически значимые результаты исследований, по мнению социолога Инны Девятко, «порождает у многих ученых мотивацию избирательно искать в данных новые значимые различия и эффекты, нередко являющиеся лишь статистическими артефактами, откладывая при этом в дальний ящик стола любые эмпирические результаты, не позволяющие отвергнуть нулевую гипотезу».

Угольно-черное волокно

Еще более любопытные вещи вскрываются на уровне тех исследований, где ученый вроде бы не испытывал на себе внешнего давления и работал добросовестно. Однако выводы, к которым он пришел, впоследствии ставились под сомнение или оказывались неоднозначными.

Показательна нашумевшая книга «Взросление на Самоа», вышедшая в 1926 году. Ее автор, антрополог Маргарет Мид, почти сразу снискала себе мировую известность: при жизни суммарный тираж этого исследования перевалил за два миллиона экземпляров.

Действительно, открытие, к которому пришла антрополог, было не тривиальным. Проведя полтора года на Самоа, исследовательница описала местное общество в совершенно утопических тонах. Оно было лишено семейных связей, не знало авторитета родителей, репрессивных норм «белой цивилизации» и культа девственности.

Однако уже во второй половине двадцатого века это исследование стало вызывать скепсис. Самым известным критиком Маргарет Мид стал другой антрополог, Дерек Фриман. В течение многих лет он изучал культуры островов Западного Самоа и написал книгу с ровно противоположными выводами. Фриман описывает очень конкурентное и завистливое общество, пронизанное самыми разными нормами, в том числе связанными с культом девственности. Как объяснить этот парадокс?

По словам Михаила Соколова, профессором Европейского университета в Санкт-Петербурге, научным руководителем Центра институционального анализа науки и образования, вся философия науки двадцатого века размышляла над этим явлением. «Конечно, огромную роль может играть чисто человеческий фактор. Если мы очень хотим получить какой-то результат, например, подтвердить свою любимую теорию, то, неосознанно — а иногда и вполне осознанно — можем начать подбирать данные, которые лучше всего в нее укладываются и закрывать глаза на противоречия», — считает Михаил Соколов.

Однако, по словам эксперта, есть и другое возможное объяснение, связанное с самим описанием полученных данных. Дело в том, что составить исчерпывающее описание всего хода эксперимента не всегда возможно: «В любом исследовании всегда есть какие-то элементы или этапы, которые легче показать, чем расписать», — рассказывает Михаил Соколов.

Иными словами, язык, который используется для описания хода исследования, не всегда можно формализовать до такой степени, чтобы другие ученые корректно его считали. И как раз на уровне этого сбоя коммуникации начинает барахлить принцип воспроизводимости.

В качестве примера Михаил Соколов приводит статью «The Blackness of Black: Color Categories as Situated Practice», написанную американским семиотиком и социологом Чарльзом Гудвиным. В ней ученый приводит пример описания одного химического эксперимента, в котором, в частности, указано, что «реакцию необходимо остановить примерно через десять минут, удаляя угольно-черное (jet-black) волокно и промывая его в деионизированной воде». Спрашивается: как понять, что цвет волокна принял именно такой черный цвет?

Природное и искусственное

Наконец, совсем трудный случай, связанный с кризисом воспроизводимости, — когда результаты, полученные в лабораторных условиях, значительно теряют свою эффективность при попадании в естественную среду. Мы хорошо помним, насколько непредсказуемо, к примеру, работала система ПЦР-тестирования на коронавирус. Тесты очень часто давали ложноположительный или ложноотрицательный результат.

С точки зрения проблемы воспроизводимости — это принципиальный момент. Если мы имеем дело с тест-системами, которые по всему миру давали погрешность в 30%, а то и в 40%, возникает вопрос, а с чем мы вообще имеем дело.

«Тут возникает дилемма: либо мы считаем, что статистическая погрешность, доходящая до трети и более результатов, ставит под сомнение соответствующий инструмент в целом, либо мы закрываем на это глаза и принимаем политическое решение считать этот конкретный диагностический тест надежным, то есть исходить из презумпции истинности его результатов и игнорировать статистику ошибок», — замечает Тарас Вархотов.

В разрезе истории науки эта проблема обсуждается уже много веков. Главный вопрос данной дискуссии формулируется так: можно ли считать результаты, полученные искусственным путем (то есть при помощи технологического вмешательства или создания специфической, лабораторной среды), научными в строгом смысле этого слова? Особенно с учетом принципа воспроизводимости.

«Сфабрикованное и природное — это не одно и тоже. Тем более, что искусственно полученные результаты часто живут потом собственной поддерживаемой искусственными же системами жизнью, находящейся в неочевидных отношениях с природой», — заключает Тарас Вархотов.

Мыслительные коллективы

Бороться с самыми вредными проявлениями кризиса воспроизводимости начали недавно, хотя точечные меры начали разрабатываться уже в середине прошлого века. Первые кодексы научной этики были приняты уже тогда. Тут можно вспомнить, например, знаменитые институциональные императивы Роберта Мертона или книгу Альберта Байета «Мораль в науке».

На государственном уровне первым институтом, который был создан для соблюдения принципов научной этики, стал специальный офис при министерстве здравоохранения и социальных служб США. Он появился еще в 1986 году и с тех пор занимается расследованиями и выявлением соответствующих нарушений, а также консультированием различных организаций.

В Евросоюзе на официальном уровне научной этикой занялись уже в 2000-е, итогом чего стал Европейский кодекс поведения исследователей. Он хоть и носит рекомендательный характер, зато содержит детализированную инструкцию, описывающую принципы проведения исследования, которая может уберечь от самых распространенных ошибок.

Помимо этого, в ряде стран начали корректировать методы управления наукой. Так, в Великобритании была введена система Research Excellence Framework (REF). Ее основной механизм — экспертная оценка результатов исследований не университетов вообще, а именно факультетов и департаментов. Оценка производится признанными учеными, международными экспертами, компаниями и организациями. Результаты этого аудита напрямую влияют на последующие объемы бюджетного финансирования.

Борьбой за качество исследований занялись и отдельные научные организации. Например, Университетский колледж Лондона фактически отказался от количественных показателей. Эти метрики рекомендовано рассматривать как второстепенные, а для оценки эффективности исследователей и принятия кадровых решений советуют использовать более гибкие и индивидуализированные подходы.

В Гентском университете, начиная с 2019 года вместо количественных метрик была принята модель коллегиальной экспертной оценки («peer review»). С ее помощью «замеряется» новизна, методологическая строгость и важность проведенного исследования.

Впрочем, говоря о кризисе воспроизводимости, стоит помнить еще и о том, что сам по себе научный факт — это во многом социально конструируемое явление. Вспоминается знаковая книга Людвика Флека «Возникновение и развитие научного факта», в которой польский врач-микробиолог и философ на примере работы лабораторий показал, что научное знание имеет коллективную природу, что, по сути, снимает саму возможность достижения окончательной и неопровержимой научной истины.

Флек пишет, что любая лаборатория превращается в мыслительный коллектив — замкнутую микро-вселенную, которая интерпретирует мир за пределами лаборатории так, как верят и считают нужным ее обитатели. Этим объясняется не только то, что эксперимент, проведенный одним научным коллективом, может не воспроизвестись другим (из-за разности устройства этих мыслительных коллективов).

Важно то, что сам по себе научный путь — это постоянная борьба разных школ и коллективов, череда проб и ошибок. То есть это путь, который принципиально не может быть завершен: подлинный ученый никогда не скажет «хватит». И в этом смысле принцип воспроизводимости выступает в качестве защиты от самого опасного недуга — от закостенения и догматизации живого научного процесса. А значит принципу воспроизводимости в каком-то смысле имманентно состояние кризиса.

Обновлено 17.08.2022
Главная Лента Подписаться Поделиться
Закрыть