Книги, 26 фев, 16:14

«Психометрика в EdTech»: книга о том, как измерить эффективность обучения

Читать в полной версии
Издательство «МИФ» и «Яндекс Образование» выпустили книгу о психометрике в EdTech. Делимся интересным фрагментом

В феврале 2025 года из печати вышла книга «Психометрика в EdTech: первые шаги» Дмитрия Аббакумова — совместный проект «Яндекс Образования» и издательства МИФ. Новинка знакомит читателей с психометрикой — наукой об измерениях в образовании, рассказывает, как образовательные метрики связаны с продуктовыми и бизнес-метриками, а также учит рассчитывать и анализировать метрики контента и студентов, с помощью которых можно управлять продуктами в сфере онлайн-образования.

«РБК Тренды» публикуют главу из книги «Психометрика в EdTech. Первые шаги». Материал подготовлен в коллаборации с издательством «МИФ».

Наука об измерении невидимого

Удобно, когда работаешь с чем‑то осязаемым. Всегда можно оценить результаты своей работы: взвесить урожай яблок, подсчитать количество перевезенных пассажиров или позиций в товарном чеке. Сравнивая полученные значения, можно оценить, в каком году урожай был выше, в какое время суток люди чаще пользуются такси и какие товарные позиции лучше всего продаются, а на основании этих сравнений принимать взвешенные решения: выбрать более эффективное удобрение, спрогнозировать необходимое количество такси на линии, чтобы удовлетворить спрос и не спровоцировать простой, заранее в нужном количестве заказать хорошо продающийся товар.

Образованию в этом смысле повезло меньше: его основной продукт скрыт от непосредственного наблюдения. Невозможно, посмотрев на двух студентов, сказать, кто из них лучше знает предмет. Нет инструментов, которые, подобно весам или рулетке, покажут, каков запас знаний у человека. И даже если поместить его в дорогостоящий современный сканер, мы не узнаем, сколько информации в его голове.

Ученые и практики издавна предпринимают попытки измерить невидимое. В литературе можно проследить, что еще за 500 лет до нашей эры Конфуций (551–479 гг. до н. э.) делал первые «педагогические измерения»: наблюдал за учениками, их активностью и мотивацией — и сопоставлял полученные данные с их результатами. Вот, например: «Того, кто не стремится к достижению знания, не следует направлять на правильный путь. Тому, кто не испытывает трудностей в выражении своих мыслей, не следует помогать. Того, кто не в состоянии по одному углу предмета составить представление об остальных трех, не следует учить». Однако системно такими измерениями стали заниматься только во второй половине XIX века. А значит, именно в это время появились первые исследования и публикации о том, как измерять скрытые от непосредственного наблюдения педагогические и психологические характеристики так же легко и точно, как и физические величины (массу, длину, время).

Лень — это нормально: почему мозг не хочет учиться, и как его разгрузить
Экономика образования 

В этом движении можно выделить два основных направления. Первое — это собственно измерение физических (наблюдаемых) величин учебного процесса. В лаборатории Вильгельма Вундта (1832–1920) в Лейпциге для измерений использовались самые различные инструменты — от простого таймера до тахистоскопа, суперсовременного в то время аппарата, позволявшего проецировать изображение в течение определенного времени, чтобы замерить, например, скорость распознавания этого изображения. На фотографии 1892 года Гуго Мюнстерберг (1863–1916), ученик Вундта, проводит исследование — выясняет, сколько времени студенты Гарвардского университета тратят на выполнение учебных заданий.

Лабораторное измерение скорости решения заданий (Фото: James W. Houghton Library. Harvard College Library)

Второе направление — представление ненаблюдаемого результата учебного процесса в качестве физической величины. Первым ученым, о ком важно упомянуть в этом отношении, является Фрэнсис Эджуорт (1845–1926). Его работа «Статистика экзаменов» (1888) — это, пожалуй, первая попытка выразить «знания» через физическую величину. Он пишет, что если несколько экспертов оценивают работу студента, то среднее значение оценок, выставленных за эту работу, можно считать истинным уровнем знаний этого студента. И добавляет, что отклонения оценок отдельных экспертов от полученного среднего можно считать ошибкой измерения. Так, среднее и ошибка — ключевые характеристики при измерениях физических величин (например, массы или длины) — впервые были приложены к ненаблюдаемой характеристике (знаниям). Можно сказать, эта работа дала старт первой метрике ненаблюдаемого.

Скоро приходит понимание, что использовать труд нескольких экспертов для оценки одного студента — ресурсоемкое мероприятие (особенно если требуется оценить несколько студентов). Так возникает идея, вместо того чтобы несколько экспертов оценивали одну работу, дать одному студенту несколько заданий, а затем подсчитать по полученным результатам те же показатели — среднее и ошибку. В итоге появляются первые тесты как наборы заданий одного содержания, которые активно использует в своей исследовательской работе другой ученик Вундта — американский психолог Джеймс Маккин Кеттелл (1860–1944).

На рубеже XIX—XX веков происходит интеграция первого и второго направлений: одновременно исследуются физические величины учебного процесса и измеряются ненаблюдаемые результаты. Российский профессор Александр Нечаев (1870–1948) изучает оптимальную продолжительность учебного времени, сопоставляя результаты обучения и длительность урока. Однако еще более важным является то, что Нечаев предпринимает первые попытки обобщить несколько мер ненаблюдаемого с помощью одного числа. Так, он вычисляет среднее значение между памятью учащихся на предметы, числа, звуки и слова, вводя условную общую характеристику памяти, а затем исследует, как отдельные виды памяти связаны между собой и какой вклад вносят в общую память.

Британский ученый Чарльз Спирмен (1853–1945), анализируя, как студенты выполняют различные задания и тесты, обнаруживает, что результаты часто оказываются похожими: например, сильный студент хорошо справляется и с первым, и со вторым, и с третьим заданиями, тогда как слабый и в первом, и во втором, и в третьем случаях получает невысокий результат. Описывая свои наблюдения математическим языком, Спирмен выводит коэффициент корреляции (меру взаимосвязи между величинами), а затем понятие общего фактора — ненаблюдаемой величины, определяющей результаты и в первом, и во втором, и в третьем заданиях.

Раздельное обучение: зачем мальчиков и девочек учат отдельно
Экономика образования 

Работу Спирмена продолжает американский ученый Луис Терстоун (1887–1955), который продемонстрировал, что результаты выполнения очень большого количества самых разных по содержанию учебных заданий можно объяснить всего несколькими переменными. Например, если учащийся хорошо перемножает, складывает, делит и справляется со многими другими вычислительными операциями, это объясняется тем, что хорошо развитое умение считать является у него общей характеристикой, определяющей все успехи в вычислениях. Терстоун вводит обобщающие переменные: понимание речи, беглость речи, умение считать, пространственная визуализация, ассоциативная память, скорость восприятия и логические рассуждения — и называет их основными способностями человека.

Важно отметить, что в ходе этих исследований Терстоун разработал новый статистический инструмент — факторный анализ, который по праву считается первым кирпичиком науки о данных (Data Science).

Общим в исследованиях Кеттелла, Нечаева, Спирмена, Терстоуна было то, что они преследовали цель с помощью одного числа обобщить большое количество отдельных учебных результатов. Это общее число можно назвать мерой, или метрикой, например, памяти, знаний или способностей. Память, знания или способности по своей сути являются ненаблюдаемыми (неосязаемыми) характеристиками. Чтобы измерить характеристики, нужно обеспечить им возможность как‑то проявиться. Именно для этого Нечаев давал учащимся слова и через какое‑то время просил их воспроизвести. Воспроизведение слов (в исследованиях Терстоуна — решение вычислительных задач) уже можно было пронаблюдать и подсчитать (например, 7 из 10 слов были воспроизведены правильно). Далее, чтобы на основании этих наблюдений создать общую метрику, следовало воспользоваться статистическим решением. Оно может быть простым, как у Нечаева (среднее по этим наблюдениям для каждого студента), или более сложным, как у Спирмена и Терстоуна (факторный анализ). В результате получаем число для каждого студента, характеризующее его невидимую характеристику.

Это и есть главный принцип психометрики как науки об измерениях невидимого: чтобы измерить невидимое, нужно дать ему проявиться через наблюдаемое поведение, а затем воспользоваться специальной статистической формулой для обработки результатов этих наблюдений и вычисления соответствующей метрики.

Слово «психометрика» упоминается уже со второй половины XIX века: Фрэнсис Гальтон (1822–1911) определял ее как «искусство присвоения чисел операциям разума» (1879), а диссертация Кеттелла, которую он защитил в 1886 году под руководством Вундта в Лейпциге, называлась «Психометрические исследования» (нем. Psychometrische Untersuchungen). Однако закрепление психометрики в качестве самостоятельного научного направления произошло значительно позднее, в 1935 году, когда Терстоун с коллегами основали международное Психометрическое общество и состоялась первая встреча этого общества, которые проходят ежегодно по настоящее время. С того момента (и публикации в самом влиятельном научном журнале мира Science) педагогика и психология были признаны как количественные рациональные науки — такие же, как естественные.

Психометрика зародилась на Западе, но и в России это направление также развивалось интенсивно, а исследования находились на переднем крае науки, о чем свидетельствует, в частности, то, что инструменты, изобретенные Нечаевым для изучения памяти, неоднократно получали премии на зарубежных психологических выставках, а его книги (например, «Современная экспериментальная психология в ее отношении к вопросам школьного обучения», 1901) нашли себе место в научных библиотеках Гарвардского и других ведущих западных университетов. Однако прискорбный исторический факт заключается в том, что в 1935 году, когда в США было создано международное Психометрическое общество, в России профессор Нечаев был репрессирован и сослан в Семипалатинск (Казахстан). А годом позднее, в 1936‑м, педагогические измерения в России объявили не просто лженаукой, а извращением, и они были запрещены по всей стране. В науке об измерениях невидимого в России начался «ледниковый период», который продлился вплоть до начала XXI века. Хотя отдельные работы в области измерений все же велись, сфокусированы они были преимущественно на психологической диагностике, а не на педагогике; статистические же методы психометрики не разрабатывались вовсе.

Уроки в лодках, сон на партах: подходы стран к школьному образованию
Экономика образования 

Однако вернемся к развитию науки об измерениях. В середине XX века (в 1947 году) вышла книга ученицы Терстоуна Дороти Эдкинс (1912–1975). Она рассказывала, как сделать так, чтобы задания, которые мы даем студентам, проявляли именно ту невидимую характеристику, которую мы хотим измерить. Другими словами, в этой книге приводится содержательная связка и даются инструменты для связывания невидимой характеристики с наблюдаемыми индикаторами. В 1958 году вышла другая значимая работа Эдкинс, в которой были представлены научно обоснованные рекомендации о том, как на основании педагогических измерений улучшать обучение — «настраивать» его на учащихся. С этого момента психометрику можно считать драйвером доказательного образования, основанного на данных, собираемых с помощью научных методов. (Да, да, доказательное образование появилось задолго до того, как о нем заговорили как о rocket science).

Постепенно простые способы, такие как вычисление среднего, предложенное еще Эджуортом в 1888 году, были доработаны до полноценных психометрических теорий — сначала той, что сегодня известна как «классическая» (1940–1950‑е), а позднее — современной (1960–1970‑е). В фундаментальной книге «Статистические теории тестовых баллов» (1968) Фредерика Лорда (1912–2000) и Мелвина Новика (1932–1986) приводятся вычислительные обоснования валидности, точности и надежности измерений и закрепляется статистический аппарат для соответствующих метрик. Можно считать, что у науки об измерении невидимого появились глубокий и надежный фундамент и правила функционирования.

С усовершенствованием компьютеров и их вычислительных возможностей стали широко использоваться и развиваться более сложные математические подходы. Название «Современная теория тестирования» (Item Response Theory) объединяет большое количество математических моделей, предназначенных для оценки все тех же непосредственно ненаблюдаемых характеристик.

Дальнейшее развитие психометрики связано с поиском и внедрением улучшений для второй части главного принципа — статистической обработки результатов наблюдений и вычисления соответствующих метрик. Ученые выясняют: а как быть с заданиями, где правильный ответ может быть частичным, — и возникает серия моделей, называемых политомическими. Ученые задаются вопросом: а что, если не одна, а совокупность невидимых характеристик определяет наблюдаемые результаты? Так появляются многомерные и когнитивные диагностические модели.

Ученые исследуют, как время выполнения заданий уточняет метрику невидимого, — и здесь рождаются специальные модели с учетом времени ответа (response time). Ученые выясняют, как контекстная информация о студенте (например, возраст или учебная группа) и заданиях (например, тип задания или наличие иллюстрации) описывает и объясняет получаемые метрики. Наконец, прямо сейчас, в 2024 году, психометрические модели строятся как частный случай искусственных нейронных сетей автокодировщиков — бум искусственного интеллекта не обошел стороной измерения невидимого.

Учимся без учебника: подкаст «Списать не получится»
Экономика образования 

Направлений в современной психометрике десятки, а статистических моделей сотни: практически для каждого частного случая предложена новая модель, и каждый год появляются актуальные модели и решения. В 2024 году ежегодная конференция Психометрического общества, прошедшая 16–19 июля в Праге, собрала рекордные 570 участников из 40 стран мира. Каждый участник конференции либо представил улучшение существующих моделей, либо презентовал новую. Каждая предложенная модель имеет свои требования, допущения и ограничения, соответственно, приложение модели становится максимально сфокусированным на узкой задаче и специфичным с точки зрения контекста.

После десятилетий забвения этой темы работы по психометрике появились и в России. В книге «Теория и практика конструирования педагогических тестов» (2002) Марина Челышкова (1947–2022) раскрывает первую часть главного принципа психометрики: чтобы измерить невидимое, нужно дать ему проявиться через наблюдаемое поведение. В свою очередь, в книге «Моделирование и параметризация тестов: основы теории и приложения» (2008) Елена Карданова поясняет вторую часть этого принципа: статистическая обработка результатов наблюдений и вычисление соответствующих метрик. Значимость обеих книг в том, что они обобщают западные разработки и представляют их на русском языке.

Важную роль в развитии науки в России сыграл Александр Шмелев, автор книги «Практическая тестология» (2013), выступивший соорганизатором первого в нашей стране стандарта тестирования («Российский стандарт тестирования персонала», 2015), соавторами которого стали 15 крупных ученых и практиков. Каждый год появляются десятки статей российских психометриков, в которых рассматриваются проблемы измерений или описываются новые тесты и проведенные с их помощью исследования.

Наука об измерении невидимого за полтора века существования стала очень сложной, и с позиции практики к ней объективно непросто подступиться. При этом ее польза для образования и EdTech неоспорима. В этой книге я рискнул дать базовый универсальный инструментарий, который, с одной стороны, будет прост для использования практически в любом EdTech‑проекте, а с другой — останется в рамках науки, позволяющих обеспечивать качество получаемых измерений. Важно относиться к этой книге именно как к описанию первых шагов, которые помогут выстроить систему в больших и малых образовательных проектах и приведут к продуктовым результатам, таким как улучшение контента, учебного опыта и достижений студентов.

➤ Подписывайтесь на телеграм-канал «РБК Трендов» — будьте в курсе последних тенденций в науке, бизнесе, обществе и технологиях.

Книги Навыки Онлайн-образование Самообразование Саморазвитие
Главное