Критериально-ориентированное тестирование и новый взгляд на тесты. Критериально-ориентированные тесты Кто является разработчиком критериально ориентированного тестирования

позволяет выявить степень усвоения испытуемым определенного раздела в заданной предметной области. Эти тесты появились в 60-х годах 20 века. Критериально-ориентированные тесты в свою очередь делятся на ориентированные на предметную область и квалификационные тесты.

Целью критериально-ориентированного теста является выяснение - знает ли испытуемый стандартный учебный материал (предмет, раздел, тему). В результате тестирования может оказаться, что все испытуемые успешно выполнили все задания. Это означает, что они освоили учебный материал. Если все испытуемые не справились с заданиями теста, то это означает, что учебный материал не усвоен. В обоих случаях тест выполнил свою задачу.

КРИТЕРИАЛЬНО-ОРИЕНТИРОВАННЫЙ тест представляет собой систему заданий, позволяющую измерить уровень учебных достижений относительно полного объема знаний, умений и навыков, которые должки быть усвоены учащимися. Материалом для таких тестов служат задания из конкретных учебных предметов и установленные специальным анализом отдельные собственно психологические аспекты их выполнения.

При сопоставлении результатов тестирования и социально-психологического норматива судят о соответствии умственного развития школьников рассматриваемому этапу возрастного развития. Сопоставление результатов выполнения теста с критерием позволяет выявить, соответствуют ли осуществляемые учащимися умственные действия логике рассматриваемого материала. Подлежат исследованию связи между компонентами умственного развития, специфичного для той или иной области учебного содержания. Соотношение результатов выполнения «нормативных» и «критериальных» методик могло бы установить особенности умственного развития учащихся в овладении содержанием учебных предметов на конкретном этапе обучения.

28. КОРТ своими содержательными и структурными характеристиками соответствуют конкретной ситуации обучения и выступают в качестве оперативного средства контроля и оценки его результатов. Обычно ограничения, связанные с получением высокого коэффициента ретестовой надежности (в частности, влияние обучения на повторное тестирование, определение изменения в понятийном и логическом развитии ученика и т.п.), не могут не проявиться в ситуации КОРТ. Так, результаты в КОРТе у учащихся, не прошедших определенный этап обучения, будут значительно отличаться от тестовых результатов этих же учащихся после овладения ими рассматриваемым учебным материалом.

Отечественным примером КОРТ является школьный тест умственного развития. ШТУР предназначен для диагностики умственного развития подростков - учащихся 7-9 классов.

ШТУР состоит из 6 субтестов, каждый из которых может включать от 15 до 25 однородных заданий.

Два первых субтеста направлены на выявление общей осведомленности школьников и позволяют судить о том, насколько адекватно используют учащиеся в своей активной и пассивной речи некоторые научно-культурные и общественно-политические термины и понятия.

Третий субтест направлен на выявление умения устанавливать аналогии, четвертый - логические классификации, пятый - логические обобщения, шестой - нахождение правила построения числового ряда.

Тест ШТУР является групповым. Время, отведенное на выполнение каждого субтеста, ограничено и является вполне достаточным для всех учащихся. Тест разработан в двух параллельных формах А и Б.

Авторами ШТУР являются К.М.Гуревич, М.К.Акимова, Е.М.Борисова, В.Г.Зархин, В.Т.Козлова, Г.П.Логинова. Разработанный тест соответствует высоким статистическим критериям, которым должен удовлетворять любой диагностический тест.

32. выраженный в годах, указывает, что данный индивид по своему умственному развитию соответствует большинству людей такого-то возраста. К примеру, при тестировании молодого человека 23 лет (реальный паспортный возраст) было выявлено, что его умственный возраст равен 25 годам. Из этого следует, что этот молодой человек интеллектуально развит так же как большинство 25-летних. Его коэффициент умственного развития (IQ) = 25х23 = 1,1, что составляет около 110% ("отличная" норма).

Критериально-ориентированные тесты – тип тестов, предназначенных для определения уровня индивидуальных достижений относительно некоторого критерия на основе логико-функционального анализа содержания заданий. В качестве критерия (или объективного эталона) обычно рассматриваются конкретные знания, умения, навыки, необходимые для успешного выполнения той или иной задачи. Это основное отличие критериальноориентированных тестов от традиционных психометрических тестов, оценка в которых осуществляется на основе соотнесения индивидуальных результатов с групповыми (ориентация на статистическую норму). Термин «критериально-ориентированные тесты» предложен Р. Гласером в 1963 г. Установление содержательного и структурного соответствия заданий теста и реальной задачи – важнейший этап разработки критериально-ориентированных тестов. Этим целям служит так называемая спецификация, включающая:

2) систематизацию знаний, умений и навыков, обеспечивающих выполнение критериальной задачи;

3) образцы тестовых заданий и описание стратегии их конструирования.

Различают две разновидности критериально-ориентированных тестов:

1) тесты, задания которых гомогенны, т. е. сконструированы на одной или аналогичной содержательной и логической основе. Обычно такого рода критериально-ориентированные тесты разрабатываются на материале учебных программ и используются для контроля за формированием соответствующих знаний, умений и навыков;

2) тесты, задания которых гетерогенны и заметно отличаются по логической структуре. В этом случае обычна ступенчатая структура теста, при которой каждая ступень характеризуется собственным уровнем сложности, определяемым логико-функциональным анализом содержания, относящегося к критериальной области поведения. Такого рода критериально-ориентированные тесты обычно используются для диагностики специфических трудностей в обучении. Существенной особенностью критериально-ориентированных тестов является то, что в них индивидуальные различия сводятся к минимуму (индивидуальные различия влияют на длительность усвоения, а не на конечный результат). Поэтому критериально-ориентированные тесты лучше всего приспособлены для оценки развития основных навыков на элементарном уровне. В более сложных областях поведения предела достижений не существует, и исходя из этого необходимо обращаться к оценкам, ориентированным на нормы.

Сегодня за рубежом разработаны тесты, выполнение заданий которых можно соотносить как с критериями, так и с нормами. Необходимо учитывать и то, что нормы неявно присутствуют в критериально-ориентированных тестах, ибо выбор содержания или навыков, подлежащих измерению, предполагает наличие сведений о том, как в подобных ситуациях действовали другие обследуемые ( А. Анастази , 1982). Исходя из этого наиболее перспективным представляется объединение критериально-ориентированного подхода с традиционным психометрическим.

А. Анастази (1982) правомерно считает, что акцент критериальноориентированных тестов на содержательном смысле интерпретации тестовых показателей может оказать благотворное влияние на тестирование в целом. В частности, описание результатов, полученных с помощью тестов интеллекта, в терминах специфических навыков и умений в значительной мере обогащает фиксируемые ими показатели. Для критериально-ориентированных тестов непригодны в большинстве случаев обычные приемы определения валидности и надежности.

В отечественных исследованиях имеется опыт создания критериально-ориентированных тестов ( Е. И. Горбачева , 1985). Кроме того, осуществляется разработка методик, близких критериальноориентированным тестам, но ориентированных не на критерий, а на так называемый социально-психологический норматив или общественно-заданный объективный содержательный эталон (Школьный тест умственного развития). Также исходя из социально-психологического норматива анализируются результаты, полученные с помощью известных психометрических тестов.

В основе разделения тестов на КОрТ (критериально-ориентированные) и НОрТ (нормативно-ориентированные) лежит двоякое понимание нормы. В первом случае норма определяется "априорно", то есть до проведения исследования. Такая норма задаётся внешними критериями, представлениями о том, что должен знать и уметь испытуемый. Во втором случае норма определяется эмпирически, то есть после проведения исследования. Получая распределение результатов, исследователь распределяет их по категориям: "норма", "выше нормы", "ниже нормы" и т.п.

Критериально ориентированные тесты предназначены в основном для работы с индивидуальным клиентом, так будто других в выборке нет. Здесь не ставятся цели посмотреть лучше или хуже результаты данного испытуемого, добился он или нет каких-то конкретных успехов.

Нормативно ориентированные тесты предназначены в основном для работы с группами испытуемых, в котором важно сравнить их между собой.

Обычно разного рода тесты способностей строго делятся на КОрТ и НОрТ. При их разработке используются разные технологии. Но иногда КОрТ можно использовать как НОрТ, особенно если результаты исследований показывают нормальное (колоколообразное) распределение.

Ниже в таблице представлены основные отличия КОрТ и НОрТ.

Нормативно-ориентированные тесты Критериально-ориентированные тесты
Характерный пример использования Конкурсный отбор кандидатов на обучение. Итоговая аттестация уровня обученности студентов, уровня профессиональной подготовки кадров.
Цель тестирования Возможность сравнения уровня подготовки испытуемых друг с другом в той области содержания, для которой тест предназначен. Возможность аттестации испытуемого в соответствии с его уровнем усвоения определенной области содержания.
Используемые шкалы Нормативные (или стандартные) шкалы. Необходимо указание среднего значения и стандартного отклонения в выбранной шкале. В основном - шкала процентов с выбранным критериальным баллом (баллами). Необходимо тщательно подготовить методику оптимального выбора критериального балла (или баллов).
Распределение результатов исследования на гистограмме В большинстве случаев имеет нормальное распределение (колоколообразное), в т.ч. симметричное. Распределение непредсказуемо, может быть любым. Обычно несимметричное.
Уровень проработки содержания теста Не очень существенен. Авторы теста выбирают обычно наиболее значимые, показательные задания. Часто - выбор видов заданий случаен. Очень детальная и дотошная проработка содержания теста. Предварительно разрабатывается спецификация (план) теста, в котором должна быть представлена система элементов. После разработки спецификации уже разрабатываются задания.
Нормативная группа Обязательна. Именно по предварительному исследованию на нормативной группе происходит окончательное шкалирование результатов, соотнесение с "нормой" и другими категориями. Нет необходимости. Обычно измеряется как процент от усвоенного обучающимся материала.
Статистический анализ и отбор тестовых заданий Показатель уровня трудности, различающая способность и другие статистические показатели играют весьма важную роль в отборе заданий. Выбираются задания со средним уровнем трудности (от 0,3 до 0,7) и высокой различающей способностью (большей 0,3). Существуют ряд других важных статистических показателей качества заданий. Уровень трудности и различающая способность заданий не является существенными факторами включения в состав теста, или наоборот исключения из него. Главное условие отбора заданий - соответствие спецификации и элементам содержания. Статистические характеристики тестовых заданий используются для составления параллельных форм (вариантов) теста и для выбора оптимального критериального балла.
Надежность теста Оценивается либо путем нахождения корреляции между результатами двух исследований, либо методом расщепления теста на две половины при однократном тестировании. Примерно также, но в основном оценивается степень постоянства принятия решения «зачет – незачет» при двукратном тестировании, а не корреляция баллов, хотя это тоже не исключается.
Валидность Исследуются разные виды валидности. В центре внимания - содержательная валидность.

План лекции

1. Понятие КОРТа

2. Этапы разработки КОРТ

3. Практическое использование КОРТ

1. Понятие КОРТа

Критериально-ориентированное тестирование - новое направле­ние в диагностике умственного развития учащихся. Основанные на особых способах конструирования и обработки методики КОРТ приобретают все большее значение в современной школе. Для по­строения заданий в КОРТ используется материал учебных программ --из него отбираются учебные задания, отвечающие определенным требованиям: задания должны репрезентировать внутренне завер­шенную область какого-то учебного предмета. Далее необходимо, чтобы задание могло быть представлено как логическая последова­тельность умственных действий, приводящих к его выполнению. Это задание при его выполнении должно вводить в мышление уча­щихся новые термины, понятия, ситуации и способствовать уста­новлению связей и отношений между ними и тем, что уже было ус­воено ранее. Такие задания называют ключевыми.

Первый - критерий как показатель учебных достижении. Он обобщает ключевые задания из тех разделов учебных программ, изучение которых уже завершено. Сравнивая результаты, получен­ные при испытании методиками КОРТ, с критерием, устанавливают уровень умственного развития отдельного учащегося или группы учащихся. Разумеется, что этот уровень развития относится к той специфической области, которую представляет критерий.

Второй вид - критерий как показатель логико-психологической подготовленности учащегося к выполнению ключевых заданий из состава разделов программы, которые предстоит изучать. Критерий этого вида предназначен для того, чтобы установить, соответствует ли умственное развитие учащегося требованиям, предъявляемым новым программным материалом. И в этом случае результаты испы таний методиками КОРТ при их сравнении с критерием дадут ин­формацию о том, представлены ли в мышлении учащегося необхо­димые для усвоения новых разделов программы умственные дейст­вия, может ли он уверенно использовать, актуализировать их при выполнении новых ключевых заданий.

При анализе этой информации нужно считаться с тем, что уро­вень умственного развития учащихся может выявить недочеты ло­гико-психологической структуры тех разделов учебной программы, которые уже изучены и должны бы были подготовить учащихся к восприятию и усвоению нового материала.

По отношению к отдельным учащимся полученная по результа­там испытаний методиками КОРТ информация после ее психологи­ческого анализа позволяет установить пробелы и недостатки в их умственном развитии и построить систему коррекционных занятий, направленных на его приближение к критерию

2. Этапы разработки КОРТ

Психологическое содержание методик КОРТ определяется не только их особой направленностью - обращенностью теста на кон­троль и оценку умственного развития. Методики КОРТ исследуют умственные действия, опосредующие выполнение учащимися учеб­ных заданий. Указания на то, что это за действия, в методической литературе, как правило, отсутствуют, а если и имеются, то им присущ самый общий характер - это ссылки на необходимость анализа, синтеза, сравнения, обобщения, без определения содержа­тельных показателей их выполнения на материале с конкретной предметной спецификой. Эти действия должны быть выявлены как путем логико-психологического анализа задания, так и в ходе спе­циально организованных наблюдений за учащимися, когда они вы­полняют задание. Психологическое содержание закладывается в тест и с помощью методических приемов, связанных с отбором со­держания тестовых заданий, а также анализом способов ориентации в предметном материале, каждый из которых обусловлен «субъективной логикой» учащихся, овладевающих требуемыми умственны­ми действиями.

1. Подбор ключевых заданий. Конструируя методику КОРТ, автор всегда исходит из того, что представленное в тесте за­дание является ключевым. В данном случае предполагалось, что умение составлять уравнения является таковым в ряду математиче­ских знаний и умений. В 5-6 классах это умение только формиру­ется, здесь закладывается и его психологическое содержание, т.е. умственные действия, обусловливающие функционирование умения. На дальнейших этапах роль этого умения возрастает.

2. Спецификация теста. Все это учитывается в ходе составления спецификации теста. Описывая критерий, на который данный тест ориентирован, специ­фикация вместе с тем определяет границы той области содержания, к которой тест относится. Для того чтобы показать, как проводится спецификация, обра­тимся к уже имеющемуся опыту разработки методик КОРТ.

Подготавливая спецификацию теста, прежде всего, нужно рас­крыть критериальное значение исследуемого содержания. Для ука­занного теста оно таково: специфика изучения математики тесно связана с актуализацией умственных действий, формированием приемов мышления школьников. Эти приемы выступают как усло­вие исследования и решения тестовых задач. В данном случае в спецификации отмечается, что существенным в решении текстовых задач является построение последовательности моделей задачи, ко­нечным звеном в которой является математическая модель (уравнение). Моделирование отношений между величинами являет­ся конституирующей характеристикой математического мышления, а знаковые модели и их трансформации выступают в качестве со­держательной основы умственных действий. Ориентация на знако­вую модель, которая является результатом мыслительного преобра­зования текстовой математической задачи, выступает, таким обра­зом, как критерий формирования умственных действий. Он и закла­дывается в данный тест. Составление уравнения по условиям тек­стовых задач предполагает, что учащийся владеет такими умствен­ными действиями:

1) анализирует ситуацию задачи, т.е. выявляет условие, существенное для составления уравнения по тексту задачи (основание для уравнивания);

2)устанавливает тождество между знаковыми моделями разной степени обобщенности и текстом-описанием

3) разбивает задачи на классы по существенному основанию: типу отношений между величинами;

4) усматривает подобие в задачах исходя из аналогичного характера моделирования зависимости между величинами.

Выявленная совокупность умственных действий состав­ляет основу конструирования методики КОРТ. Сформированность каждого действия проверяется отдельным субтестом. В тесте, о котором идет речь, таких субтестов четыре (по чис­лу обозначенных действий): «Выделение существенного», «Четвертый лишний», «Найди подобную», «Установление тождества»

Разработчик теста должен быть уверен, что в тест войдет мате­риал, который репрезентативен для исследуемого учебного содер­жания. С этой целью была произведена каталогизация тестовых за­дач. Она включала в себя сведения о сюжетах, особенностях задач, их предметном содержании (т.е. какие величины представлены в задаче: взаимосвязанные или разные значения одной и той же ве­личины), типах знаковой модели отношений между величинами, входящими в условие задачи. Далее определялся примерный удель­ный вес каждой задачи, т.е. то место, которое отводится задаче данного типа в школьном учебнике математики. Таким образом, в задания субтестов были включены все основные типы задач, пред­ставленные в учебной программе. При разработке методики КОРТ тексты отобранных задач были подвергнуты некоторым изменениям, связанным с включением в условия стимульного материала. Напри­мер, для заданий методик КОРТ стимульным материалом явились такие элементы содержания и структуры задачи, которые могли бы побудить учащихся использовать сложившиеся у них способы ори­ентации в материале - субъективные «логики». В условия задач вводились одинаковые числовые данные, сходная лексика и т.д. Все эти несущественные, внешние по отношению к собственно матема­тическому содержанию задач данные осуществляли функцию «шума», предназначенного «маскировать» сигналы, т.е. отношения между вели­чинами, фиксируемые знаковой моделью определенного вида.

Внесение в задания стимульного материала позволяет опреде­лить, насколько соответствует степень сформированности умствен­ного действия установленному критерию. Если ученик так и не ов­ладел требуемым умственным действием, он не сумеет преодолеть неадекватные способы ориентации в учебном материале. Все это ясно продемонстрирует методика КОРТ.

Независимо от того, на каком предметном содержании разраба­тываются методики КОРТ или какие частные принципы положены воснову их конструирования, спецификация теста всегда включает в себя краткое описание той области содержания, для изучения кото­рой предназначен тест, образцы задания, стимулы-признаки крите­рия, типичные ответы, которые могут дать испытуемые в ситуации тестирования. Спецификация теста задает основу для установления содержательного соответствия тестовых заданий и реальных учебных задач- И не важно, подробной или краткой будет эта спецификация, ее основное значение заключается в том, что она позволяла в со­держательном и операциональном планах оценить, что действитель­но означает выполнение теста по отношению к критериальной об­ласти поведения.

3. Когда спецификация составлена, подготовленные мето­дики КОРТ подлежат проверке.

Прежде всего разработчику теста необходимо убедиться, что его предварительный анализ умственных действий, опосредующих вы­полнение учебных заданий, был верен и каждое из умственных дей­ствий имеет свое собственное логическое содержание. Эта задача решается путем составления результатов по отдельным субтестам КОРТ 1 . Если каждое из анализируемых умственных действий играет свою особую роль в опосредовании умения, то вряд ли можно будет ожидать, что между успешностью выполнения отдельных субтестов будет выявлена тесная связь.

Модель умственных действий, представленная в методиках КОРТ, должна быть исследована с точки зрения ее содержательного соответствия реальному выполнению учащимися учебных заданий. Это достигается путем сопоставления результатов КОРТ и предста­вительных выборок учебных контрольных заданий (сокращенно КЗ). Это не исключает сопоставления данных тестирования с учебной успеваемостью, с результатами экзаменационных проверок и т.д.

Если анализ логического состава умения верен и владение сово­купностью умственных действий, актуализируемых методикой КОРТ, действительно связано с реальным выполнением учебных за­даний, то следует ожидать, что учащиеся, которые владеют всеми умственными действиями по методике КОРТ, успешно выполнят и КЗ. Соответственно те учащиеся, которые не владеют ни одним из умственных действий, заданных КОРТ, с ними не справятся. Про­верка этого предположения осуществляется путем установления зависимости между выполнением методики КОРТ и КЗ

Сопоставление методик КОРТ и КЗ не может ограничиваться рассмотрением коэффициентов корреляции, поскольку этот коэф­фициент не говорит о причинах совпадений или расхождений. Воз­никает необходимость качественного анализа рассогласований. Это предполагает обращение к характерным особенностям выполнения методик КОРТ и КЗ отдельными учащимися и их группами.

Специальному анализу подлежат также данные учащихся, кото­рые, владея лишь некоторыми из представленных в методиках КОРТ умственными действиями, все же выполняют КЗ с высоким результатом. Будет правомерным предположить, что успех выпол­нения заданий (КЗ) здесь может непосредственно зависеть от того, удается ли им заменить то умственное действие, которым они не владеют, другими действиями или их сочетаниями. Компенсация умственного действия в данном случае связана с переформулирова­нием условия задания, с перестройкой умственных действий для решения задания.

Анализ рассогласований в выполнении методик КОРТ и КЗ по­зволяет исследователю выявить присущие учащимся способы вы­полнения заданий и оценить, насколько эти способы отвечают зада­чам умственного развития в области математики.

Корт своими содержательными и структурными характеристика­ми соответствует конкретной ситуации обучения и поэтому может служить оперативным средством контроля и оценки результатов обучения. Разработка и исследование таких тестов всегда связаны с решением актуальных учебно-образовательных задач. С помощью методик КОРТ учителя и психологи могут выявить объективные по­казатели умственного развития в отношении тех разделов обучения, которые соотносимы с ключевыми, ведущими требованиями школь­ной программы. Анализ выполнения теста позволяет локализовать и раскрыть недостатки и пробелы в логико-психологической и учеб­ной подготовке школьников, в их умственном развитии, определить направление и содержание коррекционных воздействий. Критери­ально-ориентированное тестирование может выступить как один из компонентов обратной связи в функционировании системы образо­вания. Применение методик КОРТ позволяет выявить, соответству­ют ли осуществляемые учащимися умственные действия логике предметного материала, складывается ли у учащихся предметная ориентация мышления. И не случайно первый опыт разработки ме­тодик КОРТ был вызван необходимостью углубленного психологи­ческого анализа трудностей и недостатков умственного развития учащихся, связанных с усвоением базовых учебных умений и прие­мов мыслительной деятельности в конкретных областях предметно­го содержания.

3. Практическое применение КОРТ

Современная психологическая диагностика располагает достаточ­но большим аресналом методик для оценки сформированности ма­тематического мышления, о чем шла речь в предыдущем параграфе, а также лингвистического и технического мышления. Это связано с достаточной исследованностью проблемы содержания и структуры данных видов мышления. Отсутствие до недавнего времени методик, посвященных диагно­стике сформированности естественнонаучного мышления, было свя­зано, как отмечается в литературе, с неразработанностью специфи­ки этой проблемы.

В связи с этим для диагностики сформиро­ванности процесса теоретического естественнонаучного мышления должны использоваться задания качественного характера, решение которых невозможно подвести под жесткий алгоритм. Качествен­ными заданиями в естествознании (в отличие от расчетных, экспе­риментальных и графических задач) называются задания, которые решаются логическим способом. При решении данного типа заданий не требуется никаких вычислений, определяются только качествен­ные зависимости между объектами. Существенно и то, что качест­венная форма проблемной ситуации в наибольшей степени соответ­ствует реальной ситуации научного поиска. Дифференциация стадий сформированности естественнонаучного мышления должна осуществляться в зависимости от сформирован­ности действия теоретического обобщения. Основное содержание теоретического обобщения определяет процессы синтеза, осуществ­ляемые как переход мысли от известной закономерности к приме­нению ее в конкретных условиях.

Структура теста должна быть связана с диагностикой развития естественнонаучного мышления как процесса. При этом если диаг­ностика процесса мышления на микроуровне направлена на иссле­дование сформированности отдельных нормативных составляющих мыслительных процессов (прежде всего анализа и синтеза) и выяв­ление тем самым реального процесса мышления в его индивидуаль­ном варианте, то диагностика мыслительного процесса на макро­уровне предполагает анализ сформированности его отдельных ста­дий и определения, таким образом, индивидуальных моделей разви­тия мышления. И та и другая диагностика при этом связаны с оценкой промежуточных результатов в развитии мышления, но не­посредственно интегрированных с процессом мышления и вследст­вие этого характеризующих его.

В рамках критериальной диагностики разработаны тесты для ди­агностики естественнонаучного мышления (Г.А. Берулава, 1992). Тесты естественнонаучного мышления для учащихся 7 (ТЕМ-7) и 8 класса (ТЕМ-8) включают в себя систему заданий, являющихся мо­делью когнитивной организации предметной области естествозна­ния. Каждый тест содержит родовые задачи, каждой из которых соответствует некоторый класс индивидуальных задач.

В тесты включены лишь задачи качественного характера. В есте­ственнонаучных предметах процент задач, решаемых по жесткому алгоритму, очень незначителен. Это связано с тем, что взаимодей­ствие объектов, лежащих в основе любой естественнонаучной зада­чи, в значительной степени определяется условиями взаимодейст­вия и индивидуальными свойствами объектов взаимодействия, в от­личие, например, от математики, где данные факторы не имеют значения.

При определении содержательной валидности тест должен ори­ентироваться на внешние социально обусловленные и педагогически адаптированные требования. Однако сам теоретический критерий валидности должен быть психологическим. При этом существенно, что он должен быть различным для дифференцированных моделей обучения, реализуемых в рамках школ различных типов.

Разработанные тесты являются нормативными для учащихся школ с углубленным изучением естественнонаучных предметов. Все задания носят качественный характер. При этом сюжетная форма заданий, без наличия в их условиях каких-либо абстрактных симво­лов и знаков, не позволяет ассоциировать их с какой-либо абст­рактной теорией.

Каждый тест для диагностики сформированности у уча­щихся естественнонаучного мышления содержит 30 задач, в основе которых лежит 5 естественнонаучных законов, яв­ляющихся для усвоения учебного материала в 7 и 8 классах основополагающими. Каждому закону соответствуют шесть задач, три из которых составлены на материале физики, в рамках которого изучались данные законы, и три - на межпредметном ма­териале (биологии и физики в 7 классе, биологии, физики и химии - в 8). Каждый тест содержит два субтеста, один из которых диагно: стирует сформированность дифференциально-синтетической стадии естественнонаучного мышления, а второй - синтетической. Приводим примеры заданий из дифференциально-синтетического субтеста теста естественнонаучного мышления для 7 класса

Задание. Почему нельзя тушить горящий керосин, заливая его водой?

а) вода будет испаряться с поверхности горящего керосина; б) вода будет смешиваться с керосином вследствие явления диффузии; в) плотность воды больше плотности керосина, поэтому вода будет опускаться вниз, а керосин будет всплывать наверх и не закроет доступ воздуха, необходимого для горения керосина.

Варианты ответов для задания субтеста (их по три в каждой за­даче) позволяют диагностировать преимущественный способ мыш­ления учащегося: эмпирически-бытовой (ему в данном задании со­ответствует 1-й вариант ответа), эмпирически-научный (ему соот­ветствует 2-й вариант ответа) или дифференциально-синтетический (3-й вариант ответа), который характеризует уже теоретический тип мышления.

Аналогичную структуру имеют задания синтетического субтеста.

Задание. Почему кит, оказавшись на мели, погибает?

а) сила трения, имеющаяся на твердой почве, мешает ему доб­раться до воды; б) кит задыхается от воздуха; в) вследствие закона Архимеда вес кита оказывается незначительным; на суше выталки­вающая сила отсутствует, и кит погибает под действием собствен­ного веса.

В основе решения данной задачи лежит закон Архимеда, в то же время "она построена на нехарактерном для курса физики биологиче­ском материале. Эмпирически-бытовому способу мышления в данном случае соответствует 2-й вариант ответа, эмпирически-научному - 1-й вариант, теоретическому (дифференциально-синтетическому) способу мышления соответствует 3-й вариант ответа.

При разработке структуры теста естественнонаучного мышления для 8 класса (ТЕМ-8) был использован тот же принцип построения, но законы, лежащие в его основе, являются уже репрезентативны­ми для естественнонаучного познания учащихся 8 класса.

Задания дифференциально-синтетического субтеста ТЕМ-8 имеют структуру, аналогичную заданиям дифференциально-синтетического субтеста ТЕМ-7

Задание. Почему притертую стеклянную пробку легко вынуть из флакона, если потереть его горлышко сухой тряпкой или бумагой?

а) при натирании горлышка бутылки совершается механическая работа, благодаря чему увеличивается внутренняя энергия горлыш­ка, оно нагревается и расширяется; б) из-за колебаний горлышка бутылки пробка расшатывается, и ее легче вынуть из бутылки; в) в результате силы трения горлышко расшатывается, и поэтому проб­ку легче вынуть из бутылки.

Вариант ответа «б» при этом соответствует эмпирически-бытовому способу мышления, «в» - эмпирически-научному. Пер­вый вариант ответа характеризует теоретический способ мышления (в данном случае его дифференциально-синтетическую стадию). В основе решения предложенной задачи лежит закон сохранения энергии. В рамках дифференциально-синтетического субтеста ему соответствуют две задачи, построенные на характерном для курса физики материале. В синтетическом субтесте данный закон приме­няется в условиях, адекватных материалу, используемому в курсах биологии и химии.

Задание. Почему пораженные током живые организмы погибают?

а) потому что ток убивает клетки живых организмов; б) при про­хождении тока по клеткам живого организма электрическая энергия превращается во внутреннюю энергию, вследствие чего нагревается плазма клеток; в) потому что при прохождении тока в клетках жи­вых организмов происходят необратимые химические реакции.

С использованием предметного материала курса химии закон со­хранения и превращения энергии реализован, например, в задаче следующего содержания.

Задание. Почему выделяется теплота при взаимодействии цинка с разбавленной серной кислотой?

а) потому что у серной кислоты повышена температура, и она сжигает все вещества; б) в процессе химической реакции с серной кислотой уменьшается внутренняя энергия системы, вследствие че­го выделяется теплота; в) выделение теплоты в процессе указанной реакции происходит в результате взаимодействия электрических за­рядов цинка и серной кислоты.

Структура теста позволяет оценить сформированность процесса теоретического обобщения, понимаемого как восхождение от абст­рактного к конкретному. Это обеспечивается тем, что каждому ес­тественнонаучному закону соответствует серия задач одинаковой объективной сложности, в которых варьируются лишь конкретные условия применения закона. Сложность заданий определялась по объективным критериям экспертным путем и с помощью алгоритмического метода, при этом учитывалось то, что жесткая статистическая оценка трудности за­дач для критериальных исследований неприемлема. Тесты прошли формальную проверку на надежность и валидность.

Диагностика сформированное™ естественнонаучного мышления с помощью разработанных тестов создает возможность не только опре­делить тип естественнонаучного мышления (эмпирический или теоре­тический), но и стадию их сформированности. В рамках эмпирического типа - это эмпирически-бытовая и эмпирически-научная стадии.

Каждому естественнонаучному закону соответствует серия зада­ний одинакового уровня сложности, в которых варьируют лишь конкретные условия применения закона. Разработанный тест является групповым. Время для решения всего теста - 40-50 минут (1 урок). Тест предъявляется всем учащимся класса одновременно, при этом сидящие рядом ученики делают разные субтесты. Каждое верно выполненное задание оценива­ется одним баллом.

Качественная обработка результатов позволяет также сделать вывод, какие типы связей (законов) вызывают затруднение у уча­щихся, и произвести в этом направлении целенаправленную кор­рекцию.

Проверка тестов, диагностирующих некоторые специальные виды мышления учащихся (математическое и естественнонаучное), пока­зала, что они обладают высокой практической эффективностью. В этой главе описаны два варианта разработки методик критериально-ориентированного тестирования. В том и другом варианте диагно­стирование ставило своей целью выявить, насколько умственное развитие учащихся приближается к тем требованиям, которые предъявляются учебными программами. В диагностировании естест­веннонаучного мышления тестовые задания позволяли дифференци­ровать разные стадии развития этого вида мышления

Самара 2000

Джефри Вялфорд, Великобритания (перевод и адаптация к отечественной терминологии - Кузнецов В. Г., к. п. н.)

Теория и практика современного педагогического тестирования имеет не более чем столетнюю историю. Развитие психологии и педагогики с конца XIX века до начала первой мировой войны было тесно связано со становлением тестовых технологий. Социальные и научные условия конца XIX и начала XX веков заставляли педагогов и психологов рассматривать результаты тестирования с точки зрения сравнения относительных способностей испытуемый, что стало со временем называться нормативно-ориентированным подходом к интерпретации результатов тестирования.

Когда индивидуальные баллы интерпретируются по отношению к подготовленности самого экзаменующегося на данной области содержания, а не сравниваются с результатами других экзаменующихся из группы, то в этом случае говорят о критериально - ориентированном подходе к тестированию .

Идея критериально - ориентированного тестирования и сам термин появились в 60-е годы нашего столетия. К этому времени нормативно-ориентированное тестирование развивалось уже более полувека. Начиная с 70-х годов, критериально - ориентированные тесты получили всеобщее признание и стали широко применяться в сфере образования и профессиональной аттестации кадров.

Они получили в настоящее время широкое применение в образовании, индустрии и вооруженных силах США, Великобритании, Голландии, Японии и в других развитых странах. Они обеспечивают пользователей тестов ценной информацией, причем отличной от той, которая может быть получена в результате проведения нормативно-ориентированных тестов.

Критериально - ориентированные тесты или как их еще называют domain-referenced tests (тесты, ориентированные на область содержания) и mastery tests (квалификационные тесты) используются во многих образовательных учреждениях развитых стран и решают различные задачи.

За последнее время стало обычным для государственных образовательных институтов определять совокупность знаний, умений и навыков, которые студенты должны усвоить, чтобы перейти с одного курса на другой или чтобы получить соответствующий диплом. В России эта совокупность получила свое воплощение в создании государственных образовательных стандартов. Использование критериально - ориентированных педагогических тестов, основанных на государственных образовательных стандартах, для итоговой и поэтапной аттестации студентов является чрезвычайно перспективным.

Одно изсамых важных приложений критериально - ориентированных тестов - это сертификация и лицензирование в сфере профессиональной деятельности. В США, например, стало весьма распространенным явлением, когда профессиональные организации устанавливают аттестационный экзамен в виде критериально - ориентированного теста (или батареи тестов), который испытуемые должны успешно пройти, чтобы получить возможность практики в выбранной сфере профессиональной деятельности. Многие из этих профессиональных организаций применяют критериально - ориентированные тесты для повторной сертификации испытуемых. Типичный профессиональный экзамен, основанный на критериально - ориентированных тестах, измеряет знания, умения и навыки, необходимые для профессиональной деятельности, а результаты тестирования интерпретируются по отношениюк минимальному установленному стандарту оценивания.

Понятие нормативно-ориентированного и критериально - ориентированного педагогического теста

В настоящеевремя существует два основных подхода к разработке тестов для конкурсного, а также профессионального отбора, и для аттестации учащихся и специалистов: нормативно - ориентированный и критериально - ориентированный. Эти два подхода различаются навсех этапах разработки с момента выбора содержания до момента интерпретации результатов.

Самая общая их характеристика заключается в следующем .

Нормативно - ориентированный подход (по-английски norm-referenced) позволяет сравнивать учебные достижения (уровень подготовки, уровень профессиональных знаний и умений) отдельных испытуемых друг с другом.

Критериально - ориентированный подход (по-английски criterion-referenced) позволяет оценивать, в какой степени испытуемые овладели необходимым учебным материалом

Для аттестационного контроля уровня обученности более привычной и естественной является задача, решаемая в рамках критериально - ориентированного подхода. Тем не менее, в процессе тестового контроля оба подхода важны необходимы.

Тесты измеряют степень усвоения учебного материала овладения необходимыми знаниями, умениями и навыками уровень профессиональной квалификации кадров. В результате измерения степень проявления какого-либо свойств испытуемых выражается в тестовом балле, представляющем собой определенное число. Тестовые баллы располагайте на специальных шкалах, выбранных разработчиками.

Нормативно-ориентированные педагогические тест используются для того, чтобы получить надежные и нормально распределенные баллы длясравнения тестируемых.

Критериально-ориентированные педагогические тесты применяются для того, чтобы интерпретировать результат тестирования в соответствии уровнем обученности испытуемых на хорошо определенной области содержания.

Хотя различия нормативно-ориентированных и критериально-ориентированных тестов существенны,они имеют много общего. С первого взгляда на сам тест, довольно трудно определить какой из этих двух типов имеет место. Он используют те же формы тестовых заданий и подобные инструкции для испытуемых.

Первое различие - это цель создания теста. Нормативно-ориентированные тесты составлены специально для того, чтобы получить возможность сравнения испытуемых в той области содержания, для которой тест предназначен. Для этого используются нормативные или стандартные шкалы.

Критериально-ориентированные тесты составлены для того, чтобы аттестовать результаты испытуемого в соответствии с областью определенных знаний, умений и навыков. Результаты критериально-ориентированного тестирования могут быть использованы для:

  1. оценки итогового уровня обученности испытуемого, соответствия этого уровня государственным образовательным стандартам или программе обучения;
  2. отбора студентов, достигших необходимого уровня обученности, в том числе и профессиональной компетенции;
  3. оценки эффективности программы обучения в том или ином учебном заведении.

Результаты критериально-ориентированного тестирования также могут быть использованы для сравнения между собой уровней подготовки студентов, однако в этом случае можно получить сравнительно низкую надежность, если распределение баллов однородно и имеет малую вариацию.

Второе различие этих двух типов тестов состоит в уровне детализации области содержания. От разработчиков обоих типов тестов обычно требуется формирование спецификации его содержания. Создатели критериально-ориентированных тестов должны, в типичных случаях, подготовить значительно более детализированную спецификацию содержания,чем составители нормативно-ориентированных тестов. Это необходимо для того, чтобы пользователи теста были уверены в адекватной интерпретации тестовых баллов.

Третье различие лежит в плоскости проведения статистической обработки результатов тестирования. Обработанные (или шкалированные) баллы по результатам нормативно-ориентированного тестирования базируются на статистических данных нормативной группы, то есть специфической достаточно большой выборке испытуемых. В большинстве случаев для этого типа тестов применяются специальные нормативные шкалы. Каждый индивидуальный балл для данного теста имеет однозначное соответствие с процентильным эквивалентом, определенным на нормативной группе. Если для индивидуального балла данного испытуемого процентильный эквивалент равен 75, то это означает, что у 75% тестируемых из нормативной группы результаты тестирования были такие же или хуже. Обработанные индивидуальные баллы по результатам критериально-ориентированного тестирования не относятся к какой-либо нормативной группе или выборке испытуемых. Индивидуальный балл испытуемого интерпретируется по отношению к доле учебного материала успешно им освоенного. Чаще всего балл студента отражает процент правильно выполненных заданий и выражается в шкале процентов.

Четвертое основное различие лежит в плоскости технологии анализа и отбора тестовых заданий. В нормативно - ориентированных тестах статистические показатели тестовых заданий (уровень трудности и различающая способность) играют важную, а часто определяющую роль в отборе заданий. В общем случае задания со средним уровнем трудности и высокой различающей способностью имеют больший шанс быть отобранными для использования в тесте этого типа, таккак они вносят существенный вклад в вариацию индивидуальных баллов студентов. Надежность теста, в общем случае, будет выше, если вариация тестовых баллов увеличится. Напротив, в критериально - ориентированных тестах статистические характеристики (уровень трудности и различающая способность) заданий не является основной причиной для их включения в состав теста, или наоборот исключения из него. Главное условие отбора заданий в критериально - ориентированный тест - это их соответствие (их конгруэнтность) спецификации и элементу содержания. Статистические характеристики тестовых заданий используются для составления параллельных форм критериально - ориентированных тестов и для выбора оптимального стандарта оценивания.

Эти два типа тестов различаются и по методам конструирования, и по особенностям применения. Однако, основным критерием для разделения тестов на нормативно- и критериально - ориентированные является подход к интерпретации тестового балла.

Существует и ряд других важных различиймежду ними. Характерные особенности этих двух типов тестов можно свести в таблицу 4.2.

Нормативно-ориентированные тесты

В большинстве тестовых программах за рубежом использовались и используются в настоящее время различные виды шкалированных (обработанных) баллов. В практике массового педагогического тестирования существует более или менее стандартный набор шкалированных баллов, которые информируют пользователей теста об относительных способностях испытуемых .

К таким шкалированным (обработанным) баллам относятся: процентильные эквиваленты; стандартные линейные шкалы; стандартные нормативные шкалы и другие виды педагогических шкал . Шкалированные баллы помогают пользователям тестов получить информацию о позиции экзаменуемого по отношению к хорошо определенной группе, определенной специфической выборке испытуемых.

Эта специфическая выборка испытуемых часто называется нормативной группой, и так как обработанные баллы ориентированы на баллы в нормативной группе, они называются нормативно-ориентированными баллами.

В основе нормативно-ориентированной интерпретации лежит сопоставление индивидуального тестового балла данного студента с баллами, полученными другими испытуемыми. Самый простой способ провести нормативно-ориентированную интерпретацию тестового балла состоит в том, чтобы сообщить, сколько процентов учащихся из учебной группы, в которой проводилось тестирование, выполнили тест хуже (получили болеенизкий балл) и сколько процентов выполнили тест лучше (получили более высокий балл). Однако при такой интерпретации возникает следующая трудность: оценка индивидуальных учебных достижений оказывается зависимой от уровня подготовленности всей группы студентов, в которой проводилось тестирование. Гипотетически преодолеть эту проблему можно было бы следующим образом : протестировать всю популяцию, для которой разрабатывался тест, и сравнить индивидуальный балл с полученными результатами. Под популяцией понимается все множество учащихся, которые обучаются данной дисциплине и по данное программе. Если тест разрабатывается для применения в каком-либо одном учебном заведении, то в популяцию включают все учебные группы, обучающиеся по одной программе. Если тест разрабатывается для применения в рамках регионе или страны, то популяция принимает весьма внушительные размеры. Протестировать такое количество испытуемых практически невозможно. Поэтому, чтобы получить информацию с том, как выполнили тест все испытуемые, прибегают к формированию так называемой выборке стандартизации. Это специально подобранная группа испытуемых, которая адекватно репрезентирует популяцию, для которой разрабатывается этот тест. В выборке стандартизации пропорционально представляются все возрастные, социальные и другие группы испытуемых, из которых состоит популяция. Результаты проведения теста на образованной таким образом выборке называются тестовыми нормами. Отсюда происходит термин "нормативно-ориентированное тестирование". По нормам судят с том, как выполнили бы тест все испытуемые, для которых он предназначен. Если выборка стандартизации адекватно репрезентирует популяцию, то, сопоставляя индивидуальный балл с нормами, можно получить оценку уровня учебных достижений испытуемого по сравнению с уровнем учебных достижений других учащихся. Такая оценка уже не зависит от группы, в которой проводилось тестирование .

Педагогические тесты, специально разработанные для того, чтобы провести нормативно-ориентированную интерпретацию, называются нормативно-ориентированными тестами.

Нормативно-ориентированные тесты имеют свою специфику, связанную с их основной задачей - дифференцировать испытуемых. При разработке этого типа стараются добиться высокой вариативности тестовых баллов. Если большинства испытуемых получает только низкие, или только средние или только высокие баллы, то труднее установить между ними различия. Если же вариативность баллов высокая (встречаются и низкие, и средние, и высокие баллы), то дифференцировать испытуемых легко. Нормативно-ориентированные тесты разрабатываются таким образом, чтобы распределение баллов было близко к нормальному. Математические методы, применяемые при конструировании и оценке нормативно-ориентированных тестов, рассчитаны на модель нормального распределения и основываются в основном на корреляционном анализе .

Нормативно-ориентированный подход чрезвычайно полезен, когда необходима информация об испытуемом, связанная с его относительными способностями или относительной обученностью по сравнению с другими испытуемыми. Естественно, потенциальная ценность интерпретации нормативно-ориентированного подхода зависит и от соответствия нормативной группы целям тестирования, и от чистоты и тщательности, с которой была составлена нормативная группа.

Для того чтобы определить способности абитуриента по математике очень важно знать, что нормативная группа является репрезентативной для всей группы абитуриентов. Иногда для принятия важных решений необходимо ориентироваться на более специфическую нормативную группу. Например, нормативная группа абитуриентов на инженерные специальности будет более подходить для интерпретации относительной способности абитуриента на инженерные специальности по результатам нормативно-ориентированного тестирования,чем просто, нормативная группа всех абитуриентов.

Отметим основные недостатки нормативно-ориентированного подхода к педагогическому тестированию. Для большинства педагогических тестов необходимо знать гораздо больше об испытуемом,чем дает нормативно-ориентированный подход. Например, для некоторого абитуриента мы получили 65 процентильных эквивалентов в результате тестирования. Это означает, что данный абитуриент ответил на задания данного теста не хуже, чем 65% испытуемых из всей, достаточно большой нормативной группы. Но мы не знаем,какие именно понятия усвоены данным абитуриентом, икакие задачи он может решать. Требовалось ли в данном тесте от данного абитуриента только легко запоминаемых для решения алгоритмов, или от него требовалось творческое решение, творческий подход для решения заданий. Более того, мы незнаем, какую долю от всей программы твердо усвоил данный испытуемый. Подобного рода вопросы становятся важными тогда, когда намеченное использование теста выходит за рамки определения относительных способностей экзаменующегося. Определение относительных способностей абитуриентов может быть важным для конкурсных экзаменов, но после проведения учебного процесса в течение некоторого времени, преподавателям необходимо узнать какого вида понятия каждый студент усвоил, и какие типы задач может решать данный студент, фактически какую долю от изученного материала он усвоил.

Критериально-ориентированные тесты

Существует, однако, и подход отличный от нормативно-ориентированного, когда обработанные баллы интерпретируются по отношению к подготовленности самого экзаменующегося на данной области содержания, а не сравнительные способности с другими экзаменующимися из нормативной группы. В этом случае говорят о критериально-ориентированном подходе .

Такие тесты называются критериально-ориентированными. Однако педагогический тест может при специальной технологии составления и интерпретации предоставлять как нормативно-ориентированную, так и критериально - ориентированную информацию для пользователей.

В литературе существует много определений критериально-ориентированного теста. Авторы используют этот термин различно, поэтому необходимо однозначно определить критериально - ориентированный подход. Каждый вид критериально-ориентированного теста составлен для того, чтобы интерпретировать результаты тестирования по отношению к определенной области содержания. Эта интерпретация может совершаться различными способами, которые зависят от цели тестирования. Определение теста должно служить базисом для установления границ данной концепции. Критериально-ориентированный тест - это такой тест, который намеренно составлен, чтобы производить педагогические измерения и напрямую интерпретироваться в терминах точно определенного стандарта. Данные педагогические измерения производятся путем выбора репрезентативного набора тестовых заданий на соответствующей области содержания. Критериально-ориентированные тесты специально составлены таким образом, чтобы обобщить результаты индивидуальных баллов относительно точно определенного домейна или области содержания . Причем тестовые задания могут включать как проверку содержания, так и проверку навыков и умений. Домейн, или область содержания называются хорошо определенными, если совершенно ясно, какая категория тестовых заданий потенциально принадлежит данной области содержания. Основное использование критериально-ориентированного тестирования - это определение статуса испытуемого по отношению к некоторому количеству тестовых заданий выбранных, или с определенной области содержания, причем таким образом, который позволяет пользователю теста сделать заключение об учебных достижениях испытуемого. Таким образом, хорошо определенная область содержания является необходимым, но недостаточным условием критериально-ориентированного тестирования.

Часто можно встретить довольно узкие определения, подразумевающие только один из видов критериально-ориентированных тестов. Более широкие определения нередко страдают неточностью формулировок. В работе приведено определение, которое, пожалуй, наиболее точно раскрывает сущность и специфику этого типа тестов.

«Критериально-ориентированный педагогический тест представляет собой систему заданий, позволяющую измерить уровень учебных достижений относительно полного объема знаний, умений и навыков, которые должки быть усвоены учащимися».

Мы будем называть областью содержания теста тот полный объем знаний, умений и навыков, которые должны быть усвоены студентами в результате определенного курса обучения и овладение которыми измеряется критериально-ориентированным тестом. Выполнение критериально-ориентированного теста описывается, как правило, в терминах содержания учебной дисциплины. Например, результаты проведения теста позволяют судить о том, какую долю области содержания освоил студент, какие задачи и какого уровня сложности может решать испытуемый, и т.п.

Два основных вида критериально - ориентированных тестов

В литературе по тестологии (или педагогическим измерениям) выделяют два основных вида критериально - ориентированных тестов, отличающихся друг от друга по ряду характеристик. Установившихся названий для этих видов на русском языке пока не существует. В зарубежной литературе терминология окончательно также еще не установилась. Критериально - ориентированные тесты намеренно составляются таким образом, чтобы аттестовать уровень индивидуальных достижений студентов по отношению к заранее определенной области содержания. Принципиальный интерес при их разработке представляет строгая и точная спецификация области содержания теста. Это необходимо для того, чтобы увеличить до максимального уровня обоснованность интерпретации индивидуальных баллов студентов [З, 4, 6]. Именно акцентированное внимания на области содержания (по англ. - domain) внушило некоторым исследователям идею наименования таких тестов как domein-referenced, что можно перевести как «тесты, ориентированные на область содержания».

Создание заданий для теста, ориентированного на область содержания, требует более детальных и точных правил. Для этого требуется точная и строго определенная спецификация области содержания теста. Этот тип критериально - ориентированных тестов предназначен для оценки доли от полного объема учебного материала, которую усвоил испытуемый. В зарубежной литературе его обычно называют domein-referenced test. Мы будем называть этот тип критериально - ориентированных тестов термином: тесты, ориентированные на определенную область содержания. Предполагается, что в результате обучения учащиеся должны приобрести определенную сумму знаний, умений и навыков, которая является областью содержания теста и условно принимается за 100 процентов. Уровень учебных достижений каждого испытуемого можно выразить в проценте от полного объема области содержания теста. Для итогового контроля наиболее естественно применять именно этот тип тестов.

На практике существует и другой тип критериально - ориентированных тестов. Называются такие тесты mastery tests , то есть «тесты на мастерство» или «квалификационные тесты» [З, 4] . Они применяются для определения в группе испытуемых квалифицированных и неквалифицированных (masters and nomasters) в какой-то области. Эмпирическая процедура анализа тестовых заданий в данном случае рекомендована для того, чтобы определить «чувствительность» тестовых заданий к различию между обученными и необученными испытуемыми.

Этот вид используется для классификации испытуемых и разделения их на группы на основании заранее выбранного стандарта оценивания (критериального балла). Чаще всего такие тесты используются для разделения испытуемых на две группы: усвоивших и не усвоивших необходимый навык на базе определенной области содержания. Иногда происходит деление на большее количество групп. Например, на тех, которые полностью овладели навыком, и на тех, которым лучше закрепить его, а также на группу учащихся, которым надо начать изучение материала с самого начала. Для отнесения к определенной группе испытуемый должен достичь необходимого минимального стандарта оценивания. Этот стандарт устанавливается разработчиками теста и является критерием, на основании которого принимается решение относительно испытуемого. В тесте данный стандарт выражается определенным количеством правильно выполненных заданий. Важными элементами разработки таких тестов являются: методы установки стандарта оценивания квалификации по результатам тестирования, оценка уровня ошибки этого стандарта, определение последовательности принятия решения о квалификации или о недостаточной подготовке студента .

Многие ученые [З, 4, 5] отмечают, что термин "критериально-ориентированное тестирование" является неудачным. Он создает впечатление, будто существует некий критерий, с которым сопоставляются результаты тестирования. Одно из заблуждений относительно критериально-ориентированного тестирования, это неправильное понимание того, что данный термин означает использование так называемого критерия или "критериального (проходного) балла". Критериально - ориентированное тестирование не всегда требует наличия проходного балла, хотя для определенных практических приложений при данном виде тестировании могут потребоваться так называемые стандарты оценивания или проходные баллы. Такой критерий, а точнее стандарт оценивания, в самом деле, используется, но его наличие не является обязательным. Ошибочная трактовка критерий, как уровня подготовленности является одним из заблуждений относительно критериально - ориентированного тестирования. Это неправильное понимание того, что данный термин означает использование так называемого "проходного балла". На самом деле критериально - ориентированное тестирование не обязательно требует наличия проходного балла, хотя для определенных практических приложений при данном типе тестировании могут потребоваться так называемые стандарты оценивания. Дело в том, что пользователь теста может использовать или установить проходной балл для любого теста – критериально - ориентированного или не критериально - ориентированного. Если просто установить 80% правильно решенных заданий как "проходной балл" для любого теста, это не означает автоматически, что вы используете хорошо определенную область содержания и описываете результаты тестирования по отношению к этой области содержания. Способность самого теста давать данную информацию об испытуемых, то есть давать статус испытуемых по отношению к данной области содержания и делает тест критериально - ориентированным, а не тот факт, что вы использовали проходной балл или другой критерий оценивания.

Существует и другое заблуждение, а именно о связи критериально - ориентированного теста с критериальной интерпретацией педагогического измерения. Иногда тест составляется таким образом, чтобы прогнозировать статус испытуемого для другого теста, или для других педагогический измерений, таких как экзамены, зачеты и т.д. Например, некоторые тесты, такие как широко известные SAT-I и SAT-II, составлены для того, чтобы помочь предвидеть, прогнозировать учебные успехи абитуриентов в университетах США . Та переменная величина, которая определяется для данного прогноза, называется критериальной величиной. Таким образом, итоговые оценки студента в университете являются критериальным измерением для вступительного теста. Данное педагогическое исследование, например тест SAT, проводится для того, чтобы установить полезность, обоснованность и фактически критериальную валидность самого вступительного теста, как прогностического теста установления статуса испытуемых, по отношению к критериальной переменной. Использование термина "критериальный" в данном случае отличается от использования этого же термина в связи с критериально-ориентированным тестированием.

Таблица 4.1

Характерные особенности нормативно-ориентированных и критериально-ориентированных тестов

Нормативно - ориентированные тесты

Критериально - ориентированные тесты

1. Цель тестирования: возможность сравнения уровня подготовки испытуемых друг с другом в той области содержания, для которой тест предназначен.

Пример использования: конкурсный отбор кандидатов на обучение.

1. Цель тестирования: возможность аттестации испытуемого в соответствии с его уровнем усвоения определенной области содержания.

Пример использования: итоговая аттестация уровня обученности студентов, уровня профессиональной подготовки кадров.

2. Используемые шкалы: нормативные (или стандартные) шкалы. Необходимо указание среднегозначения и стандартного отклонения в выбранной шкале.

2. Используемая шкала - в основном, шкала процентов с выбранным одним (или несколькими) критериальным баллом (баллами). Особоевнимание уделяется методики оптимального выбора критериального балла (или баллов).

3. близко к нормальному, в большинстве случаев имеет вид
:

3. Распределение индивидуальных баллов: произвольное, в большинстве случаев асимметричное и имеет вид:

4.- несущественен. Авторы теста выбирают наиболее значимые элементы содержания.

4. Уровень детализации области содержания - подробный. Авторы теста разрабатывают спецификацию (план) теста, включающую все элементы содержания. Затем по этой спецификации разрабатываются задания.

5. Нормативная группа испытуемых обязательна. Обработанные (или шкалированные) баллы по результатам нормативно-ориентированного тестирования базируются на статистических данных нормативной группы, то есть специфической достаточно большой выборке испытуемых. В большинстве случаев применяются специальные нормативные таблицы, где каждый индивидуальный балл для данного теста имеет однозначное соответствие с процентильным эквивалентом, определенным на нормативной группе.

5. Нормативная группа испытуемых не является необходимой. Индивидуальный балл испытуемого интерпретируется по отношению к доле учебного материала успешно им освоенного. Чаще всего балл студента отражает процент правильно выполненных заданий и выражается шкале процентов.

6.Статистические показатели тестовых заданий (в основном это уровень трудности и различающая способность) играют важную роль в отборе заданий. Выбираются задания со средним уровнем трудности (от 0,3 до 0,7) и высокой различающей способностью (большей 0,3). Существуют ряд других важных статистических показателей качества заданий.

6. Статистический анализ и отбор тестовых заданий. Уровень трудности и различающая способность заданий не является существенными факторами включения в состав теста, или наоборот исключения из него. Главное условие отбора заданий - это их соответствие (их конгруэнтность) спецификации и элементу содержания. Статистические характеристики тестовых заданий используются для составления параллельных форм (вариантов) теста и для выбора оптимального критериального балла.

7. Надежность теста. Оценивается либо путем нахождения корреляциимежду результатами двух тестирований, либо методом расщепления теста на две половины при однократном тестировании.

7. Надежность теста . Оценивается степенью постоянства принятия решения «зачет – незачет» при двукратном тестировании.

8. Валидность. Наряду с содержательной валидностью для тестов конкурсного отбора учащихся особое внимание уделяется высоким показателям прогностической валидности.

8. Валидность. Особое внимание уделяется содержательной валидности. В случае принятия важных решений по результатам тестирования исследуются критериальная и конструктная валидность.

  1. Аванесов В. С. Основы научной организации педагогического контроля в высшей школе. Учебное пособие. - М.: Исследовательский центр, 1989 – 167 с.
  2. Гласс Дж., Стэнли Дж. Статистические методы в педагогике и психологии. М.: Прогресс. 1976 – 495 с.
  3. Berk R.A. Criterion-referenced measurement: The state of art. Baltimor , MD: Johns Hopkins University Press, 1980.
  4. Educational measurement (Ed. by Linn R.) N.Y. Macmillan, 1989 – 610 с.
  5. Edcational Testing Service. Standards for quality and fairness. Prinston, NJ. 1987.
  6. Keeves J.P. (Ed.) Educational Research, Metodology and Measurement: An International Handbook. Oxford, Pergamon press, 1988.

Источник поступления: Евсигнеев А. Е., Самарский государственный технический университет, Факультет повышения квалификации преподавателей, Проектирование информационных технологий, Информационный бюллетень №1, Самара 2000.

  • Сергей Савенков

    какой то “куцый” обзор… как будто спешили куда то