5.2. Общепедагогические основы использования методов тестирования в школе

Тестом - по прямому значению английского слова test - можно называть любую пробу, любое испытание. В таком широком понимании термин "тест" применяется в технике, биологии, медицине и химии. В психолого-педагогических исследованиях тестом обычно называют нормированные по времени выполнения и по трудности наборы заданий, используемые для сравнительного изучения групповых и индивидуальных особенностей.

Широкое распространение тесты нашли в прикладной психологии. Именно в этой области были разработаны методические критерии по конструированию, применению, проверке и обработке тестов. Эти критерии с некоторыми уточнениями должны признаваться обязательными и для тестов педагогических. С помощью последних сравниваются знания отдельных учеников и классов. Тест выступает в качестве измерительного инструмента; поэтому он должен удовлетворять строгим и ясным методическим требованиям. Случайно подобранный набор заданий тестом назвать нельзя.

Поскольку при тестировании производится сравнение учеников или групп учеников, нужно пользоваться какими-то единицами измерения. Чаще всего результаты выполнения теста сравниваются по числу выполненных заданий за установленное время. За единицу измерения в этом случае берется одно задание. Исследователь сравнивает своих испытуемых по числу выполненных заданий в отведенное время (или за определенную его единицу). Поэтому первостепенное значение приобретает равнотрудность заданий, включенных в тест. Чтобы приблизиться к решению этого вопроса, приходится производить предварительные неоднократные пробы теста в специальных группах и после обработки вносить изменения. Добиться в каждом отдельном случае при решении заданий теста их равнотрудности на практике вряд ли возможно - специфика индивидуальной подготовки и психологические

84

особенности испытуемых неизбежно скажутся на процессе выполнения отдельных заданий. Субъективная трудность задания может не совпадать с трудностью, которая ему приписывается исследователем по итогам массового усредненного материала. На это приходится идти. Тем не менее требование равнотрудности в определенном приближении всегда остается как одно из фундаментальных.

Тесты не могут рассматриваться как универсальный и всеобъемлющий инструмент педагогического контроля в школе, даже в рамках контроля за успеваемостью учащихся. Ибо каждое задание теста и весь тест, поскольку он составлен из однородных заданий, направлены на выявление ограниченного комплекса признаков усвоения и понимания, и чем меньше признаков входит в комплекс, тем яснее возможная интерпретация результатов и тем лучше тест выполняет свою функцию. Лучше всего, если задание выявляет всего один признак, например знание учеником одного арифметического правила. Задание, направленное на его обнаружение сразу и без возможностей последующего вычленения группы признаков, затрудняет интерпретацию. Успех или неуспех испытуемого не получает единственной и однозначной оценки, так как может зависеть от разных признаков. Учитель, не имея такой оценки, не сможет прийти к заключению о причинах, обусловивших конечный результат, и вряд ли сформулирует четкие дидактические выводы.

Этим, конечно, не исключается сознательное объединение в тесте заданий с различной направленностью. Так, в тест по истории могут быть включены задания на знание исторических фактов: дат, имен, географических пунктов; и на знание исторических закономерностей: причин, вызвавших данное историческое событие, его следствий и исторических законов в абстрактной форме. Учитель, возможно, сочтет удобным включить те и другие задания в один и тот же тест. Задания должны полностью соответствовать своей цели: измерять то, что интересует учителя.

Однако метод тестирования имеет определенные границы применения. Есть такие характеристики обученности школьника, которые настолько сложны и многоплановы, что тестовые методики для их выявления не могут быть применены.

Пока еще не найден тестовый эквивалент того, что можно было бы назвать общей подготовленностью или образованностью ученика. Многие учителя и методисты придают немаловажное значение этой характеристике. Но тесты обладают возможностью представлять только отдельные составляющие этого сложного целого.

Приходится считаться и с тем, что характеристики, не имеющие ясного содержания, вообще не могут стать объектом тестирования. В частности, неясностью содержания отличается и характеристика общего развития образованности. Учитель, конечно,

85

может заранее оговорить, что эта характеристика, согласно его взгляду, состоит из таких-то и таких-то простых и поддающихся измерениям индивидуальных особенностей. В этом случае задача, которую он ставит перед собой, поддается решению. Вопрос только в том, удастся ли ему обосновать свой взгляд на эту характеристику.

Учителю, использующему данный метод, нужно постоянно иметь в виду органически присущие ему свойства. При массовом применении тестов, а только тогда может быть оправдана большая работа, затраченная на их составление и предварительную проверку, обычная форма заданий предлагает испытуемому в том или другом виде готовые ответы на выбор; ему нужно найти и отметить тот ответ, который он считает правильным. Тест представляет собой специфическую проверку знаний и умений ученика, активность которого выражается, скорее, в узнавании, чем в воспроизведении нужных знаний.

В исследованиях проблем воспитания в основном находят применение личностные тесты.

Специфические свойства личностных тестов. Наиболее важным отличительным свойством таких тестов принято считать их направленность на выявление поведения, типичного для данного индивида.

Как известно, и тесты успеваемости, и тесты способностей требуют от испытуемого продемонстрировать "максимальное выполнение", найти "лучшее решение", как "можно быстрее выполнить" задание и т.п., причем тестовые оценки находятся в прямой зависимости от этих показателей. В личностных же тестах такого рода требования обычно не выдвигаются, и внимание испытуемого обращается на то обстоятельство, что в данном тесте нет правильных и неправильных ответов и что главным здесь является искреннее, правдивое изложение фактов, точное выполнение инструкций и т. п.

Другая существенная особенность личностных тестов состоит в том, что их подлинное назначение, как правило, скрывается от испытуемых. Таковы, в частности, некоторые тесты отношений, методики для измерения внушаемости, правдивости, доброты, склонности к сотрудничеству и т.д.

Одним из специфических показателей, используемых в личностных тестах, является частота обнаружения данного свойства. Каждое отдельное задание теста предоставляет испытуемому одну возможность проявить измеряемое свойство. Если, например, тест состоит из 30 заданий, то таких возможностей оказывается 30. По числу использованных испытуемым возможностей и определяется степень выраженности у него измеряемого свойства. При этом предполагается, что все задания теста характеризуют одинаковые возможности. К сожалению, вопрос о том, насколько

86

практически удается добиться такой эквивалентности, анализируется редко.

Другим показателем, используемым в личностных тестах, служит диапазон, широта проявления изучаемого личностного свойства. Например, в "инвентарии", предназначенном для измерения общительности, испытуемому могут быть предложены вопросы о его поведении в 20 различных ситуациях, каждая из которых, по мнению автора теста, "провоцирует" те или иные проявления данного свойства. Такого рода вопросы могут касаться, в частности, участия в общественных мероприятиях школы, посещения вечеров, танцев, встреч с одноклассниками во внешкольной обстановке и т.п.

Может показаться, что данный критерий ничем по существу не отличается от первого из рассмотренных нами. Однако в действительности между ними имеется существенное различие. В первом случае речь идет о проявлении измеряемого свойства в ситуациях, создаваемых при самом тестировании. Во втором же - устанавливаются особенности поведения испытуемого в ситуациях, имевших место в его прошлом жизненном опыте. Разумеется, и в данном случае встает вопрос об одинаковой значимости отдельных ситуаций, что, естественно, должно стать предметом специального исследования при разработке того или иного теста.

Еще один показатель, используемый в личностных тестах, - интенсивность проявления данного свойства. Так, например, в некоторых шкалах отношений испытуемый сам определяет и фиксирует степень выраженности своего отношения к тому или иному суждению, выбирая один из следующих пяти альтернативных ответов: полностью согласен, согласен, не имею определенного мнения, не согласен и абсолютно не согласен.

Во многих личностных тестах одновременно используются два или даже три различных показателя, что, конечно, в принципе повышает валидность и надежность измерительного инструмента. Однако при этом возникает весьма сложная задача сопоставления отдельных показателей, их совокупной интерпретации, выведения общей оценки и т.п.

"Шкалирование" в личностных тестах. Подавляющее большинство применяемых в настоящее время личностных тестов предназначается для измерения отдельных личностных свойств или черт. При конструировании и использовании одномерных тестов измеряемая черта рассматривается как некоторый непрерывный количественный континуум, который может быть изображен в виде прямой линии, представляющей собой биполярную шкалу. Каждый испытуемый в этом случае может быть представлен определенной точкой на такой шкале.

В качестве примеров биполярных черт можно назвать такие психические свойства личности, как самообладание - нервозность,

87

властвование - подчинение, доброта - жестокость, альтруизм - эгоизм, правдивость - лживость и т.д.

Биполярная шкала имеет два полюса с находящейся между ними нулевой точкой. Нулевая точка в биполярной шкале находится строго посредине между двумя полюсами лишь в том случае, если оба экстремума равны друг другу. Но так бывает не всегда. Например, максимальная степень влечения, интереса к какому-либо объекту, наблюдаемая среди достаточно представительной выборки людей, может быть намного больше, чем максимальная степень аверсии (отталкивания) по отношению к этому объекту, зарегистрированная в той же выборке. Отсюда следует, что нулевая точка на соответствующей шкале находится ближе к отрицательному полюсу, т.е. к полюсу аверсии.

Связь личностных тестов с другими количественными методами. Было бы ошибкой считать тестами все без исключения количественные методы, применяемые в исследованиях проблем воспитания. В частности, нет оснований относить к методу тестов различные виды оценочных классификаций (рейтинга), в том числе и так называемые социометрические методики.

Как известно, сущность метода оценочных классификаций заключается в том, что отдельные лица ("оценщики", "судьи"), хорошо знакомые с данным объектом, оценивают его по определенным стандартным критериям, шкалам и т.д. Путем соответствующей статистической обработки индивидуальные оценки трансформируются в совокупный количественный показатель. Однако лица, являющиеся объектами оценочных классификаций, не только не подвергаются какому-либо стандартизованному испытанию (что служит необходимым элементом каждого теста), но во многих случаях даже не ставятся в известность о производимом оценивании. Представления, исходя из которых оценщики выносят свои суждения, формируются у них на протяжении длительного общения или наблюдений в повседневной жизни.

Следовательно, рейтинг, как таковой, не может быть отнесен к разряду тестов. Однако здесь необходимо сделать две существенные оговорки. Первая из них касается тех случаев, когда метод оценочных классификаций входит составной частью в процедуру тестирования. Речь идет об очень немногочисленной группе тестов, которые хотя и предусматривают предъявление испытуемым стандартных заданий, тем не менее не содержат каких-либо механизмов для объективной регистрации их выполнения. Вместо нее используется метод оценочной классификации, осуществляемой на основе наблюдений, проводимых при тестировании.

Вторая оговорка. Любой акт оценивания характеризует не только объект, но при определенных обстоятельствах и сам субъект оценки. Иными словами, быть оценщиком - это в известном смысле значит

88

быть испытуемым. Вопрос в том, кто является подлинным объектом оценивания: если таковым служит сам оценщик, то мы фактически имеем дело с тестом. Если же объектом оценивания выступает не оценщик, а лицо или группа, которые им оцениваются, то тогда перед нами рейтинг, который сам по себе тестом считаться не может.

Как и все другие методы педагогического контроля, тест имеет определенные достоинства и недостатки. При правильном и умелом использовании он может дать педагогу много важной информации, которую не получить никаким другим способом.

Достоинством теста является то, что все сформулированные в нем задания, будучи предварительно глубоко обдуманы и экспериментально проверены, раскрывают в своей совокупности в максимально короткие сроки и в компактной форме интересующие исследователя признаки ученика - его знания и понимание им некоторых частных сторон предмета. В этом смысле тест превосходит любой другой способ проверки тех же знаний и понимания.

Другим, еще более важным достоинством теста является его объективность. Известно, что учитель, вероятно, невольно вносит некоторую долю субъективизма в оценки работ учащихся - в данном случае в оценки и самих учащихся. Этот оттенок субъективизма нередко оправдывается тем, что учитель, накопивший большой запас наблюдений о каждом ученике, не может отделаться от того, что некоторые неточности работы, по его глубокому убеждению, возникли незакономерно, оказались плодом неблагоприятного сочетания случайностей. И в самом деле, в массе, вероятно, это так: оценка хорошего учителя точнее характеризует ученика, чем оценка его отдельной работы. Однако даже при изучении большого числа классов в разных школах сочетание различных по своей направленности и обоснованности субъективностей может исказить подлинную картину. Тест, который проводится в различных классах при строгом соблюдении определенных условий, дает значительно большую уверенность в объективности добытой информации.

Существуют такие области изучения, в которых именно тесты оказываются наиболее удобным и адекватным методом. К ним относится сравнение эффективности преподавания по разным методикам, по разным учебникам и т.п. Тесты могут быть применены также при сравнительной оценке усвоения определенных знаний в школах различных районов, школах, работающих в специфических условиях. Этим далеко не исчерпывается применение метода тестов.

Исследователь, впервые приступающий к использованию тестов в своей работе, должен решить такие наиболее существенные задачи, как: 1) разработка самого теста; 2) достижение его удовлетворительной надежности; 3) получение удовлетворительной валидности теста.

89

Научно обоснованный тест - это метод, соответствующий установленным стандартам надежности и валидности. В требованиях проверки теста на надежность и валидность реализуется важная идея методологического характера, выдвинутая довольно давно еще Р. Бэконом, - к истинному знанию ведет лишь истинный метод. Таким образом, качество педагогической информации оказывается зависимым от качества используемого для этого инструментария.

Тест не может считаться завершенным, если он не получил удовлетворительной оценки по надежности. Понятие надежности в тестологии имеет два смысла. С одной стороны, имеется в виду надежность теста как определенного инструмента. К примеру, пользуясь метром, мы уверены в том, что он остается неизменным, какие бы измерения мы ни производили. В таком понимании метр можно назвать надежным. С другой стороны, говоря о надежности, мы имеем в виду относительную неизменность того предмета, который мы измеряем. Измерив длину предмета, мы должны быть уверены, что она в обычных условиях останется неизменной. Если применить эти рассуждения к тестированию, то, очевидно, следует разделить два объекта оценки надежности. Первый из них - сам тест. Он должен быть надежным. Должны быть применены такие методики, которые позволили бы выносить определенное суждение о его надежности. Положим, мы получили устраивающую нас оценку его надежности. Теперь встает вопрос о том, насколько надежен объект, для измерения которого разработан тест. Специфичность задачи состоит в том, что оценку надежности самого предмета измерения - уровень или качество знаний и умений ученика по какой-либо школьной дисциплине - необходимо производить инструментом, который и сам проходит оценку надежности.

При оценке надежности теста исходят из того, что тест тем надежнее, чем он более однороден. Для задачи, которую выполняет тест, существенно, чтобы каждая его часть, используемая в измерении, давала бы тот же результат измерения, что и другая часть. Сравним с метром: если это надежный измерительный инструмент, то, измерив лист бумаги по ширине, получим 210 мм, с какой точки на этом инструменте ни начали бы измерять - с 0 мм, с 500 мм или с любой другой. Для проверки теста применяется такой прием: тест проводят по какой-то выборке. Затем обрабатывают раздельно четные и нечетные задания. В результате такой обработки каждый испытуемый получает данные по решению четных и нечетных заданий. Эти два ряда данных коррелируют между собой. Тест получает оценку надежности в зависимости от полученного коэффициента. В тестологической практике тест признается достаточно надежным, когда полученный коэффициент не ниже +0,75... +0,80. Лучшие по надежности тесты дают коэффициенты корреляции порядка +0,90 и более.

90

Но в некоторых случаях надежность теста оказывается сравнительно невысокой, порядка +0,45...+0,50. Это, собственно, в подавляющем большинстве случаев означает, что в нем представлено некоторое количество заданий, которые в силу своей специфичности ведут к снижению коэффициента корреляции. Такие задания нужно специально проанализировать; может быть, удастся, немного изменив характер вопроса или подбор ответов, перестроить их. После перестройки они могут быть снова включены в тест, а сам тест подвергнут новой проверке. Иногда же оказывается более целесообразным просто изъять задание. Поэтому при подготовке первых вариантов теста лучше иметь некоторый запас заданий.

Валидность говорит о степени соответствия теста своему назначению. Предположим, разработан тест, диагностирующий знания по физике в объеме 1 полугодия VIII класса. Валидность такого теста есть его показатель, свидетельствующий о том, что тест действительно выявляет знания по физике, и притом именно в том объеме, который указан составителями. Чем ближе раскрывается в тестовом испытании тот признак, для обнаружения и измерения которого он предназначен, тем выше его валидность.

При установлении надежности все необходимое и достаточное исследователь находит в самом тесте: он сопоставляет одну часть заданий (с четными номерами) с другой (с нечетными номерами). Он делит тест на две части и, проводя одну через 40 - 50 дней после другой, коррелирует полученные результаты, т.е. тест дает ему все необходимые материалы. Но для установления валидности этого мало. Валидность может быть выведена только при сопоставлении результатов по тесту с каким-то критерием, с какой-то оценкой, находящейся вне теста; ее обычно называют внешним критерием.

Легко усмотреть прямую связь валидности с надежностью. Тест с низкой надежностью не может обладать высокой валидностью. Низкая надежность означает, что неверен измерительный инструмент и нестабилен тот признак, который он измеряет. Такой тест при сопоставлении с внешним критерием может в одном случае показать высокие совпадения, а в другом - крайне низкие. Понятно, что при таких данных никаких выводов о том, насколько тест соответствует своему назначению, сделать невозможно. Устанавливать валидность ненадежного теста нет никакого смысла, это пустая трата времени.

Одна из самых больших трудностей, которые приходится преодолевать учителю, решившему дать характеристику своего теста по валидности, - это выбор внешнего критерия. Пусть автор теста полностью уверен, что тест действительно выявляет то, для чего он предназначен, - знания по физике в объеме 1 полугодия

91

VIII класса. Но соответствует ли это реальному положению? Не являются ли задания теста случайными, не поставлены ли в них вопросы второстепенного значения? Сомнения может разрешить только сопоставление с внешним критерием. В этом случае таким критерием может быть, очевидно, солидная оценка знаний учащихся, проведенная квалифицированным и объективным экспертом. Классный журнал и четвертные оценки вряд ли могут быть признаны надежным критерием - учителю приходится выводить оценки из малого числа опросов и работ, к тому же не всегда охватывающих материал всего курса.

Встает вопрос о требованиях, которым должен удовлетворять внешний критерий, пригодный для установления валидности. Тестология выдвигает три таких требования: критерий должен быть надежным (в том же понимании, как и в отношении теста); он должен быть "чист", т.е. в оценках речь должна идти только о том признаке, который выявляется в тесте, а не о дисциплине, не об общественной активности, не об усердии и т.п.; наконец, критериальная оценка должна охватывать с надлежащей полнотой весь тот круг знаний, который обнаруживается при помощи теста, он должен быть полностью соотносим с тестом.

В наибольшей степени отвечает этим требованиям результат так называемого экспертного опроса учащихся, который организуется следующим образом. Подбирается группа из 5 - 7 опытных учителей и методистов. Назначается председатель или руководитель, задача которого состоит в том, чтобы в предварительных беседах с членами группы определить уровень требований и форму опроса. Сделать это необходимо, так как известно, что даже опытные педагоги расходятся между собой в том, что считать наиболее важным, что второстепенным: одни отдают предпочтение сформированности мышления в понятиях данного предмета, другие - умению решать практические задачи, третьи - фундаментальности знаний. Нужно, чтобы по крайней мере на время экспертного опроса его участники договорились о единстве требований. Известная доля субъективности в оценках, вероятно, сохранится, но ее влияние сгладится за счет усреднения конечной оценки. За председателем сохраняется право ставить вопрос о дезавуировании отдельных оценок, резко не совпадающих с оценками большинства.

Подготовленная таким способом группа экспертов проводит опрос учащихся, которые до или после этого прошли тестирование. Результат экспертного опроса обладает определенной надежностью, ее можно установить, вычислив корреляции между отдельными оценками, выставленными экспертами. В оценках не должно быть отражено ничего, кроме знаний по предмету. Намеченная программа опроса гарантирует охват тестируемого круга знаний.

92

Через экспертный опрос следует пропустить ту выборку, на которой учитель намерен установить валидность теста. Желательная численность выборки - примерно 50 учащихся.

Результаты экспертного опроса сопоставляются с результатами по тесту, чаще всего для этого применяются корреляции. Полученный коэффициент именуется коэффициентом валидности. По тестологической терминологии в данном случае получена так называемая валидность по содержанию.

Выведение коэффициента валидности - трудоемкая процедура. Она не обязательна в тех случаях, когда учитель использует тест в ограниченных пределах только для своей работы и не предполагает предназначить его для диагностирования знаний в более широком масштабе.

К коэффициенту валидности предъявляются вообще те же требования, что и к коэффициенту надежности. В общем, чем методически более совершенен критерий, тем выше должен быть и коэффициент. Низкий коэффициент валидности следует подвергнуть специальному рассмотрению. Среди причин, повлекших за собой получение низкого коэффициента валидности, можно назвать следующие: значительная часть заданий теста отражает второстепенные вопросы курса, некоторые существенные вопросы вообще не вошли в тест и т. п. Учителю придется рассмотреть случаи наиболее резких расхождений между оценками экспертного опроса и результатами по тесту и, насколько это возможно, исправить тест в соответствии с требованиями экспертов. Конечно, такое исправление влечет за собой немало новых забот: обновив тест, нужно вновь подумать о его надежности.

Вывод, который сам собою напрашивается, состоит в том, что при составлении теста нужно проявить максимальное внимание к содержанию тестируемого предмета и принять все меры к наилучшему и полному отражению этого содержания в заданиях теста.

93

Rambler's Top100
Lib4all.Ru © 2010.