Proč navrhuji testy, když jim (moc) nevěřím
V poslední době hýbaly veřejností dvě kauzy spojené s testováním - každoroční debata o přijímacích zkouškách a hlavně nepovedené plošné testování ČŠI. To je moje téma, tak přispívám kapkou do diskuze.
Hlavně v souvislosti s nepovedeným plošným ověřováním výsledků ČŠI a katastrofické komunikace okolo něj, jsem trochu studijně sledoval všemožné diskuze, polemiky a přestřelky s tím spojené. A jak to bývá, přišlo mi, že se tam často baví jeden o koze, druhý o voze. Protože v rámci doktorátu testy hodně řeším a pokouším se i nějaké kvalitní navrhnout, napadlo mne, že bych mohl trochu populárně-naučně téma zpracovat a zkusit na blog napsat pár textů o tom, jak nad nimi přemýšlím. A proč nad nimi vůbec přemýšlím.
Bavme se o testech (lépe).
Testy jsou ve školství téma. Ať ty tzv. high-stakes, ve kterých se rozhoduje o něčem důležitém - např. zmíněné přijímačky na SŠ, tak i všechny každodenní, kterými učitelé nějakým způsobem vyhodnocují, jak se žákům daří. Každou chvíli proletí sociálními sítěmi fotka nějakého nesmyslného testu, podivného hodnocení nebo pochybných testovacích praktik.
Z mé zkušenosti je následná debata dost černobílá. Nebo spíš jenom černá. Všechno ohledně testů je špatně, testy jsou fuj a ble, a do moderního školství nepatří. Zřejmě podle mne schází pochopení pro to, jaký je vlastně smysl testování - že to není o tom potopit žáka, ale spíše získat potřebnou informaci, kterou bychom jinak získávali složitě a neprakticky. A schází nám vybavení, jak o testech komunikovat - jak odhalit zásadní nedostatky a chyby, ale i povedené a funkční části.
Navíc si myslím, že je debata o tom, co a jak ve školách testujeme, poměrně zásadní. Protože testy mnohem více odráží, o co ve školách jde a kam se žáky směřujeme. Různé kurikula a vzdělávací programy jsou plné vzletných frází, ale když se koukneme na to, co který učitel testuje, teprve zjistíme, v čem opravdu vidí smysl a cíl vzdělávání.
Všechny školy testují (mizerně).
Všechny školy testují. Kdo má představu, že ne, má hodně zúženou představu o tom, co to testování vlastně je. Možná si představí rozdané papíry s multiple-choice otázkami (takové ty “tipovačky” a-b-c) a čtyřicetiminutové ticho ve třídě. Nebo desetiminutovky jako “přepadovka” na začátku hodin matematiky.
Testování je mnohem širší kategorie. Z odborného pohledu jde o nějaký proces, během kterého sbíráme vzorek chování nebo přemýšlení žáka, a ten následně vyhodnotíme. A to dělají všechny školy. Protože každý učitel (nebo “průvodce”) potřebuje mít informace, jak si žák vede. V tradičním školství to mohou být způsoby popsané výše. V trochu progresivnějším to bude nejspíše doplněné o různá portfolia a samostatné žákovské práce. A i v nejsvobodnějších demokratických školách vás může žák požádat o pohled a názor na jeho práci. A hodnocení nemusí být nutně na klasické škále od jedné do pěti - může být spíše vyjádřením, co by žák měl udělat pro to, aby se zlepšil (tzv. formativní).
Zkrátka testovat (= zjišťovat dovednosti žáka) do jisté míry potřebujeme všichni. A jak jsem nadhodil výše, výrazně tím určujeme, na čem nám skutečně záleží a co považujeme za podstatné. Já potřeboval testovat taky a byl jsem frustrovaný, protože jsem cítil, že to dělám blbě. Bylo by to na delší rozepisování - ale velmi stručně: chtěl jsem, aby si žáci z dějepisu neodnášeli jen zapamatovanou “pohádku, jak to bylo kdysi”, ale aby dokázali přemýšlet nad tím, na základě čeho minulost rekonstruujeme, jak historie vzniká, jaké má tento proces limity, jak o výsledku přemýšlet, jak zpracovat to, že pohledů na minulost může být více a přesto některý může být lepší než jiný, a tak dále, a tak dále.
A získávat podklady k tomu a dávat žákům relevantní zpětnou vazbu, jsem neuměl. (A neříkám, že už umím). Ztrácel jsem se v komplexnosti, nedokázal vidět posun žáků, nedokázal si říct, co je pro mne skutečně podstatné. A zároveň jsem nechtěl předstírat, že můj dojem je důkaz a sklouzávat k různým svým biasům - protože k tomu máme jako učitelé tendenci: hodnotit lépe delší a košatější odpovědi (i když nekvalitní), hodnotit lépe lepší úpravu, hodnotit lépe to, co si představujeme jako správnou odpověď.
Dám ještě jeden jiný příklad, jak se často používané nástroje mohou míjet s tím, co sledují. Vezměme si takovou klasiku, jako je diktát. Při češtině učitel diktuje celé třídě nějaký jednotný text, který obsahuje problematické pravopisné jevy. Žáci ho zapisují a učitel pak vyhodnotí, nakolik se jejich verze shoduje s tou originální. Zdánlivě efektivní způsob, jak ověřovat, jestli žák pravopisný jev zvládá. Jenže…
Když se na to podíváme zblízka, není jasné vůbec nic. Vezměme to ze strany výsledků žáků - některý má v textu “hrubek” víc, někdo méně. Dá se na základě toho zjistit, který žák pravopis “umí” lépe? Částečně. Poradil by si žák, který nedělá chyby, stejně dobře i s “neučebnicovým” textem? Není dobrý výsledek jen o tom, že správně “natipoval” i/y, dělá to intuitivně a vlastně neví proč? Je daný slabý výsledek jiného žáka skutečně neznalostí, nebo mu dělá problém samotné psaní a na přemýšlení o pravopise už neměl kapacitu? Ve své části třídy hůř slyšel? Pravidla zná, ale špatně je aplikuje?
A to jsou v zásadě mé hnací otázky do doktorátu: dá se vymyslet takový test, který by skutečně dobře ověřoval na čem mi záleží, a nebyl plný nepodstatného “šumu”?
Proč dobré testy neexistují (ale špatné ano).
Nechci hned první úvodní text přehustit teorií. Jedno pravidlo z vědy, jak vytvářet dobré testy, je ale neprůstřelné:
Test není kvalitní sám o sobě, protože nežije ve vzduchoprázdnu. Je kvalitní vždycky jen tak, jak moc je možné vyvozovat z výsledků nějaké závěry.
Zkusím to ještě jinými slovy. Pokud se učitel podívá na test, nemůže od boku rozhodnout, jestli je sám o sobě kvalitní nebo ne. Protože vždycky záleží na tom, jak bude použitý a hlavně - jak se budou interpretovat výsledky. Když žáka zvážím, poznám z toho, kolik váží. Tahle informace je mi ale k ničemu, pokud potřebuji udělat závěr o tom, jak rychle bude běhat nebo jestli vystuduje střední školu. Trochu extrémní příklad, ale u testů je to v menším to samé.
Pokud dám žákovi dějepisný test, ve kterém se bude přiřazovat letopočet k události, těžko na základě toho mohu dělat závěry o tom, jestli by si žák události a letopočty sám vybavil (co když to jen uhádl nebo vydedukoval vylučovací metodou?), a už vůbec ne o tom, jestli rozumí významu těchto událostí a jejich důsledkům. Pokud mi ale jde jenom o to žákovi události připomenout a oživit je v dlouhodobé paměti, nemusí být podobný test úplně mimo.
Pokud bych měl vypíchnout jen jednu věc z celého textu, tak je to toto: až se budeme někde bavit o nějakém testu, neřešme tolik test samotný, ale jestli nám skutečně dává možnosti z výsledků vyvozovat to, co potřebujeme.
Co dál?
Jak jsem nakousl výše, mám poznamenanou řadu poznatků, které bych chtěl postupně sdílet - od toho, jestli je možné otestovat úplně všechno, přes pohled “do kuchyně”, jak ověřuje, že test opravdu funguje tak, jak má, až po nějaké zamyšlení nad tím, kolik testování je “akorát” a co by našemu vzdělávacímu systému prospělo.
Trochu ale házím míč i na vaši stranu, milý čtenáři, a jsem jedno velké ucho v tom, jaké jsou vaše pohledy na testování - ať už v jakékoli formě. U čeho by vás zajímalo porozumět motivacím a pohledům z druhé strany - těch, kdo testy navrhují? A samozřejmě mne zajímají i vaše osobní zkušenosti, ať z pozice rodičů nebo vlastní - protože to je nakonec hlavní riziko celého testování: že se v tom ztratí reálný žák a jeho prospěch a skončíme u škatulek a čísel.
