Terjemahan Dari Buku : Principles of Instructional Design Fourth Edition
Penulis : Robert M. Gagne, Leslie J. Briggs, dan Walter W. Wager.
Tahun Buku : 1974
Penerjemah : Muiz Ghifari
Chapter : BAB XIII Menilai Kinerja Peserta Didik
Halaman : 254-277
Kata Kunci :
Makalah Merancang Sistem Instruksional
Kritik Merancang Sistem Instruksional
Instruksi dirancang untuk menghasilkan pembelajaran beberapa jenis kemampuan. Ini dibuktikan dengan peningkatan kinerja di pihak peserta didik. Meskipun banyak pembelajaran terjadi di luar sekolah dan banyak hasil dari upaya peserta didik sendiri, tanggung jawab sekolah adalah untuk mengatur dan memberikan pengajaran yang diarahkan pada tujuan spesifik-tujuan yang mungkin tidak dapat dicapai dengan cara yang kurang terorganisir.
Hasil dari pengajaran yang direncanakan ini terdiri dari penampilan peserta didik yang menunjukkan bahwa berbagai macam kemampuan telah diperoleh. Lima domain kemampuan tersebut telah diidentifikasi dan dibahas dalam bab-bab sebelumnya: keterampilan intelektual, strategi kognitif, informasi, keterampilan motorik, dan sikap. Tujuan kinerja dalam kategori-kategori ini, yang dapat diterapkan pada matapelajaran pengajaran, dapat dianalisis lebih lanjut untuk menemukan prasyarat yang menjadi dasar pembelajaran mereka. Ini pada gilirannya dapat membentuk dasar untuk memutuskan urutan pelajaran individu dan untuk desain pelajaran itu sendiri.
Baik perancang pengajaran dan guru membutuhkan cara untuk menentukan seberapa sukses pengajaran tersebut, dalam hal kinerja masing-masing peserta didik dan seluruh kelompok peserta didik. Ada kebutuhan untuk menilai kinerja peserta didik untuk menentukan apakah pengajaran yang baru dirancang telah memenuhi tujuan desainnya. Penilaian juga dapat dilakukan untuk mengetahui apakah setiap peserta didik telah mencapai serangkaian kemampuan yang ditentukan oleh tujuan pengajaran. Dalam bab ini, kita akan membahas bagaimana kedua tujuan ini dapat dilayani oleh pengembangan prosedur untuk menilai kinerja peserta didik.
TUJUAN TINDAKAN KINERJA
Dalam Bab 2, kami menunjukkan bahwa ukuran kinerja peserta didik mungkin memiliki sebanyak lima tujuan yang berbeda, ketika dipertimbangkan dalam kaitannya dengan pengajaran di sekolah. Ini dibahas secara singkat di bagian berikut.
Penempatan Peserta didik
Ketika peserta didik kembali ke sekolah setelah setiap liburan musim panas, mereka akan melupakan beberapa keterampilan yang dipelajari tahun sebelumnya, dan mereka akan memperoleh informasi, keterampilan, dan sikap baru. Sekalipun anggota kelompok meninggalkan sekolah pada semester sebelumnya dengan kemampuan yang sangat mirip, mereka tidak akan berada pada titik awal yang sama sehubungan dengan urutan keterampilan yang harus dipelajari pada tahun ajaran baru.
Tes penempatan digunakan untuk menentukan keterampilan mana yang dipelajari oleh setiap peserta didik dan dapat diingat pada saat tes diberikan (biasanya segera setelah awal semester baru). Hasil tes tersebut menunjukkan pola penguasaan dan tidak menguasai masing-masing peserta didik, untuk tujuan mengidentifikasi titik awal untuk pengajaran. Program pengajaran individual (Bab 15) dirancang dengan baik untuk tujuan ini. Di bawah pengajaran kelompok, guru perlu mengatur beberapa kegiatan untuk peserta didik yang perlu mengejar ketinggalan atau yang perlu bekerja di depan mayoritas. Semakin cocok ketentuan yang dibuat untuk setiap pelajar, semakin tepat pengajaran yang diberikan dan semakin besar kemungkinan peserta didik untuk mengalami kesuksesan.
Diagnosis Kesulitan
Tes diagnostik dapat dibangun untuk mengukur keterampilan prasyarat yang diungkapkan oleh hierarki pembelajaran yang dirancang untuk mewakili bagian-bagian penting dari total keterampilan. Tes-tes ini sangat membantu ketika beberapa pelajar terlihat "tertinggal". Alasan yang mungkin untuk tertinggal, terutama dalam pengajaran kelompok, adalah bahwa keterampilan sebelumnya secara berurutan belum dikuasai, sehingga menyulitkan untuk belajar keterampilan yang lebih tinggi. Berdasarkan hasil tes diagnostik, peserta didik dapat diberikan pengajaran perbaikan keterampilan prasyarat. Dalam beberapa kasus, tentu saja, pengajaran perbaikan mungkin perlu menggunakan metode dan bahan yang berbeda dari yang awalnya digunakan untuk menghindari kegagalan kedua pada titik kesulitan yang sama dalam urutan pelajaran.
Memeriksa Kemajuan Peserta didik
Tes kinerja sering diberikan setelah setiap pelajaran dalam serangkaian untuk memastikan bahwa setiap peserta didik menguasai setiap tujuan. Guru lebih jarang belajar menggunakan tes seperti itu ketika seluruh kelompok secara konsisten berkembang dengan baik dan menggunakannya lebih sering ketika sejumlah peserta didik mengalami kesulitan. Tentu saja, beberapa pemeriksaan kemajuan sering dilakukan secara informal oleh guru dalam melakukan pemeriksaan langsung dengan beberapa peserta didik pada setiap kesempatan. Tetapi dalam program pengajaran individual, seperti yang disajikan oleh pengajaran berbasis komputer, tes ini biasanya merupakan bagian dari setiap "modul." Pengujian semacam ini sering segera menunjukkan bahwa pelajar mengikuti atau tertinggal. Dengan menggunakan pemeriksaan kemajuan singkat yang konsisten dengan kecukupan penilaian, pelajar dapat menerima jaminan bahwa mereka mengalami kemajuan dengan baik. Hasil tes tersebut juga merupakan informasi yang dapat diandalkan bagi guru untuk digunakan dalam merencanakan langkah selanjutnya dalam pengajaran.
Untuk pelajar tingkat lanjut, seperti di universitas dan perguruan tinggi, pemeriksaan kemajuan biasanya dibuat lebih jarang. Beberapa instruktur perguruan tinggi memberikan ujian mingguan, tetapi yang lain mungkin hanya menggunakan ujian akhir dalam matapelajaran mereka. Dalam pengaturan ini juga, penggunaan pengajaran berbasis komputer memperkenalkan rutinitas pemeriksaan kemajuan yang sering diinginkan.
Laporan kepada Orang Tua
Penggunaan ukuran kinerja tidak hanya memastikan baik peserta didik maupun guru bahwa semuanya baik-baik saja, tetapi juga merupakan dasar yang dapat diandalkan untuk melaporkan kemajuan kepada orang tua dan administrator. Hasil akumulasi pemeriksaan kemajuan dapat memberikan dasar untuk promosi, sertifikasi, atau untuk masuk ke lembaga pembelajaran yang lebih tinggi.
Evaluasi Pengajaran
Tujuan penting lain dari pengujian kinerja adalah untuk mengevaluasi dan meningkatkan pengajaran itu sendiri. Dalam beberapa tahun terakhir, tidak jarang bahan pengajaran telah mengalami evaluasi formatif-uji coba dan revisi materi berikutnya dengan individu, dengan kelompok kecil, dan dengan kelompok besar dalam situasi uji lapangan. Untuk tujuan ini, skor total yang diperoleh oleh setiap peserta didik pada ukuran kinerja menarik untuk menunjukkan tingkat keberhasilan secara keseluruhan yang dicapai. Yang lebih penting adalah analisis item yang menunjukkan item mana yang lulus atau gagal oleh mayoritas peserta didik. Skor barang sangat berguna dalam memutuskan di mana pengajaran perlu ditingkatkan. Teknik untuk evaluasi formatif dibahas lebih lanjut dalam Bab 16 (lihat juga Dick dan Carev, 1985).
Tes kinerja juga digunakan dalam melakukan evaluasi sumatif pengajaran. Evaluasi ini dilakukan setelah revisi matapelajaran selesai dan setelah bentuk matapelajaran yang dihasilkan telah digunakan untuk kelompok peserta didik tambahan. Prosedur untuk evaluasi sumatif dijelaskan secara rinci oleh Popham (1975), Dick dan Carey (1985), dan dalam Bab 16.
Prinsip-prinsip untuk menyiapkan ukuran kinerja serupa apakah diterapkan pada konstruksi tes untuk setiap keterampilan prasyarat dalam hirarki pembelajaran, untuk seluruh topik, atau untuk unit studi yang lebih besar. Dalam sisa bab ini, kita akan membahas tes dalam hal validitasnya untuk mengukur kinerja pada satu tujuan. Namun, tujuan tunggal dapat berupa matapelajaran, unit, pelajaran tunggal, atau tujuan yang memungkinkan.
PROSEDUR UNTUK PENILAIAN TUJUAN-REFERENSI
Ungkapan penilaian yang dirujuk secara objektif digunakan dengan makna literal dalam konteks buku ini. Ini dimaksudkan untuk menyiratkan bahwa cara untuk menilai pembelajaran peserta didik adalah dengan membangun tes atau prosedur penilaian lainnya yang secara langsung mengukur kinerja manusia yang dijelaskan dalam tujuan untuk matapelajaran. Ukuran kinerja seperti itu memungkinkan untuk menyimpulkan bahwa kemampuan kinerja yang dimaksudkan memang telah dikembangkan sebagai hasil dari pengajaran yang diberikan. Tes serupa dapat diberikan sebelum pengajaran diberikan (pretest), dan ketentuan dapat dibuat untuk memungkinkan peserta didik untuk memotong pengajaran yang tidak mereka butuhkan. Biasanya, seorang guru menguji hanya untuk "kemampuan memasuki asumsi" sebelum memperkenalkan pengajaran dan menilai kinerja pada tujuan itu sendiri hanya mengikuti pengajaran (itu, dengan posttest). Praktik kompromi yang nyaman mungkin bagi guru untuk mengizinkan peserta didik yang berpikir dia telah menguasai tujuan sebelum pengajaran untuk mengambil tes yang mencerminkan tujuan itu sebagai pretest dan untuk memaafkan peserta didik dari bagian pengajaran jika dia lulus.
Tujuan kinerja adalah batu kunci dalam perencanaan penilaian kinerja. Kami telah menunjukkan pentingnya kata kerja dalam pernyataan untuk menjelaskan tujuan secara benar (Bab 7). Kata kerja sama pentingnya sebagai dasar untuk perencanaan penilaian kinerja. Kata kerja semacam itu memberi tahu apa yang harus diminta oleh peserta didik ketika mengambil tes penilaian kinerja. Perhatikan bahwa kata kerja kemampuan mengacu pada kemampuan yang disimpulkan untuk hadir dalam repertoar peserta didik, ketika peserta didik telah berhasil melakukan seperti yang dinyatakan dalam kata kerja tindakan dalam tujuan. Kata kerja kapabilitas adalah maksud dari tujuan; kata kerja tindakan adalah indikator bahwa maksud telah dicapai oleh pelajar.
Kongruensi Tujuan dan Tes: Validitas
Orientasi referensi-objektif untuk penilaian sangat menyederhanakan konsep validitas dalam pengukuran kinerja. Pendekatan penilaian ini menghasilkan ukuran objektif langsung dan bukan langsung. Dengan demikian, ini menghilangkan kebutuhan untuk menghubungkan langkah-langkah yang diperoleh dengan kriteria dengan menggunakan koefisien korelasi, seperti yang biasanya harus dilakukan ketika langkah tidak langsung digunakan atau ketika tes telah dibangun tanpa mengacu pada tujuan kinerja eksplisit. Dengan demikian, seseorang dapat mengatasi masalah validitas tes dengan menjawab pertanyaan ini: "Apakah kinerja yang dibutuhkan selama penilaian kinerja sama dengan yang dijelaskan dalam tujuan?" Jika jawabannya yes yes, maka tes itu valid. Dalam praktiknya, diinginkan lebih dari satu orang untuk membuat penilaian ini dan agar konsistensi diperoleh di antara para hakim ini.
Validitas dipastikan ketika prosedur penilaian menghasilkan pengukuran kinerja yang dijelaskan dalam tujuan. Ini terjadi ketika tes dan tujuan adalah kongruen satu sama lain. Namun, kehati-hatian bisa diselingi di sini. Metode penentuan validitas ini mengasumsikan bahwa pernyataan tujuan itu sendiri valid, dalam arti bahwa pernyataan itu benar-benar mencerminkan tujuan topik atau pelajaran. Prosedur yang dijelaskan untuk menentukan tujuan dalam Bab 7 dimaksudkan untuk memastikan bahwa ini adalah masalahnya. Namun demikian, mungkin ada kebutuhan tambahan untuk memeriksa kembali konsistensi tujuan spesifik dan tujuan yang lebih luas. Terkadang, inkonsistensi menjadi jelas ketika pernyataan tujuan ditransformasikan menjadi tes kinerja peserta didik.
Harus diakui bahwa tes Word digunakan di sini dalam arti umum yang berarti setiap prosedur untuk menilai kinerja yang dijelaskan dalam tujuan. Dengan demikian, penggunaan kata ini dapat mencakup semua bentuk pengujian tertulis dan lisan serta prosedur untuk mengevaluasi produk peserta didik seperti esai, produksi musik, model yang dibuat, atau karya seni. Kami memilih istilah penilaian daripada pengujian prestasi alternatif untuk merujuk pada pengukuran kinerja peserta didik. Istilah yang terakhir ini sering dikaitkan dengan pengukuran yang direferensikan norma, yang akan menjadi subjek diskusi nanti dalam bab ini. Pada titik ini, bagaimanapun, tes dan penilaian digunakan untuk merujuk pada pengukuran kinerja yang dirujuk secara objektif.
Beberapa tujuan kinerja yang diberikan dalam Bab 7 dapat digunakan untuk menggambarkan bagaimana penilaian tentang validitas tes dapat dibuat. Awalnya, kita akan memusatkan perhatian terutama pada dua dari lima bagian dari pernyataan objektif, dua kata kerja yang menggambarkan kemampuan untuk dipelajari dan tindakan yang dilakukan peserta didik dalam menunjukkan kemampuan ini. Kemudian, bagian lain dari tujuan akan terkait dengan penilaian kinerja.
Pertama, perhatikan contoh menghasilkan surat dengan mengetik. Kata menghasilkan adalah petunjuk bahwa dalam situasi ujian peserta didik harus menulis suratnya sendiri daripada mengetik bentuk surat yang berbeda yang disusun oleh orang lain. Jelas bahwa pembelajar harus menggunakan kemampuannya menghasilkan jenis huruf tertentu dalam batasan situasi yang dijelaskan dalam tujuan. Dalam tujuan alternatif yang berkaitan dengan mengetik, pelajar menerima surat tulisan tangan tertulis yang disusun oleh orang lain. Dua tujuan yang berkaitan dengan surat bisnis ini sangat berbeda. Yang satu hanya membutuhkan keterampilan mengetik huruf yang sudah dikomposisikan, sedangkan yang lain membutuhkan kemampuan pemecahan masalah dalam menyusun surat. Dengan demikian, dua domain (keterampilan motorik dan keterampilan intelektual) adalah sampel.
Dalam contoh kedua yang diambil dari Bab 7, peserta didik harus menunjukkan penggunaan aturan dengan memasok faktor yang hilang dalam persamaan. Menyalin nilai yang hilang dari sebuah buku atau mengingat nilai setelah melihat masalah berhasil sebelumnya tidak akan menjadi tes yang valid untuk kemampuan ini. Dalam mendesain tes, kehati-hatian harus diambil untuk menggunakan contoh yang berbeda untuk pengujian daripada yang digunakan untuk mengajar sehingga meminimalkan kemungkinan bahwa respon yang benar dapat diberikan dengan cara apa pun selain proses intelektual yang dimaksud.
Dalam contoh apa pun yang menunjukkan master konsep, pelajar dapat mengidentifikasi konsep tersebut dengan mencetak huruf pertama dari konsep (nama) di tempat kosong. Ini tidak sama dengan menyalin huruf pertama atau mengeja nama konsep.
Ini juga berbeda dari kinerja menjelaskan bagaimana konsep itu dapat digunakan. Setiap atau semua contoh yang terakhir ini mungkin merupakan pertunjukan yang bermanfaat, tetapi mereka tidak mencerminkan maksud dari tujuan, baik mengenai kemampuan yang diperlukan atau tindakan yang menandakan bahwa kemampuan tersebut ada. Latihan untuk menilai validitas item tes dengan membandingkannya dengan tujuan kinerja yang sesuai diberikan oleh Briggs dan Taruhan (1981) dan oleh Dick and Carey (1985).
Merancang Situasi Tes
Bentuk tujuan kinerja yang diuraikan dalam Bab 7 berfungsi sebagai dasar untuk situasi pengujian. Akan diingat bahwa lima komponen pernyataan objektif diberikan sebagai (1) situasi, (2) kemampuan belajar, (3) objek, (4) tindakan, dan (5) alat dan kendala. Pernyataan objektif juga menyediakan deskripsi situasi yang akan digunakan dalam pengujian.
Untuk jenis tujuan tertentu dan untuk peserta didik yang tidak terlalu muda, perubahan hanya beberapa kata dapat mengubah pernyataan tujuan menjadi tes. Sebagai contoh, seseorang dapat memberikan tujuan untuk menghasilkan dan mengetik surat kepada pelajar sebagai "arah untuk mengikuti tes." Semua yang dibutuhkan selain akan memasok "surat yang diterima" dan untuk menyediakan mesin tik listrik, kertas tulis, dan kertas karbon. Orang yang melaksanakan tes selanjutnya akan dipengajarankan untuk memastikan lingkungan yang baik (terpantau) dan untuk mencatat dan memanggil "waktu". Untuk tujuan mendemonstrasikan prosedur pembagian pendek, tentang semua yang harus dilakukan oleh administrator ujian (guru) adalah menyediakan ekspresi pembagian dalam bentuk abcld dan menjelaskan di mana para peserta didik diharapkan untuk menulis jawaban mereka.
Maka jelaslah bahwa semakin dekat tujuan mengikuti garis besar yang diberikan dalam Bab 7, semakin sedikit keputusan yang harus dibuat dalam merencanakan tes dan semakin sedikit arahan yang harus diberikan kepada peserta didik. Pernyataan tujuan yang disiapkan untuk penggunaan perancang pengajaran atau guru juga digunakan untuk mendefinisikan sebagian besar situasi ujian bagi peserta didik. Tentu saja, baik tujuan dan item tes yang berasal dari mereka harus disajikan dalam istilah yang lebih sederhana untuk anak-anak, baik untuk menyampaikan kepada mereka tujuan pelajaran atau untuk menguji kinerja mereka setelah pelajaran selesai.
Beberapa Perhatian
Dalam menggunakan tujuan untuk merencanakan tes, beberapa peringatan harus diperhatikan. Semakin tidak lengkap pernyataan tujuan, semakin hati-hati ini mungkin diperlukan karena lebih banyak harus "diisi" dalam bergerak dari tujuan ke situasi pengujian.
Orientasi referensi-objektif untuk penilaian sangat menyederhanakan konsep validitas dalam pengukuran kinerja. Pendekatan penilaian ini menghasilkan ukuran objektif langsung dan bukan langsung. Dengan demikian, ini menghilangkan kebutuhan untuk menghubungkan langkah-langkah yang diperoleh dengan kriteria dengan menggunakan koefisien korelasi, seperti yang biasanya harus dilakukan ketika langkah tidak langsung digunakan atau ketika tes telah dibangun tanpa mengacu pada tujuan kinerja eksplisit. Dengan demikian, seseorang dapat mengatasi masalah validitas tes dengan menjawab pertanyaan ini: "Apakah kinerja yang dibutuhkan selama penilaian kinerja sama dengan yang dijelaskan dalam tujuan?" Jika jawabannya yes yes, maka tes itu valid. Dalam praktiknya, diinginkan lebih dari satu orang untuk membuat penilaian ini dan agar konsistensi diperoleh di antara para hakim ini.
Validitas dipastikan ketika prosedur penilaian menghasilkan pengukuran kinerja yang dijelaskan dalam tujuan. Ini terjadi ketika tes dan tujuan adalah kongruen satu sama lain. Namun, kehati-hatian bisa diselingi di sini. Metode penentuan validitas ini mengasumsikan bahwa pernyataan tujuan itu sendiri valid, dalam arti bahwa pernyataan itu benar-benar mencerminkan tujuan topik atau pelajaran. Prosedur yang dijelaskan untuk menentukan tujuan dalam Bab 7 dimaksudkan untuk memastikan bahwa ini adalah masalahnya. Namun demikian, mungkin ada kebutuhan tambahan untuk memeriksa kembali konsistensi tujuan spesifik dan tujuan yang lebih luas. Terkadang, inkonsistensi menjadi jelas ketika pernyataan tujuan ditransformasikan menjadi tes kinerja peserta didik.
Harus diakui bahwa tes Word digunakan di sini dalam arti umum yang berarti setiap prosedur untuk menilai kinerja yang dijelaskan dalam tujuan. Dengan demikian, penggunaan kata ini dapat mencakup semua bentuk pengujian tertulis dan lisan serta prosedur untuk mengevaluasi produk peserta didik seperti esai, produksi musik, model yang dibuat, atau karya seni. Kami memilih istilah penilaian daripada pengujian prestasi alternatif untuk merujuk pada pengukuran kinerja peserta didik. Istilah yang terakhir ini sering dikaitkan dengan pengukuran yang direferensikan norma, yang akan menjadi subjek diskusi nanti dalam bab ini. Pada titik ini, bagaimanapun, tes dan penilaian digunakan untuk merujuk pada pengukuran kinerja yang dirujuk secara objektif.
Beberapa tujuan kinerja yang diberikan dalam Bab 7 dapat digunakan untuk menggambarkan bagaimana penilaian tentang validitas tes dapat dibuat. Awalnya, kita akan memusatkan perhatian terutama pada dua dari lima bagian dari pernyataan objektif, dua kata kerja yang menggambarkan kemampuan untuk dipelajari dan tindakan yang dilakukan peserta didik dalam menunjukkan kemampuan ini. Kemudian, bagian lain dari tujuan akan terkait dengan penilaian kinerja.
Pertama, perhatikan contoh menghasilkan surat dengan mengetik. Kata menghasilkan adalah petunjuk bahwa dalam situasi ujian peserta didik harus menulis suratnya sendiri daripada mengetik bentuk surat yang berbeda yang disusun oleh orang lain. Jelas bahwa pembelajar harus menggunakan kemampuannya menghasilkan jenis huruf tertentu dalam batasan situasi yang dijelaskan dalam tujuan. Dalam tujuan alternatif yang berkaitan dengan mengetik, pelajar menerima surat tulisan tangan tertulis yang disusun oleh orang lain. Dua tujuan yang berkaitan dengan surat bisnis ini sangat berbeda. Yang satu hanya membutuhkan keterampilan mengetik huruf yang sudah dikomposisikan, sedangkan yang lain membutuhkan kemampuan pemecahan masalah dalam menyusun surat. Dengan demikian, dua domain (keterampilan motorik dan keterampilan intelektual) adalah sampel.
Dalam contoh kedua yang diambil dari Bab 7, peserta didik harus menunjukkan penggunaan aturan dengan memasok faktor yang hilang dalam persamaan. Menyalin nilai yang hilang dari sebuah buku atau mengingat nilai setelah melihat masalah berhasil sebelumnya tidak akan menjadi tes yang valid untuk kemampuan ini. Dalam mendesain tes, kehati-hatian harus diambil untuk menggunakan contoh yang berbeda untuk pengujian daripada yang digunakan untuk mengajar sehingga meminimalkan kemungkinan bahwa respon yang benar dapat diberikan dengan cara apa pun selain proses intelektual yang dimaksud.
Dalam contoh apa pun yang menunjukkan master konsep, pelajar dapat mengidentifikasi konsep tersebut dengan mencetak huruf pertama dari konsep (nama) di tempat kosong. Ini tidak sama dengan menyalin huruf pertama atau mengeja nama konsep.
Ini juga berbeda dari kinerja menjelaskan bagaimana konsep itu dapat digunakan. Setiap atau semua contoh yang terakhir ini mungkin merupakan pertunjukan yang bermanfaat, tetapi mereka tidak mencerminkan maksud dari tujuan, baik mengenai kemampuan yang diperlukan atau tindakan yang menandakan bahwa kemampuan tersebut ada. Latihan untuk menilai validitas item tes dengan membandingkannya dengan tujuan kinerja yang sesuai diberikan oleh Briggs dan Taruhan (1981) dan oleh Dick and Carey (1985).
Merancang Situasi Tes
Bentuk tujuan kinerja yang diuraikan dalam Bab 7 berfungsi sebagai dasar untuk situasi pengujian. Akan diingat bahwa lima komponen pernyataan objektif diberikan sebagai (1) situasi, (2) kemampuan belajar, (3) objek, (4) tindakan, dan (5) alat dan kendala. Pernyataan objektif juga menyediakan deskripsi situasi yang akan digunakan dalam pengujian.
Untuk jenis tujuan tertentu dan untuk peserta didik yang tidak terlalu muda, perubahan hanya beberapa kata dapat mengubah pernyataan tujuan menjadi tes. Sebagai contoh, seseorang dapat memberikan tujuan untuk menghasilkan dan mengetik surat kepada pelajar sebagai "arah untuk mengikuti tes." Semua yang dibutuhkan selain akan memasok "surat yang diterima" dan untuk menyediakan mesin tik listrik, kertas tulis, dan kertas karbon. Orang yang melaksanakan tes selanjutnya akan dipengajarankan untuk memastikan lingkungan yang baik (terpantau) dan untuk mencatat dan memanggil "waktu". Untuk tujuan mendemonstrasikan prosedur pembagian pendek, tentang semua yang harus dilakukan oleh administrator ujian (guru) adalah menyediakan ekspresi pembagian dalam bentuk abcld dan menjelaskan di mana para peserta didik diharapkan untuk menulis jawaban mereka.
Maka jelaslah bahwa semakin dekat tujuan mengikuti garis besar yang diberikan dalam Bab 7, semakin sedikit keputusan yang harus dibuat dalam merencanakan tes dan semakin sedikit arahan yang harus diberikan kepada peserta didik. Pernyataan tujuan yang disiapkan untuk penggunaan perancang pengajaran atau guru juga digunakan untuk mendefinisikan sebagian besar situasi ujian bagi peserta didik. Tentu saja, baik tujuan dan item tes yang berasal dari mereka harus disajikan dalam istilah yang lebih sederhana untuk anak-anak, baik untuk menyampaikan kepada mereka tujuan pelajaran atau untuk menguji kinerja mereka setelah pelajaran selesai.
Beberapa Perhatian
Dalam menggunakan tujuan untuk merencanakan tes, beberapa peringatan harus diperhatikan. Semakin tidak lengkap pernyataan tujuan, semakin hati-hati ini mungkin diperlukan karena lebih banyak harus "diisi" dalam bergerak dari tujuan ke situasi pengujian.
Hindari mengganti kata kerja yang mengubah arti baik kemampuan atau tindakan yang dijelaskan dalam tujuan. Ketika sinonim atau penjelasan yang lebih sederhana diperlukan untuk menerjemahkan tujuan ke dalam tes, penyajian kembali ini harus ditinjau untuk persetujuan dengan maksud tujuan. Perhatian khusus harus diambil untuk tidak mengubah dari jawaban yang harus dikerjakan atau dikembangkan sendiri oleh peserta didik, menjadi jawaban yang harus ia pilih, pilih, atau ingat. Jika sasaran mengatakan "menghasilkan posisi dan pertahanan untuk posisi itu," ia hanya dapat melakukan ini secara lisan atau tertulis-bukan dengan memilih jawaban dari tes pilihan ganda. Menghindari ambiguitas dalam "menebak-nebak" apa arti kata kerja yang kabur dalam tujuan yang dinyatakan buruk dapat dicapai dengan menggunakan kata kerja standar dari Tabel 7-1. Tetapi perhatian yang seksama perlu diberikan untuk memutuskan makna yang tidak ambigu untuk kata kerja seperti meringkas, menggambarkan, membuat daftar, menganalisis, dan menyelesaikan, kecuali kata kerja [ING] menunjukkan tindakan tertentu yang diharapkan. Tinjauan terhadap suatu tujuan dalam istilah-istilah ini terkadang mengungkapkan bahwa tujuan itu sendiri perlu diubah. Dalam hal itu, itu harus diubah sebelum merencanakan pengajaran dan sebelum menggunakan pernyataan baik sebagai tujuan pelajaran atau sebagai bagian dari arahan untuk ujian.
Perubahan pada elemen lain dari tujuan harus dihindari, kecuali jika diperlukan untuk menyederhanakan arahan bagi peserta didik tentang cara mengikuti tes. Artinya, kecuali perubahan yang disengaja dimaksudkan, situasi, objek, dan alat dan kendala lainnya, serta dua kata kerja yang menunjukkan kemampuan dan tindakan, harus kongruen antara tujuan dan tes. Ada kemungkinan bahwa perubahan mungkin sangat bagus untuk membuat panggilan ujian untuk kemampuan yang belum diajarkan peserta didik. Dalam ketidakcocokan "kemungkinan terburuk" antara tujuan dan tes, kemampuan dalam domain yang berbeda dari hasil pembelajaran dapat ditentukan dalam tujuan dan dalam tes. Dalam situasi seperti itu, jika pengajaran harus diarahkan ke tujuan dalam domain ketiga, akan ada ketidaksesuaian maksimum di antara tiga titik jangkar. Mungkin mengungkapkan untuk meminta guru atau desainer, pada tiga kesempatan terpisah, untuk menghasilkan tujuan mereka, ujian mereka, dan rencana pelajaran mereka. Dapat dibayangkan bahwa tujuan-tujuan itu mungkin menuntut "penghargaan" sementara pengajaran itu berisi "fakta-fakta", dan ujian itu menyerukan "penggunaan konsep dan aturan."
Tes tidak boleh dibuat lebih mudah atau lebih sulit daripada tujuan. Istilah-istilah ini tidak perlu masuk ke dalam pengujian varietas yang dirujuk secara objektif. Tujuannya adalah salah satu yang secara akurat mewakili tujuan daripada salah memperkirakan cara membuat tes cukup sulit.
Tes tidak boleh mencoba untuk mencapai rentang skor yang besar atau distribusi skor yang normal. Tujuan dari pengujian semacam itu bukan untuk membedakan peserta didik. Dengan kata lain, pengujian tidak memiliki tujuan untuk menemukan bahwa satu peserta didik mendapat skor lebih tinggi atau lebih rendah dari yang lain. Sebaliknya, tujuannya adalah untuk menemukan tujuan mana yang telah dipelajari kedua peserta didik.
PENGUASAAN KONSEP
Pengenalan gagasan penguasaan hasil belajar (Bloom, 1968) membutuhkan perubahan sudut pandang terhadap pelaksanaan pengajaran serta terhadap penilaiannya. Dalam pengajaran konvensional, baik guru dan peserta didik berharap bahwa hanya beberapa peserta didik yang akan belajar dengan baik untuk menerima nilai A dalam topik atau matapelajaran. Sisanya akan bekerja dengan cukup baik, seperti diwakili oleh C, misalnya, atau mereka akan gagal. Ketika skor tes diplot sebagai distribusi frekuensi, kurva normal terbentuk, dan persentase tertentu dari peserta didik ditugaskan ke berbagai nilai huruf.
Dalam mengomentari dampak dari sistem penilaian ini, Bloom, Hastings, dan Madaus (1971, hlm. 43) mengamati bahwa harapan yang dibangun cenderung untuk memperbaiki tujuan akademik para guru dan peserta didik pada level rendah yang tidak tepat, sehingga mengurangi baik guru maupun peserta didik. motivasi peserta didik. Praktik pendidikan khusus yang menghasilkan efek-efek ini adalah pengajaran "berkelompok", di mana semua peserta didik harus mencoba belajar pada tingkat yang sama dan dengan mode pengajaran yang sama. Ketika kecepatan dan mode ditetapkan, pencapaian masing-masing peserta didik terutama menjadi fungsi dari bakatnya. Tetapi jika kedua mode dan tingkat pengajaran dapat bervariasi di antara peserta didik, kemungkinannya adalah bahwa lebih banyak peserta didik dapat menjadi sukses dalam pembelajaran mereka (Block dan Anderson, 1975).
Lebih mudah untuk membuat sarana dengan mana tingkat pembelajaran dibiarkan bervariasi di antara peserta didik daripada untuk memprediksi mode pembelajaran yang akan paling menguntungkan setiap peserta didik. Dan tentu saja, ada batasan ekonomi dan lainnya-seseorang tidak dapat menyediakan mode yang berbeda untuk peserta didik tunggal sekalipun. Pengajaran yang termodulasi dan terindividualisasi sebagian besar dapat mengatasi masalah laju dan, sampai batas tertentu (ketika bahan atau mode alternatif tersedia), masalah gaya belajar juga. Fitur diagnostik penilaian individual juga memungkinkan untuk membantu peserta didik mengarahkan usahanya dengan benar.
Penguasaan pembelajaran pada dasarnya berarti bahwa jika kondisi yang tepat dapat disediakan, mungkin 90-95 persen peserta didik benar-benar dapat menguasai sebagian besar tujuan sampai tingkat yang sekarang hanya dicapai oleh "peserta didik yang baik." Dengan demikian, konsep pembelajaran penguasaan meninggalkan gagasan bahwa peserta didik hanya belajar lebih banyak atau kurang baik. Alih-alih, suatu upaya dilakukan untuk mencari tahu mengapa peserta didik gagal meraih gelar master dan memperbaiki situasi untuk peserta didik tersebut. Penyelesaian masalah pembelajaran oleh seorang peserta didik biasanya membutuhkan salah satu dari langkah-langkah berikut: (1) lebih banyak waktu untuk belajar, (2) media atau bahan yang berbeda, atau (3) diagnosis untuk menentukan pengetahuan atau keterampilan apa yang hilang yang harus dia peroleh untuk memperoleh kuasai tujuannya. Dalam konteks ini, pengetahuan pribadi guru dapat ditambahkan untuk membentuk keputusan mengenai peserta didik yang kinerjanya luar biasa bahkan ketika metode ini telah sepenuhnya digunakan. Tujuan umum yang tersirat oleh gagasan penguasaan mencakup resolusi untuk menyediakan bahan dan kondisi yang dengannya sebagian besar peserta didik dapat berhasil di sebagian besar tugas, dalam program yang masuk akal untuk setiap individu.
Menentukan Kriteria Penguasaan
Bagaimana itu bisa diketahui ketika seorang peserta didik telah melakukan penguasaan yang memuaskan atau mencapai pada tes yang berlaku untuk tujuan tertentu? Peserta didik perlu diberi tahu bahwa dia berhasil sehingga dia kemudian dapat melanjutkan bekerja untuk mencapai tujuan berikutnya yang dia pilih atau telah tetapkan kepadanya. Jika dia belum berhasil mencapai tujuan, guru perlu menentukan pengajaran perbaikan yang diperlukan.
Keputusan perbaikan untuk tujuan dalam domain keterampilan intelektual dapat dibuat dengan cara memberikan tes diagnostik atas kemampuan yang berada di bawah tujuan. Dalam kasus lain, guru dapat menggunakan metode pengujian lisan untuk mengetahui di mana dalam urutan pengajaran kegagalan untuk belajar pertama kali dimulai. Ketika pengajaran individual, pelajaran individu sering termasuk tes diagnostik seperti pada kemampuan bawahan. Untuk pelajar lambat yang dikenal, tes diagnostik kompetensi bawahan semacam itu dapat digunakan sebagai penilaian kinerja sehingga pelajar diketahui telah menguasai setiap kemampuan sebelum ia melanjutkan ke yang berikutnya. Prosedur ini mendeteksi kegagalan kecil sebelum terakumulasi menjadi kegagalan besar seluruh pelajaran, topik, atau matapelajaran. Tentu saja, penggunaan pengujian yang sering dan konsisten seringkali dapat mencegah kegagalan tahun demi tahun atau, paling tidak, mengingatkan sekolah lebih awal akan perlunya menilai kembali program untuk peserta didik tertentu.
Ketika penguasaan didefinisikan untuk tes menilai kinerja pada suatu tujuan, ini juga mendefinisikan kriteria keberhasilan untuk tujuan itu. Langkah pertama adalah menentukan seberapa baik pelajar harus melakukan tes untuk menunjukkan keberhasilan tujuan itu. Kemudian, sebuah catatan dibuat dari busur banyak peserta didik telah mencapai kriteria (penguasaan). Ini memungkinkan untuk memutuskan apakah pengajaran untuk tujuan tersebut telah mencapai tujuan desainnya. Kemudian, pada akhir seluruh matapelajaran, persentase peserta didik yang mencapai kriteria penguasaan semua tujuan (atau persentase tertentu dari tujuan) dapat dihitung. Dari data tersebut, seseorang dapat menentukan apakah kriteria desain mata kuliah telah dipenuhi. Kriteria desain matapelajaran yang sering digunakan adalah bahwa 90 persen peserta didik mencapai penguasaan 90 persen dari tujuan, tetapi persentase lain dari ini tentu saja dapat digunakan. Kadang-kadang, tiga kriteria desain ditetapkan, dengan satu menunjukkan keberhasilan yang dapat diterima minimal, dan yang lainnya mewakili tingkat keberhasilan yang lebih tinggi. Secara umum, cara ini mewakili kriteria desain matapelajaran dapat digunakan untuk memberikan akuntabilitas untuk kinerja peserta didik mengikuti pengajaran.
Administrasi tes yang berlaku untuk tujuan matapelajaran dan definisi tingkat penguasaan untuk setiap tujuan menyediakan sarana untuk mengevaluasi matapelajaran itu sendiri dan kinerja masing-masing peserta didik. Dengan demikian, peserta didik dapat dipromosikan berdasarkan tes tersebut, dan hasil tes dapat digunakan dalam evaluasi formatif matapelajaran, menunjukkan di mana revisi diperlukan, jika ada (lihat Bab 16). Kemampuan bawaan untuk peningkatan matapelajaran ini tidak hanya kompatibel dengan standar promosi yang adil bagi peserta didik, tetapi juga dengan individualisasi pengajaran dan dengan pengembangan dan evaluasi seluruh sistem pengajaran.
Meskipun tindakan mendefinisikan penguasaan pada setiap tujuan, ketika tes referensi yang objektif digunakan, dimaksudkan terutama untuk tujuan memantau kemajuan peserta didik dan untuk menemukan seberapa sukses matapelajaran, data dari tes yang sama dapat digunakan untuk menetapkan nilai ketika itu adalah dibutuhkan oleh sekolah.
KRITERIA UNTUK PENILAIAN TUJUAN-REFERENSI
Pertanyaan yang akan dibahas selanjutnya menyangkut masalah menentukan kriteria penguasaan untuk setiap jenis tujuan pembelajaran. Prosedur khas untuk setiap domain hasil pembelajaran dijelaskan pada bagian berikut. Prosedur yang dijelaskan lebih luas untuk pengujian yang mengacu pada kriteria dapat ditemukan dalam Berk (1984).
Tujuan Kecakapan Intelektual
Pemecahan Masalah
Sebagai ilustrasi kriteria untuk menilai kinerja untuk jenis hasil pembelajaran ini, kami mulai dengan tujuan untuk memperoleh kemampuan dalam pemecahan masalah, dijelaskan secara singkat pada Tabel 7-1. Pernyataan tujuan ini adalah "menghasilkan, dengan mensintesis aturan yang berlaku, sebuah paragraf yang menggambarkan tindakan seseorang dalam situasi ketakutan."
Untuk menilai paragraf yang dapat diterima, daftar fitur yang harus disertakan paragraf akan disiapkan. Untuk tujuan seperti ini, tidak ada kunci kata demi kata yang mungkin, dan penilaian mekanis tampaknya tidak mungkin dilakukan. Karena tidak ada persyaratan tata bahasa yang tercakup dalam pernyataan tujuan yang disingkat ini, dapat diasumsikan bahwa deskripsi yang memadai tidak perlu bebas dari kesalahan dalam tata bahasa dan tanda baca. Jika beberapa guru menggunakan tujuan yang sama, mereka mungkin bekerja bersama untuk menentukan kriteria penilaian dan menyepakati berapa banyak tindakan yang harus dijelaskan dan aspek ketakutan apa yang harus dimasukkan. Jumlah minimum aturan yang akan disintesis dalam solusi dapat disepakati, dengan penerapan beberapa peraturan menjadi wajib dan yang lainnya opsional.
Tes untuk tujuan penyelesaian masalah tidak didasarkan pada penilaian seperti "8 dari 10 pertanyaan yang benar." Kriteria yang akan digunakan mungkin bersifat kualitatif dan kuantitatif. Apa pun yang berisi daftar periksa untuk penilaian, penerapannya akan memerlukan penilaian, bukan pemeriksaan ulama atas jawaban dengan kunci jawaban. Akibatnya, tingkat kesepakatan di antara para guru dalam menerapkan daftar periksa untuk menentukan paragraf yang dapat diterima atau tidak dapat diterima adalah faktor yang relevan dalam menentukan keandalan ukuran kinerja yang diperoleh. Kriteria yang digunakan untuk menilai kinerja seperti itu mungkin (1) ekspresi wajah, (2) reaksi tubuh, dan (3) dua pernyataan aturan yang mengatur ekspresi emosi dalam perilaku.
Belajar Aturan
Untuk mempelajari aturan, contoh yang diberikan pada Tabel 7-1 adalah "menunjukkan, dengan memecahkan contoh yang dinyatakan secara verbal, penambahan angka positif dan negatif." Untuk memeriksa masalah kriteria kinerja lebih tepat, kita perlu mulai dengan versi yang diperluas dari tujuan ini: "Diberikan contoh yang dinyatakan secara verbal yang melibatkan variabel fisik yang bervariasi pada rentang nilai positif dan negatif, menunjukkan penambahan nilai-nilai ini dengan menulis yang sesuai ekspresi matematika menghasilkan jumlah mereka. " Jelas, pernyataan yang lebih lengkap ini menambah spesifikasi situasi dan, oleh karena itu, ke perumusan item tes yang memadai. Barang seperti itu, misalnya, mungkin mengatakan, 'Suhu di Greenland pada suatu hari adalah 17° C selama sehari dan menurun 57° pada malam hari. Berapa suhu malam hari? "
Dengan demikian, bagian situasi dari pernyataan objektif mendefinisikan kelas situasi dari mana item tes khusus harus diambil. Misalkan tujuannya adalah "Diberikan pernyataan verbal yang mendefinisikan nilai panjang dan lebar wajah objek yang berbentuk persegi panjang, peserta didik menemukan area wajah." Dari pernyataan seperti itu, item seperti berikut ini dapat dengan mudah diturunkan: "Sebuah kotak top dengan panjang 120 cm dan lebar 47 cm; berapa luasnya?" Dapat dicatat bahwa pernyataan tujuan dalam kasus ini menyiratkan bahwa kinerja akan dipastikan dalam situasi termasuk pernyataan verbal masalah. Pernyataan awal yang berbeda, "Diberikan diagram segi empat dengan nilai panjang dan lebar ditunjukkan ..." tentu saja akan menyiratkan bentuk item tes yang berbeda.
Keputusan yang tersisa berkaitan dengan kriteria pengukuran kinerja harus dilakukan dengan pertanyaan tentang berapa banyak item untuk dipekerjakan. Jelas, tujuannya adalah untuk mencapai ukuran asli "dikuasai" versus "tidak dikuasai." Mungkin perlu ditentukan secara empiris berapa banyak item yang harus digunakan untuk membuat keputusan seperti itu dengan benar. Dengan konvensi, 10 atau 20 item mungkin dianggap perlu sebagai sejumlah contoh untuk ujian pembelajaran aturan aritmatika. Namun, Lathrop (1983) telah menunjukkan bahwa, dengan menggunakan beberapa asumsi yang masuk akal dari analisis sekuensial (Wald, 1947), keputusan tentang penguasaan dan nonmasteri dapat dibuat berdasarkan urutan sedikitnya tiga item yang benar. Tujuan menggunakan banyak contoh adalah terutama untuk menghindari kesalahan pengukuran, yang mungkin timbul karena satu atau lebih fitur istimewa yang tidak diinginkan dari satu item. Prosedur tambahan untuk menentukan panjang tes yang diinginkan dijelaskan dalam buku yang diedit oleh Berk (1984).
Konsep yang Didefinisikan
Untuk memperoleh ilustrasi kriteria kinerja untuk pengukuran konsep yang didefinisikan, contoh objektif berikut dapat digunakan: "Diberikan gambar pengamat di Bumi dan langit di atas, mengklasifikasikan zenith sebagai titik di langit secara vertikal di atas pengamat. " Sekali lagi, jelaslah bahwa situasi yang dijelaskan dalam pernyataan ini dapat langsung direpresentasikan dalam bentuk butir soal. Misalnya, benda semacam itu mungkin pertama kali menggambarkan (dalam diagram berlabel) Bumi, langit, dan pengamat yang berdiri di Bumi. Selanjutnya, bisa dikatakan: "Tunjukkan dengan diagram sudut lokasi zenith." Sebagai jawaban, peserta didik akan menggambar garis vertikal yang menunjuk dari pengamat ke langit, menunjukkan bahwa ia membuat sudut 90 ° dengan permukaan bumi pada titik di mana pengamat berada, dan memberi label titik di langit tempat garis diarahkan sebagai puncaknya.
Item jenis ini tidak akan sangat tergantung pada kemampuan verbal peserta didik dan mungkin merupakan bentuk pengukuran yang diinginkan karena alasan itu. Atau, asalkan Anda dapat mengasumsikan fasilitas verbal peserta didik, item mungkin didasarkan pada tujuan yang dinyatakan berbeda, sebagai berikut: "Diminta untuk mendefinisikan, mengklasifikasikan zenith sebagai titik di langit secara vertikal (atau 90° ke permukaan) di atas pengamat di Bumi dengan menyatakan definisi secara lisan. " Jelaslah bahwa pengukuran dalam kasus ini tunduk pada distorsi. Kecuali seseorang sepenuhnya yakin bahwa peserta didik telah menguasai konsep-konsep bawahan (Bumi, langit, pengamat, 90°), respons yang dihasilkan peserta didik mungkin harus ditafsirkan sebagai verbalisasi yang dihafalkan. Namun demikian, perlu dicatat bahwa pernyataan verbal (lebih disukai dalam kata-kata pembelajar sendiri) sering digunakan sebagai kriteria untuk penilaian konsep yang didefinisikan.
Konsep Konkret
Penilaian pembelajaran konsep konkret melibatkan pembangunan item dari pernyataan objektif seperti berikut: "Diberikan lima tanaman umum dan diminta untuk menyebutkan bagian-bagian utama, mengidentifikasi untuk masing-masing akar, daun, dan batang dengan menunjuk masing-masing sambil menyebutkannya. " Agar penilaian seperti itu dilakukan, peserta didik akan diberikan lima tanaman yang diletakkan di atas meja dan, sebagai jawaban atas pertanyaan guru, akan menunjuk dan menyebutkan akar, daun, dan batang untuk setiap tanaman. Tentu saja, tujuan dengan pernyataan situasi yang agak berbeda akan menyebabkan perbedaan yang sesuai dalam item tes. Misalnya, pernyataan objektif: "Diberikan gambar lima tanaman umum, identifikasi akar, daun, dan batang masing-masing dengan menempatkan label bertuliskan nama-nama ini di seberang bagian yang sesuai," menyiratkan jenis barang tes yang berbeda. Sedangkan contoh hanya mengasumsikan bahwa respons lisan root, daun, dan batang dapat dibuat tanpa kesalahan, contoh terakhir memerlukan asumsi bahwa label yang mengandung kata-kata ini dapat dibaca.
Contoh sederhana penilaian untuk konsep beton diberikan oleh tugas mengidentifikasi bentuk geometris yang sama, karena dapat terjadi pada kelas awal. Pernyataan objektif mungkin berbunyi: "Diberikan seperangkat bentuk geometris umum dan arah lisan 'tunjukkan saya lingkaran,' mengidentifikasi lingkaran dengan menunjuk." Dari pernyataan ini, item penilaian dapat diturunkan yang melibatkan memberikan peserta didik selembar kertas di mana angka-angka seperti berikut muncul:
Setelah diberi arahan lisan, "Tunjuklah pada masing-masing yang merupakan lingkaran," peserta didik akan membuat respons yang sesuai untuk masing-masing tokoh lingkaran dan tidak kepada tokoh-tokoh lain untuk dihitung sebagai telah mencapai konsep.
Perbedaan
Menilai perbedaan memerlukan presentasi rangsangan yang ditanggapi oleh pembelajar dengan cara yang menunjukkan sama atau berbeda. Contoh pada Tabel 7-1 adalah "mendiskriminasi, dengan mencocokkan bunyi Prancis u dan ou." Untuk mewakili tujuan ini sebagai item uji, akan perlu untuk menyajikan bunyi sejumlah suku kata Perancis atau kata-kata yang mengandung vokal-vokal ini. (seperti dalam rue dan roux) dan minta indikasi yang sama atau berbeda oleh peserta didik.
Contoh perbedaan visual akan diberikan oleh barang-barang yang menampilkan angka-angka seperti berikut ini untuk dicocokkan dengan model:
Tes tidak boleh dibuat lebih mudah atau lebih sulit daripada tujuan. Istilah-istilah ini tidak perlu masuk ke dalam pengujian varietas yang dirujuk secara objektif. Tujuannya adalah salah satu yang secara akurat mewakili tujuan daripada salah memperkirakan cara membuat tes cukup sulit.
Tes tidak boleh mencoba untuk mencapai rentang skor yang besar atau distribusi skor yang normal. Tujuan dari pengujian semacam itu bukan untuk membedakan peserta didik. Dengan kata lain, pengujian tidak memiliki tujuan untuk menemukan bahwa satu peserta didik mendapat skor lebih tinggi atau lebih rendah dari yang lain. Sebaliknya, tujuannya adalah untuk menemukan tujuan mana yang telah dipelajari kedua peserta didik.
PENGUASAAN KONSEP
Pengenalan gagasan penguasaan hasil belajar (Bloom, 1968) membutuhkan perubahan sudut pandang terhadap pelaksanaan pengajaran serta terhadap penilaiannya. Dalam pengajaran konvensional, baik guru dan peserta didik berharap bahwa hanya beberapa peserta didik yang akan belajar dengan baik untuk menerima nilai A dalam topik atau matapelajaran. Sisanya akan bekerja dengan cukup baik, seperti diwakili oleh C, misalnya, atau mereka akan gagal. Ketika skor tes diplot sebagai distribusi frekuensi, kurva normal terbentuk, dan persentase tertentu dari peserta didik ditugaskan ke berbagai nilai huruf.
Dalam mengomentari dampak dari sistem penilaian ini, Bloom, Hastings, dan Madaus (1971, hlm. 43) mengamati bahwa harapan yang dibangun cenderung untuk memperbaiki tujuan akademik para guru dan peserta didik pada level rendah yang tidak tepat, sehingga mengurangi baik guru maupun peserta didik. motivasi peserta didik. Praktik pendidikan khusus yang menghasilkan efek-efek ini adalah pengajaran "berkelompok", di mana semua peserta didik harus mencoba belajar pada tingkat yang sama dan dengan mode pengajaran yang sama. Ketika kecepatan dan mode ditetapkan, pencapaian masing-masing peserta didik terutama menjadi fungsi dari bakatnya. Tetapi jika kedua mode dan tingkat pengajaran dapat bervariasi di antara peserta didik, kemungkinannya adalah bahwa lebih banyak peserta didik dapat menjadi sukses dalam pembelajaran mereka (Block dan Anderson, 1975).
Lebih mudah untuk membuat sarana dengan mana tingkat pembelajaran dibiarkan bervariasi di antara peserta didik daripada untuk memprediksi mode pembelajaran yang akan paling menguntungkan setiap peserta didik. Dan tentu saja, ada batasan ekonomi dan lainnya-seseorang tidak dapat menyediakan mode yang berbeda untuk peserta didik tunggal sekalipun. Pengajaran yang termodulasi dan terindividualisasi sebagian besar dapat mengatasi masalah laju dan, sampai batas tertentu (ketika bahan atau mode alternatif tersedia), masalah gaya belajar juga. Fitur diagnostik penilaian individual juga memungkinkan untuk membantu peserta didik mengarahkan usahanya dengan benar.
Penguasaan pembelajaran pada dasarnya berarti bahwa jika kondisi yang tepat dapat disediakan, mungkin 90-95 persen peserta didik benar-benar dapat menguasai sebagian besar tujuan sampai tingkat yang sekarang hanya dicapai oleh "peserta didik yang baik." Dengan demikian, konsep pembelajaran penguasaan meninggalkan gagasan bahwa peserta didik hanya belajar lebih banyak atau kurang baik. Alih-alih, suatu upaya dilakukan untuk mencari tahu mengapa peserta didik gagal meraih gelar master dan memperbaiki situasi untuk peserta didik tersebut. Penyelesaian masalah pembelajaran oleh seorang peserta didik biasanya membutuhkan salah satu dari langkah-langkah berikut: (1) lebih banyak waktu untuk belajar, (2) media atau bahan yang berbeda, atau (3) diagnosis untuk menentukan pengetahuan atau keterampilan apa yang hilang yang harus dia peroleh untuk memperoleh kuasai tujuannya. Dalam konteks ini, pengetahuan pribadi guru dapat ditambahkan untuk membentuk keputusan mengenai peserta didik yang kinerjanya luar biasa bahkan ketika metode ini telah sepenuhnya digunakan. Tujuan umum yang tersirat oleh gagasan penguasaan mencakup resolusi untuk menyediakan bahan dan kondisi yang dengannya sebagian besar peserta didik dapat berhasil di sebagian besar tugas, dalam program yang masuk akal untuk setiap individu.
Menentukan Kriteria Penguasaan
Bagaimana itu bisa diketahui ketika seorang peserta didik telah melakukan penguasaan yang memuaskan atau mencapai pada tes yang berlaku untuk tujuan tertentu? Peserta didik perlu diberi tahu bahwa dia berhasil sehingga dia kemudian dapat melanjutkan bekerja untuk mencapai tujuan berikutnya yang dia pilih atau telah tetapkan kepadanya. Jika dia belum berhasil mencapai tujuan, guru perlu menentukan pengajaran perbaikan yang diperlukan.
Keputusan perbaikan untuk tujuan dalam domain keterampilan intelektual dapat dibuat dengan cara memberikan tes diagnostik atas kemampuan yang berada di bawah tujuan. Dalam kasus lain, guru dapat menggunakan metode pengujian lisan untuk mengetahui di mana dalam urutan pengajaran kegagalan untuk belajar pertama kali dimulai. Ketika pengajaran individual, pelajaran individu sering termasuk tes diagnostik seperti pada kemampuan bawahan. Untuk pelajar lambat yang dikenal, tes diagnostik kompetensi bawahan semacam itu dapat digunakan sebagai penilaian kinerja sehingga pelajar diketahui telah menguasai setiap kemampuan sebelum ia melanjutkan ke yang berikutnya. Prosedur ini mendeteksi kegagalan kecil sebelum terakumulasi menjadi kegagalan besar seluruh pelajaran, topik, atau matapelajaran. Tentu saja, penggunaan pengujian yang sering dan konsisten seringkali dapat mencegah kegagalan tahun demi tahun atau, paling tidak, mengingatkan sekolah lebih awal akan perlunya menilai kembali program untuk peserta didik tertentu.
Ketika penguasaan didefinisikan untuk tes menilai kinerja pada suatu tujuan, ini juga mendefinisikan kriteria keberhasilan untuk tujuan itu. Langkah pertama adalah menentukan seberapa baik pelajar harus melakukan tes untuk menunjukkan keberhasilan tujuan itu. Kemudian, sebuah catatan dibuat dari busur banyak peserta didik telah mencapai kriteria (penguasaan). Ini memungkinkan untuk memutuskan apakah pengajaran untuk tujuan tersebut telah mencapai tujuan desainnya. Kemudian, pada akhir seluruh matapelajaran, persentase peserta didik yang mencapai kriteria penguasaan semua tujuan (atau persentase tertentu dari tujuan) dapat dihitung. Dari data tersebut, seseorang dapat menentukan apakah kriteria desain mata kuliah telah dipenuhi. Kriteria desain matapelajaran yang sering digunakan adalah bahwa 90 persen peserta didik mencapai penguasaan 90 persen dari tujuan, tetapi persentase lain dari ini tentu saja dapat digunakan. Kadang-kadang, tiga kriteria desain ditetapkan, dengan satu menunjukkan keberhasilan yang dapat diterima minimal, dan yang lainnya mewakili tingkat keberhasilan yang lebih tinggi. Secara umum, cara ini mewakili kriteria desain matapelajaran dapat digunakan untuk memberikan akuntabilitas untuk kinerja peserta didik mengikuti pengajaran.
Administrasi tes yang berlaku untuk tujuan matapelajaran dan definisi tingkat penguasaan untuk setiap tujuan menyediakan sarana untuk mengevaluasi matapelajaran itu sendiri dan kinerja masing-masing peserta didik. Dengan demikian, peserta didik dapat dipromosikan berdasarkan tes tersebut, dan hasil tes dapat digunakan dalam evaluasi formatif matapelajaran, menunjukkan di mana revisi diperlukan, jika ada (lihat Bab 16). Kemampuan bawaan untuk peningkatan matapelajaran ini tidak hanya kompatibel dengan standar promosi yang adil bagi peserta didik, tetapi juga dengan individualisasi pengajaran dan dengan pengembangan dan evaluasi seluruh sistem pengajaran.
Meskipun tindakan mendefinisikan penguasaan pada setiap tujuan, ketika tes referensi yang objektif digunakan, dimaksudkan terutama untuk tujuan memantau kemajuan peserta didik dan untuk menemukan seberapa sukses matapelajaran, data dari tes yang sama dapat digunakan untuk menetapkan nilai ketika itu adalah dibutuhkan oleh sekolah.
KRITERIA UNTUK PENILAIAN TUJUAN-REFERENSI
Pertanyaan yang akan dibahas selanjutnya menyangkut masalah menentukan kriteria penguasaan untuk setiap jenis tujuan pembelajaran. Prosedur khas untuk setiap domain hasil pembelajaran dijelaskan pada bagian berikut. Prosedur yang dijelaskan lebih luas untuk pengujian yang mengacu pada kriteria dapat ditemukan dalam Berk (1984).
Tujuan Kecakapan Intelektual
Pemecahan Masalah
Sebagai ilustrasi kriteria untuk menilai kinerja untuk jenis hasil pembelajaran ini, kami mulai dengan tujuan untuk memperoleh kemampuan dalam pemecahan masalah, dijelaskan secara singkat pada Tabel 7-1. Pernyataan tujuan ini adalah "menghasilkan, dengan mensintesis aturan yang berlaku, sebuah paragraf yang menggambarkan tindakan seseorang dalam situasi ketakutan."
Untuk menilai paragraf yang dapat diterima, daftar fitur yang harus disertakan paragraf akan disiapkan. Untuk tujuan seperti ini, tidak ada kunci kata demi kata yang mungkin, dan penilaian mekanis tampaknya tidak mungkin dilakukan. Karena tidak ada persyaratan tata bahasa yang tercakup dalam pernyataan tujuan yang disingkat ini, dapat diasumsikan bahwa deskripsi yang memadai tidak perlu bebas dari kesalahan dalam tata bahasa dan tanda baca. Jika beberapa guru menggunakan tujuan yang sama, mereka mungkin bekerja bersama untuk menentukan kriteria penilaian dan menyepakati berapa banyak tindakan yang harus dijelaskan dan aspek ketakutan apa yang harus dimasukkan. Jumlah minimum aturan yang akan disintesis dalam solusi dapat disepakati, dengan penerapan beberapa peraturan menjadi wajib dan yang lainnya opsional.
Tes untuk tujuan penyelesaian masalah tidak didasarkan pada penilaian seperti "8 dari 10 pertanyaan yang benar." Kriteria yang akan digunakan mungkin bersifat kualitatif dan kuantitatif. Apa pun yang berisi daftar periksa untuk penilaian, penerapannya akan memerlukan penilaian, bukan pemeriksaan ulama atas jawaban dengan kunci jawaban. Akibatnya, tingkat kesepakatan di antara para guru dalam menerapkan daftar periksa untuk menentukan paragraf yang dapat diterima atau tidak dapat diterima adalah faktor yang relevan dalam menentukan keandalan ukuran kinerja yang diperoleh. Kriteria yang digunakan untuk menilai kinerja seperti itu mungkin (1) ekspresi wajah, (2) reaksi tubuh, dan (3) dua pernyataan aturan yang mengatur ekspresi emosi dalam perilaku.
Belajar Aturan
Untuk mempelajari aturan, contoh yang diberikan pada Tabel 7-1 adalah "menunjukkan, dengan memecahkan contoh yang dinyatakan secara verbal, penambahan angka positif dan negatif." Untuk memeriksa masalah kriteria kinerja lebih tepat, kita perlu mulai dengan versi yang diperluas dari tujuan ini: "Diberikan contoh yang dinyatakan secara verbal yang melibatkan variabel fisik yang bervariasi pada rentang nilai positif dan negatif, menunjukkan penambahan nilai-nilai ini dengan menulis yang sesuai ekspresi matematika menghasilkan jumlah mereka. " Jelas, pernyataan yang lebih lengkap ini menambah spesifikasi situasi dan, oleh karena itu, ke perumusan item tes yang memadai. Barang seperti itu, misalnya, mungkin mengatakan, 'Suhu di Greenland pada suatu hari adalah 17° C selama sehari dan menurun 57° pada malam hari. Berapa suhu malam hari? "
Dengan demikian, bagian situasi dari pernyataan objektif mendefinisikan kelas situasi dari mana item tes khusus harus diambil. Misalkan tujuannya adalah "Diberikan pernyataan verbal yang mendefinisikan nilai panjang dan lebar wajah objek yang berbentuk persegi panjang, peserta didik menemukan area wajah." Dari pernyataan seperti itu, item seperti berikut ini dapat dengan mudah diturunkan: "Sebuah kotak top dengan panjang 120 cm dan lebar 47 cm; berapa luasnya?" Dapat dicatat bahwa pernyataan tujuan dalam kasus ini menyiratkan bahwa kinerja akan dipastikan dalam situasi termasuk pernyataan verbal masalah. Pernyataan awal yang berbeda, "Diberikan diagram segi empat dengan nilai panjang dan lebar ditunjukkan ..." tentu saja akan menyiratkan bentuk item tes yang berbeda.
Keputusan yang tersisa berkaitan dengan kriteria pengukuran kinerja harus dilakukan dengan pertanyaan tentang berapa banyak item untuk dipekerjakan. Jelas, tujuannya adalah untuk mencapai ukuran asli "dikuasai" versus "tidak dikuasai." Mungkin perlu ditentukan secara empiris berapa banyak item yang harus digunakan untuk membuat keputusan seperti itu dengan benar. Dengan konvensi, 10 atau 20 item mungkin dianggap perlu sebagai sejumlah contoh untuk ujian pembelajaran aturan aritmatika. Namun, Lathrop (1983) telah menunjukkan bahwa, dengan menggunakan beberapa asumsi yang masuk akal dari analisis sekuensial (Wald, 1947), keputusan tentang penguasaan dan nonmasteri dapat dibuat berdasarkan urutan sedikitnya tiga item yang benar. Tujuan menggunakan banyak contoh adalah terutama untuk menghindari kesalahan pengukuran, yang mungkin timbul karena satu atau lebih fitur istimewa yang tidak diinginkan dari satu item. Prosedur tambahan untuk menentukan panjang tes yang diinginkan dijelaskan dalam buku yang diedit oleh Berk (1984).
Konsep yang Didefinisikan
Untuk memperoleh ilustrasi kriteria kinerja untuk pengukuran konsep yang didefinisikan, contoh objektif berikut dapat digunakan: "Diberikan gambar pengamat di Bumi dan langit di atas, mengklasifikasikan zenith sebagai titik di langit secara vertikal di atas pengamat. " Sekali lagi, jelaslah bahwa situasi yang dijelaskan dalam pernyataan ini dapat langsung direpresentasikan dalam bentuk butir soal. Misalnya, benda semacam itu mungkin pertama kali menggambarkan (dalam diagram berlabel) Bumi, langit, dan pengamat yang berdiri di Bumi. Selanjutnya, bisa dikatakan: "Tunjukkan dengan diagram sudut lokasi zenith." Sebagai jawaban, peserta didik akan menggambar garis vertikal yang menunjuk dari pengamat ke langit, menunjukkan bahwa ia membuat sudut 90 ° dengan permukaan bumi pada titik di mana pengamat berada, dan memberi label titik di langit tempat garis diarahkan sebagai puncaknya.
Item jenis ini tidak akan sangat tergantung pada kemampuan verbal peserta didik dan mungkin merupakan bentuk pengukuran yang diinginkan karena alasan itu. Atau, asalkan Anda dapat mengasumsikan fasilitas verbal peserta didik, item mungkin didasarkan pada tujuan yang dinyatakan berbeda, sebagai berikut: "Diminta untuk mendefinisikan, mengklasifikasikan zenith sebagai titik di langit secara vertikal (atau 90° ke permukaan) di atas pengamat di Bumi dengan menyatakan definisi secara lisan. " Jelaslah bahwa pengukuran dalam kasus ini tunduk pada distorsi. Kecuali seseorang sepenuhnya yakin bahwa peserta didik telah menguasai konsep-konsep bawahan (Bumi, langit, pengamat, 90°), respons yang dihasilkan peserta didik mungkin harus ditafsirkan sebagai verbalisasi yang dihafalkan. Namun demikian, perlu dicatat bahwa pernyataan verbal (lebih disukai dalam kata-kata pembelajar sendiri) sering digunakan sebagai kriteria untuk penilaian konsep yang didefinisikan.
Konsep Konkret
Penilaian pembelajaran konsep konkret melibatkan pembangunan item dari pernyataan objektif seperti berikut: "Diberikan lima tanaman umum dan diminta untuk menyebutkan bagian-bagian utama, mengidentifikasi untuk masing-masing akar, daun, dan batang dengan menunjuk masing-masing sambil menyebutkannya. " Agar penilaian seperti itu dilakukan, peserta didik akan diberikan lima tanaman yang diletakkan di atas meja dan, sebagai jawaban atas pertanyaan guru, akan menunjuk dan menyebutkan akar, daun, dan batang untuk setiap tanaman. Tentu saja, tujuan dengan pernyataan situasi yang agak berbeda akan menyebabkan perbedaan yang sesuai dalam item tes. Misalnya, pernyataan objektif: "Diberikan gambar lima tanaman umum, identifikasi akar, daun, dan batang masing-masing dengan menempatkan label bertuliskan nama-nama ini di seberang bagian yang sesuai," menyiratkan jenis barang tes yang berbeda. Sedangkan contoh hanya mengasumsikan bahwa respons lisan root, daun, dan batang dapat dibuat tanpa kesalahan, contoh terakhir memerlukan asumsi bahwa label yang mengandung kata-kata ini dapat dibaca.
Contoh sederhana penilaian untuk konsep beton diberikan oleh tugas mengidentifikasi bentuk geometris yang sama, karena dapat terjadi pada kelas awal. Pernyataan objektif mungkin berbunyi: "Diberikan seperangkat bentuk geometris umum dan arah lisan 'tunjukkan saya lingkaran,' mengidentifikasi lingkaran dengan menunjuk." Dari pernyataan ini, item penilaian dapat diturunkan yang melibatkan memberikan peserta didik selembar kertas di mana angka-angka seperti berikut muncul:
Setelah diberi arahan lisan, "Tunjuklah pada masing-masing yang merupakan lingkaran," peserta didik akan membuat respons yang sesuai untuk masing-masing tokoh lingkaran dan tidak kepada tokoh-tokoh lain untuk dihitung sebagai telah mencapai konsep.
Perbedaan
Menilai perbedaan memerlukan presentasi rangsangan yang ditanggapi oleh pembelajar dengan cara yang menunjukkan sama atau berbeda. Contoh pada Tabel 7-1 adalah "mendiskriminasi, dengan mencocokkan bunyi Prancis u dan ou." Untuk mewakili tujuan ini sebagai item uji, akan perlu untuk menyajikan bunyi sejumlah suku kata Perancis atau kata-kata yang mengandung vokal-vokal ini. (seperti dalam rue dan roux) dan minta indikasi yang sama atau berbeda oleh peserta didik.
Contoh perbedaan visual akan diberikan oleh barang-barang yang menampilkan angka-angka seperti berikut ini untuk dicocokkan dengan model:
Arahan untuk item semacam ini adalah "Lingkari sosok atau angka yang cocok dengan model." Dapat dicatat bahwa tugas-tugas diskriminasi adalah murni perseptual; mereka tidak mengharuskan pelajar memberi nama stimulus atau mengidentifikasi atributnya. Yang dinilai hanyalah mempersepsikan perbedaan atau tidak ada perbedaan.
Strategi Kognitif
Berbeda dengan teknik penilaian untuk keterampilan intelektual, indikator strategi kognitif agak tidak langsung dan sering membutuhkan rantai inferensi yang lebih lama. Misalnya, jika strategi Tabel 7-1, "mengadopsi bayangan peta AS untuk mengingat nama-nama negara bagian," digunakan, kinerja yang diamati akan menjadi daftar negara bagian. Namun, daftar seperti itu dapat diberikan oleh pelajar yang menggunakan strategi kognitif yang sangat berbeda, mungkin yang kurang efisien (seperti strategi melaporkan negara secara sistematis dengan huruf awal dari nama mereka). Dengan demikian, kinerja dengan sendirinya gagal untuk menunjukkan adopsi dan penggunaan strategi tertentu. Penilaian strategi pencitraan akan membutuhkan pengamatan tambahan bahwa negara-negara tersebut disebutkan dalam urutan yang menunjukkan lokasi regional dan juga bahwa strategi ini menghasilkan kinerja yang efisien.
Beberapa strategi berbeda dalam memecahkan masalah geometris yang melibatkan hubungan antara sudut-sudut tokoh kompleks dipelajari oleh Greeno (1978; lihat juga, Gagne, 1985, hlm. 143-145). Di sini, juga, strategi tidak dapat diungkapkan hanya dengan solusi yang sukses dari masalah geometris. Sebagai gantinya, mereka ditunjukkan oleh laporan lisan dari peserta didik sendiri, yang diminta untuk "berpikir keras" saat mengerjakan masalah.
Meskipun tampaknya diinginkan untuk memperluas gagasan penguasaan pembelajaran ke semua bidang tujuan pembelajaran, penerapannya pada pengukuran strategi kognitif tidak dapat dengan mudah dicapai. Apakah strategi yang kita hadapi adalah strategi yang terutama mengendalikan proses menghadiri, menyandi, mengambil, atau memecahkan masalah, jelas bahwa kualitas proses mental sedang dinilai dan bukan hanya ada atau tidaknya itu. Terkadang, masalah baru memiliki banyak solusi daripada solusi tunggal. Dalam kasus seperti itu, strategi kognitif akan digunakan oleh peserta didik dalam mencapai solusi, apa pun itu. Oleh karena itu, penilaian menjadi masalah menilai seberapa bagus solusinya, dan tidak mungkin keputusan "lulus-gagal" akan dibuat.
Patut dicatat bahwa standar orisinalitas dan daya cipta diterapkan pada penilaian produk peserta didik seperti tesis dan disertasi dalam pendidikan sarjana dan pascasarjana universitas. Selain menjadi teliti dan secara teknis sehat, disertasi doktor diharapkan membuat "penemuan orisinal 'atau kontribusi" ke bidang pengetahuan sistematis. Kriteria atau dimensi yang tepat untuk menilai kualitas ini biasanya tidak ditentukan. Berbagai jumlah orang yang memenuhi syarat profesional biasanya sampai pada konsensus mengenai tingkat orisinalitas yang ditunjukkan oleh studi disertasi dan penerimaannya sebagai kontribusi baru pada bidang pengetahuan atau seni.
Berpikir Produktif
Pengukuran pemikiran produktif, dan dengan kesimpulan strategi kognitif yang mendasari pemikiran tersebut, telah diselidiki oleh Johnson dan Kidder (1972) di kelas psikologi sarjana. Peserta didik diminta untuk membuat hipotesis baru, pertanyaan, dan jawaban dalam menanggapi pernyataan masalah yang melampaui informasi yang diperoleh dari kuliah dan buku teks. Masalah yang digunakan termasuk (1) memprediksi konsekuensi dari peristiwa psikologis yang tidak biasa, (2) menulis kalimat imajinatif menggabungkan beberapa konsep yang baru dipelajari (ditentukan), (3) menyatakan hipotesis baru terkait dengan situasi yang dijelaskan, (4) menulis pasang untuk tabel yang berisi data perilaku, dan (5) menarik kesimpulan dari tabel atau grafik. Ketika item seperti ini digabungkan menjadi tes yang berisi 10 hingga 15 item, reliabilitas skor orisinalitas yang cukup memadai diperoleh. Kualitas dinilai oleh dua penilai yang penilaiannya ternyata sangat setuju setelah pelatihan singkat.
Penilaian orisinalitas mungkin dapat dilakukan dari jawaban, komposisi, dan proyek peserta didik di tingkat pra-sekolah. Bahkan, penilaian seperti itu sering dibuat oleh guru secara tidak sengaja, atau setidaknya secara informal, mengenai berbagai proyek dan masalah yang dilakukan oleh peserta didik di sekolah. Tampaknya jelas bahwa metode penilaian sistematis dapat diterapkan pada strategi kognitif pada tingkat yang lebih rendah dari jenjang pendidikan ini, meskipun hal ini belum dilakukan. Harus ditunjukkan bahwa penilaian strategi kognitif atau orisinalitas pemikiran sebagai hasil pembelajaran tidak harus memiliki tujuan yang sama atau menggunakan metode yang sama seperti yang digunakan dalam pengukuran kreativitas sebagai suatu sifat. Kreativitas telah dipelajari secara luas dalam pengertian yang terakhir ini (Torrance, 1963; Guilford, 1967; Johnson, 1972), dan temuan-temuannya jauh melampaui lingkup diskusi ini. Ketika penilaian kualitas pemikiran harus dilakukan sebagai hasil pembelajaran, dua karakteristik utama harus dicari. Pertama, masalah (atau proyek) yang ditetapkan untuk peserta didik harus memerlukan pemanfaatan pengetahuan, konsep, dan aturan yang baru-baru ini dipelajari oleh peserta didik daripada meminta contoh keterampilan dan informasi yang mungkin diperoleh dalam jumlah yang tidak ditentukan. dari tahun-tahun sebelumnya. Kedua, harus diasumsikan atau, lebih disukai, diperlihatkan bahwa peserta didik sebenarnya telah mempelajari informasi prasyarat dan keterampilan yang relevan sebelum penilaian orisinalitas dilakukan. Kondisi ini diperlukan untuk memastikan bahwa semua peserta didik memiliki kesempatan yang sama untuk menjadi orisinal dan solusi mereka tidak terhalang oleh tidak adanya pengetahuan dan keterampilan intelektual yang diperlukan.
Informasi Verbal
Dalam domain ini, konsep penguasaan harus terkait dengan serangkaian fakta, generalisasi, atau ide yang telah ditentukan, sejumlah yang dapat diterima yang dapat dinyatakan oleh peserta didik dalam bentuk yang dapat diterima atau tingkat kelengkapan dan akurasi. Pengukuran norma-referensi konvensional sering terkait erat dengan penilaian informasi. Perbedaan mendasar yang harus diingat, bagaimanapun, adalah pengukuran objektif versus konten yang dirujuk. Tujuan penilaian adalah untuk menentukan apakah tujuan tertentu telah tercapai daripada untuk menemukan apakah beberapa konten telah dibahas.
Penilaian objektif-direferensikan dapat dicapai untuk domain informasi hasil pembelajaran dengan menentukan informasi apa yang harus dipelajari sebagai standar kinerja minimum. Tujuan yang berkaitan dengan informasi harus menyatakan dengan jelas nama, fakta, dan generalisasi mana yang harus dipelajari. Dengan demikian mereka membedakan isi inti dari informasi yang akan ditarik dari informasi insidental yang mungkin ada dalam buku dan bahwa beberapa peserta didik mungkin dapat mengingat tetapi yang mewakili pembelajaran di luar tingkat yang disyaratkan.
Ini akan menjadi kesalahan untuk membuat tujuan dalam domain informasi sangat lengkap sehingga tidak ada waktu untuk tujuan di domain lain. Sebagai gantinya, seseorang harus dengan sengaja mencari dan mengidentifikasi hasil informasi yang cenderung berkontribusi paling besar untuk pencapaian tujuan di domain lain. Meskipun massa informasi harus diperoleh selama bertahun-tahun oleh orang yang berpendidikan, tujuan ini tidak boleh dibiarkan mengganggu pencapaian tujuan dalam bidang keterampilan intelektual dan strategi pemecahan masalah.
Biasanya, menilai pembelajaran informasi verbal berarti mengukur kuantitas (Gagne dan Beard, 1978). Tujuannya adalah untuk menilai seberapa banyak peserta didik mengetahui tentang peristiwa atau era sejarah tertentu atau tentang fenomena alam seperti gempa bumi. Berapa banyak yang peserta didik ketahui tentang varietas pohon ek atau tentang pemotongan kayu menjadi kayu? Jawaban untuk pertanyaan kuantitas berasal dari item yang dipilih dari domain yang kurang lebih didefinisikan dengan baik. Ini mungkin didefinisikan secara tepat sebagai suatu bagian prosa spesifik yang lebih panjang. Atau mungkin lebih longgar didefinisikan sebagai pengetahuan deklaratif yang diharapkan dipelajari peserta didik dari kuliah, teks, dan referensi lain yang tersedia pada subjek tertentu.
Berbagai metode telah diusulkan untuk analisis teks prosa yang menampilkan pengetahuan verbal (Britton dan Black, 1985). Beberapa proposal ini menunjukkan kemungkinan bahwa kualitas pengetahuan dapat dinilai sebagai hasil pembelajaran. Ada kemungkinan bahwa beberapa jenis organisasi memori yang dihasilkan dari pembelajaran mewakili "pemahaman yang lebih dalam" dari informasi verbal. Tentu saja dimungkinkan untuk membedakan ide-ide utama dari ide-ide bawahan dengan menggunakan metode-metode ini. Tetapi makna yang lebih penuh dari kualitas atau kedalaman pengetahuan masih harus ditunjukkan oleh penelitian dan pengembangan teoritis sebelum ukuran aspek informasi verbal ini dapat dikembangkan.
Contoh Item Informasi Verbal
Beberapa item khas untuk penilaian informasi verbal adalah:
Strategi Kognitif
Berbeda dengan teknik penilaian untuk keterampilan intelektual, indikator strategi kognitif agak tidak langsung dan sering membutuhkan rantai inferensi yang lebih lama. Misalnya, jika strategi Tabel 7-1, "mengadopsi bayangan peta AS untuk mengingat nama-nama negara bagian," digunakan, kinerja yang diamati akan menjadi daftar negara bagian. Namun, daftar seperti itu dapat diberikan oleh pelajar yang menggunakan strategi kognitif yang sangat berbeda, mungkin yang kurang efisien (seperti strategi melaporkan negara secara sistematis dengan huruf awal dari nama mereka). Dengan demikian, kinerja dengan sendirinya gagal untuk menunjukkan adopsi dan penggunaan strategi tertentu. Penilaian strategi pencitraan akan membutuhkan pengamatan tambahan bahwa negara-negara tersebut disebutkan dalam urutan yang menunjukkan lokasi regional dan juga bahwa strategi ini menghasilkan kinerja yang efisien.
Beberapa strategi berbeda dalam memecahkan masalah geometris yang melibatkan hubungan antara sudut-sudut tokoh kompleks dipelajari oleh Greeno (1978; lihat juga, Gagne, 1985, hlm. 143-145). Di sini, juga, strategi tidak dapat diungkapkan hanya dengan solusi yang sukses dari masalah geometris. Sebagai gantinya, mereka ditunjukkan oleh laporan lisan dari peserta didik sendiri, yang diminta untuk "berpikir keras" saat mengerjakan masalah.
Meskipun tampaknya diinginkan untuk memperluas gagasan penguasaan pembelajaran ke semua bidang tujuan pembelajaran, penerapannya pada pengukuran strategi kognitif tidak dapat dengan mudah dicapai. Apakah strategi yang kita hadapi adalah strategi yang terutama mengendalikan proses menghadiri, menyandi, mengambil, atau memecahkan masalah, jelas bahwa kualitas proses mental sedang dinilai dan bukan hanya ada atau tidaknya itu. Terkadang, masalah baru memiliki banyak solusi daripada solusi tunggal. Dalam kasus seperti itu, strategi kognitif akan digunakan oleh peserta didik dalam mencapai solusi, apa pun itu. Oleh karena itu, penilaian menjadi masalah menilai seberapa bagus solusinya, dan tidak mungkin keputusan "lulus-gagal" akan dibuat.
Patut dicatat bahwa standar orisinalitas dan daya cipta diterapkan pada penilaian produk peserta didik seperti tesis dan disertasi dalam pendidikan sarjana dan pascasarjana universitas. Selain menjadi teliti dan secara teknis sehat, disertasi doktor diharapkan membuat "penemuan orisinal 'atau kontribusi" ke bidang pengetahuan sistematis. Kriteria atau dimensi yang tepat untuk menilai kualitas ini biasanya tidak ditentukan. Berbagai jumlah orang yang memenuhi syarat profesional biasanya sampai pada konsensus mengenai tingkat orisinalitas yang ditunjukkan oleh studi disertasi dan penerimaannya sebagai kontribusi baru pada bidang pengetahuan atau seni.
Berpikir Produktif
Pengukuran pemikiran produktif, dan dengan kesimpulan strategi kognitif yang mendasari pemikiran tersebut, telah diselidiki oleh Johnson dan Kidder (1972) di kelas psikologi sarjana. Peserta didik diminta untuk membuat hipotesis baru, pertanyaan, dan jawaban dalam menanggapi pernyataan masalah yang melampaui informasi yang diperoleh dari kuliah dan buku teks. Masalah yang digunakan termasuk (1) memprediksi konsekuensi dari peristiwa psikologis yang tidak biasa, (2) menulis kalimat imajinatif menggabungkan beberapa konsep yang baru dipelajari (ditentukan), (3) menyatakan hipotesis baru terkait dengan situasi yang dijelaskan, (4) menulis pasang untuk tabel yang berisi data perilaku, dan (5) menarik kesimpulan dari tabel atau grafik. Ketika item seperti ini digabungkan menjadi tes yang berisi 10 hingga 15 item, reliabilitas skor orisinalitas yang cukup memadai diperoleh. Kualitas dinilai oleh dua penilai yang penilaiannya ternyata sangat setuju setelah pelatihan singkat.
Penilaian orisinalitas mungkin dapat dilakukan dari jawaban, komposisi, dan proyek peserta didik di tingkat pra-sekolah. Bahkan, penilaian seperti itu sering dibuat oleh guru secara tidak sengaja, atau setidaknya secara informal, mengenai berbagai proyek dan masalah yang dilakukan oleh peserta didik di sekolah. Tampaknya jelas bahwa metode penilaian sistematis dapat diterapkan pada strategi kognitif pada tingkat yang lebih rendah dari jenjang pendidikan ini, meskipun hal ini belum dilakukan. Harus ditunjukkan bahwa penilaian strategi kognitif atau orisinalitas pemikiran sebagai hasil pembelajaran tidak harus memiliki tujuan yang sama atau menggunakan metode yang sama seperti yang digunakan dalam pengukuran kreativitas sebagai suatu sifat. Kreativitas telah dipelajari secara luas dalam pengertian yang terakhir ini (Torrance, 1963; Guilford, 1967; Johnson, 1972), dan temuan-temuannya jauh melampaui lingkup diskusi ini. Ketika penilaian kualitas pemikiran harus dilakukan sebagai hasil pembelajaran, dua karakteristik utama harus dicari. Pertama, masalah (atau proyek) yang ditetapkan untuk peserta didik harus memerlukan pemanfaatan pengetahuan, konsep, dan aturan yang baru-baru ini dipelajari oleh peserta didik daripada meminta contoh keterampilan dan informasi yang mungkin diperoleh dalam jumlah yang tidak ditentukan. dari tahun-tahun sebelumnya. Kedua, harus diasumsikan atau, lebih disukai, diperlihatkan bahwa peserta didik sebenarnya telah mempelajari informasi prasyarat dan keterampilan yang relevan sebelum penilaian orisinalitas dilakukan. Kondisi ini diperlukan untuk memastikan bahwa semua peserta didik memiliki kesempatan yang sama untuk menjadi orisinal dan solusi mereka tidak terhalang oleh tidak adanya pengetahuan dan keterampilan intelektual yang diperlukan.
Informasi Verbal
Dalam domain ini, konsep penguasaan harus terkait dengan serangkaian fakta, generalisasi, atau ide yang telah ditentukan, sejumlah yang dapat diterima yang dapat dinyatakan oleh peserta didik dalam bentuk yang dapat diterima atau tingkat kelengkapan dan akurasi. Pengukuran norma-referensi konvensional sering terkait erat dengan penilaian informasi. Perbedaan mendasar yang harus diingat, bagaimanapun, adalah pengukuran objektif versus konten yang dirujuk. Tujuan penilaian adalah untuk menentukan apakah tujuan tertentu telah tercapai daripada untuk menemukan apakah beberapa konten telah dibahas.
Penilaian objektif-direferensikan dapat dicapai untuk domain informasi hasil pembelajaran dengan menentukan informasi apa yang harus dipelajari sebagai standar kinerja minimum. Tujuan yang berkaitan dengan informasi harus menyatakan dengan jelas nama, fakta, dan generalisasi mana yang harus dipelajari. Dengan demikian mereka membedakan isi inti dari informasi yang akan ditarik dari informasi insidental yang mungkin ada dalam buku dan bahwa beberapa peserta didik mungkin dapat mengingat tetapi yang mewakili pembelajaran di luar tingkat yang disyaratkan.
Ini akan menjadi kesalahan untuk membuat tujuan dalam domain informasi sangat lengkap sehingga tidak ada waktu untuk tujuan di domain lain. Sebagai gantinya, seseorang harus dengan sengaja mencari dan mengidentifikasi hasil informasi yang cenderung berkontribusi paling besar untuk pencapaian tujuan di domain lain. Meskipun massa informasi harus diperoleh selama bertahun-tahun oleh orang yang berpendidikan, tujuan ini tidak boleh dibiarkan mengganggu pencapaian tujuan dalam bidang keterampilan intelektual dan strategi pemecahan masalah.
Biasanya, menilai pembelajaran informasi verbal berarti mengukur kuantitas (Gagne dan Beard, 1978). Tujuannya adalah untuk menilai seberapa banyak peserta didik mengetahui tentang peristiwa atau era sejarah tertentu atau tentang fenomena alam seperti gempa bumi. Berapa banyak yang peserta didik ketahui tentang varietas pohon ek atau tentang pemotongan kayu menjadi kayu? Jawaban untuk pertanyaan kuantitas berasal dari item yang dipilih dari domain yang kurang lebih didefinisikan dengan baik. Ini mungkin didefinisikan secara tepat sebagai suatu bagian prosa spesifik yang lebih panjang. Atau mungkin lebih longgar didefinisikan sebagai pengetahuan deklaratif yang diharapkan dipelajari peserta didik dari kuliah, teks, dan referensi lain yang tersedia pada subjek tertentu.
Berbagai metode telah diusulkan untuk analisis teks prosa yang menampilkan pengetahuan verbal (Britton dan Black, 1985). Beberapa proposal ini menunjukkan kemungkinan bahwa kualitas pengetahuan dapat dinilai sebagai hasil pembelajaran. Ada kemungkinan bahwa beberapa jenis organisasi memori yang dihasilkan dari pembelajaran mewakili "pemahaman yang lebih dalam" dari informasi verbal. Tentu saja dimungkinkan untuk membedakan ide-ide utama dari ide-ide bawahan dengan menggunakan metode-metode ini. Tetapi makna yang lebih penuh dari kualitas atau kedalaman pengetahuan masih harus ditunjukkan oleh penelitian dan pengembangan teoritis sebelum ukuran aspek informasi verbal ini dapat dikembangkan.
Contoh Item Informasi Verbal
Beberapa item khas untuk penilaian informasi verbal adalah:
- Jelaskan setidaknya tiga penyebab Revolusi Amerika, seperti yang dibahas dalam buku teks.
- Sebutkan nama kimia untuk zat berikut: baking soda, vitriol biru, kapur. . .
- Tulis paragraf yang merangkum bagaimana seorang presiden terpilih ketika perguruan tinggi pemilihan gagal untuk memilih.
- Sebutkan 15 dari 20 hewan ini dari gambar mereka.
- Apa yang dijamin oleh Amandemen Keempat Konstitusi A.S.?
- Baca laporan ini, dan tulis ringkasan dari empat tema utama yang dikembangkan dalam laporan.
Seperti yang ditunjukkan oleh contoh-contoh ini, pengujian informasi yang dirujuk secara objektif memerlukan identifikasi yang tepat dari informasi apa yang harus dipelajari dan disimpan. Jika daftar nama atau tanggal akan diperoleh, ini harus dibuat jelas. Sebagai alternatif, jika substansi sebuah bagian harus dikisahkan, tujuan ini harus dibuat sama jelasnya bagi peserta didik. Prosedur-prosedur ini membuat pembelajaran untuk penguasaan layak serta adil dan masuk akal.
Sikap
Seperti yang ditunjukkan Bab 5, sikap bervariasi dalam intensitas yang memengaruhi pilihan tindakan pribadi. Karena kekuatan sikap adalah apa yang ingin dinilai, jelaslah bahwa penguasaan tidak dapat diidentifikasi. Penilaian kekuatan suatu sikap terhadap atau terhadap sekelompok pilihan tindakan dapat diperoleh dalam hal proporsi waktu orang tersebut berperilaku dengan cara tertentu dalam sampel situasi tertentu. Sebagai contoh, sikap terhadap penggunaan transportasi umum dapat dinilai dengan mengamati kemungkinan peserta didik memilih berbagai bentuk transportasi umum (daripada pribadi) dalam berbagai situasi di mana pilihan tersebut dibuat. Insiden yang diamati akan menjadi dasar untuk menyimpulkan sejauh mana orang tersebut cenderung menggunakan atau tidak menggunakan alat angkut publik.
Dalam menilai suatu sikap seperti "kepedulian terhadap orang lain," jelas bahwa tidak ada kriteria master gagal yang dapat ditetapkan. Namun, seorang guru mungkin mengadopsi tujuan bahwa semua murid kelas dua akan meningkat dalam sikap ini selama periode satu tahun. Selain itu, dimungkinkan untuk mengadopsi standar bahwa setiap anak akan menunjukkan kepedulian terhadap orang lain, baik dalam ekspresi verbal atau tindakan terbuka, lebih banyak kali per bulan di bulan Mei daripada selama Oktober sebelumnya. Catatan anekdotal dapat disimpan untuk merekam tindakan tersebut, dan laporan "peningkatan" atau "tidak ada perbaikan" dapat dibuat pada akhir tahun ajaran. Laporan tersebut dapat dikuantifikasi dalam hal jumlah tindakan positif dan dalam hal proporsi tindakan positif-terhadap-total (positif plus negatif). Perilaku yang mewakili kedua jenis tindakan itu tidak akan direkam, sebagai pengakuan atas kenyataan bahwa sebagian waktu anak dihabiskan dalam periode studi yang menawarkan sedikit peluang untuk berperilaku baik terhadap orang lain.
Sikap sering diukur dengan mendapatkan laporan diri tentang kemungkinan tindakan yang bertentangan dengan pengamatan langsung dari tindakan itu sendiri. Seperti diketahui, batasan paling serius dalam penggunaan kuesioner untuk tujuan ini adalah kemungkinan bias yang dihasilkan dari upaya peserta didik untuk menjawab pertanyaan sehingga mendapat persetujuan daripada mencerminkan pilihan mereka secara akurat. Tampaknya tidak ada solusi sederhana untuk masalah mendapatkan informasi yang benar-benar akurat dari laporan diri, meskipun banyak penyelidikan telah dilakukan untuk tujuan ini (lih. Fishbein, 1967). Hasil terbaik tampaknya dicapai ketika peserta didik pertama kali diyakinkan bahwa penilaian yang dilakukan tidak dimaksudkan sebagai proses musuh; yaitu, bahwa si 'tidak perlu hanya melaporkan apa yang (menurut mereka) akan disetujui. Ketika kuesioner diberikan kepada kelompok, tindakan pencegahan tambahan sering diambil untuk memastikan bahwa tanggapan dicatat secara anonim.
Seperti yang ditunjukkan sebelumnya, sikap sebaiknya dipahami dan diukur sebagai konsistensi dalam pilihan tindakan pribadi terhadap beberapa kelas objek, orang, atau peristiwa (Bab 5; lihat juga Gagne, 1985). Domain item penilaian yang mendefinisikan pilihan-pilihan ini dapat ditentukan dengan hati-hati di sepanjang beberapa dimensi (Triandis, 1964). Misalnya, dalam menilai pilihan yang dibuat oleh orang kulit putih dalam menerima "kontak sosial dengan orang Negro," item dipilih dari domain yang mencakup dimensi karakteristik sosial pribadi orang Negro (pekerjaan, usia, dan sebagainya). Tentu saja, konten spesifik instrumen Triandis mencerminkan nilai-nilai yang berlaku pada zaman sebelumnya. Tetapi metode, atau varian dari itu, mungkin dapat digunakan untuk mendefinisikan serangkaian pilihan tindakan pribadi yang memungkinkan kualitas yang dapat diterima dari skor yang dirujuk secara objektif untuk sikap.
Keterampilan Motorik
Keterampilan motorik selama bertahun-tahun telah dievaluasi dengan membandingkannya dengan standar, seperti dalam hal tulisan tangan. Bertahun-tahun yang lalu, perangkat yang dikenal di ruang sekolah dasar adalah Skala Palmer untuk menilai tulisan tangan. Sampel tulisan peserta didik dibandingkan dengan sampel ideal pada bagan yang berisi berbagai tingkat tulisan tangan "benar", masing-masing memiliki nilai numerik seperti 90, 80, 70, dan seterusnya, menunjukkan standar untuk setiap tingkat keterampilan menulis. . Ini adalah bentuk penilaian yang direferensikan kriteria, dalam standar yang stabil dan guru dapat mengatakan bahwa 60 "lulus" di kelas tiga, 70 di kelas empat, dan seterusnya.
Standar untuk penilaian keterampilan motorik biasanya merujuk pada ketepatan kinerja tetapi seringkali juga untuk kecepatannya. Karena keterampilan motorik diketahui meningkat dalam salah satu atau kedua kualitas ini dengan latihan yang lama, tidak realistis untuk mengharapkan bahwa penguasaan dapat didefinisikan dalam arti belajar atau tidak dipelajari. Oleh karena itu, standar kinerja harus diputuskan untuk menentukan apakah penguasaan telah dicapai. Keterampilan mengetik memberikan contoh metode penilaian yang baik di domain ini.
Sejumlah standar kinerja yang berbeda ditetapkan pada tingkat yang semakin tinggi untuk praktik yang telah diperpanjang dalam periode waktu yang semakin lama. Dengan demikian, standar pengujian 30 kata per menit dengan jumlah kesalahan minimum yang ditentukan dapat diadopsi sebagai standar yang masuk akal dalam matapelajaran awal, sedangkan 40 atau 50 kata per menit dapat diharapkan untuk matapelajaran lanjutan setelah lebih banyak waktu diberikan untuk latihan tambahan.
Keandalan Tindakan yang Dirujuk-Referensi
Memilih kriteria untuk item dan tes yang dirancang untuk mencapai pengukuran yang direferensikan secara obyektif memerlukan pemilihan standar kinerja yang sesuai dengan tujuan yang dinyatakan, seperti yang ditunjukkan oleh diskusi sebelumnya. Selain itu, item yang digunakan untuk penilaian perlu menghasilkan pengukuran yang dapat diandalkan. Kegiatan terakhir dari prosedur penilaian ini disebut sebagai reliabilitas, dan memiliki dua arti utama.
Konsistensi
Pertama, reliabilitas adalah konsistensi pengukuran. Penting untuk menentukan bahwa kinerja peserta didik dalam menjawab atau menyelesaikan satu item tertentu yang dirancang untuk menilai kinerjanya pada suatu tujuan konsisten dengan kinerjanya pada item lain yang ditujukan pada tujuan yang sama. Seorang murid di kelas dua dapat diminta oleh satu item untuk menunjukkan penguasaannya terhadap aturan aritmatika melalui item: 3M 2M = 25; M =? Jelas, tujuan penilaian adalah untuk mengetahui apakah ia mampu melakukan kelas operasi aritmatika jenis ini, bukan hanya apakah ia mampu melakukan yang satu ini. Dengan demikian, item tambahan milik kelas yang sama (misalnya: AM ZM - 21; SM\M = 36) biasanya digunakan untuk memastikan keandalan pengukuran.
Dalam situasi pengujian informal, seperti ketika guru memeriksa dengan menanyakan pertanyaan satu demi satu peserta didik, item tunggal dapat digunakan untuk menilai kinerja. Namun, jelas bahwa tidak ada ukuran konsistensi yang tersedia dalam situasi seperti itu. Pada setiap item, seorang peserta didik dapat membuat respons yang berhasil karena dia telah melihat dan menghafal sebuah "jawaban." Atau, tanggapannya mungkin salah karena dia secara tidak sengaja telah disesatkan oleh beberapa karakteristik tertentu dari barang tersebut. Item tunggal tidak memungkinkan kesimpulan yang meyakinkan bahwa peserta didik telah menguasai kinerja yang tersirat oleh tujuan.
Dalam kasus-kasus di mana kelas kinerja yang diwakili oleh tujuan didefinisikan dengan baik (seperti dalam contoh aritmatika yang diberikan sebelumnya), prosedur pemilihan item penilaian tambahan dari kelas yang sama cukup mudah. Penting untuk diingat bahwa kesimpulan yang ditujukan bukan "berapa banyak item yang benar?" melainkan "apakah angka yang benar menunjukkan penguasaan yang dapat diandalkan?" Meskipun dua item jelas lebih baik dari satu, mereka dapat menghasilkan hasil yang membingungkan, setengah benar-salah. Apakah ini berarti bahwa peserta didik telah mencapai penguasaan, atau apakah itu berarti dia mendapatkan satu item dengan benar hanya karena dia entah bagaimana berhasil menghafal sebuah jawaban? Tiga hal tampaknya memberikan cara yang lebih baik untuk membuat keputusan yang andal tentang penguasaan. Dalam hal ini, dua dari tiga yang dijawab dengan benar mengarah pada keyakinan tertentu bahwa keandalan pengukuran telah dicapai. Lebih banyak item dapat segera digunakan, tetapi tiga tampaknya minimum yang wajar yang menjadi dasar penilaian penguasaan yang dapat diandalkan.
Ketika strategi kognitif merupakan tujuan penilaian, item yang dipilih untuk tujuan penilaian sebenarnya bisa menjadi tugas penyelesaian masalah yang agak panjang. Sebagai contoh, tugas seperti itu mungkin untuk 'Menulis tema 300 kata pada topik yang dipilih peserta didik, dalam waktu satu jam. "Menilai kinerja secara konsisten mungkin memerlukan beberapa item karena perlu untuk menguraikan pembelajaran sebelum informasi dan keterampilan intelektual dari kualitas pemikiran orisinal. Sejumlah kesempatan harus disediakan di mana peserta didik dapat menampilkan kualitas kinerjanya dalam domain hasil belajar ini. Tujuannya adalah untuk membuat peserta didik tidak mungkin dapat memenuhi kriteria yang ditetapkan untuk tugas-tugas tersebut tanpa memiliki kemampuan asli, yang dapat digeneralisasikan untuk menulis tema asli pada topik lain.
Ketergantungan temporal
Arti kedua dari reliabilitas adalah ketergantungan pengukuran pada kesempatan yang terpisah untuk sementara waktu. Seseorang ingin diyakinkan bahwa demonstrasi penguasaan peserta didik terhadap tujuan yang dinilai pada hari Senin tidak berbeda dari apa yang akan terjadi pada hari Selasa atau pada hari lain. Apakah kinerjanya adalah hal yang fana, atau apakah ia memiliki tingkat keabadian yang diharapkan dari kemampuan yang dipelajari? Apakah kinerjanya, baik atau buruk, sebagian besar ditentukan oleh apa yang ia rasakan hari itu, oleh penyakit sementara, atau oleh beberapa fitur petualangan dari situasi pengujian?
Keandalan pengukuran dalam arti kedua ini biasanya ditentukan oleh pengujian kedua yang dipisahkan dari yang pertama dengan interval waktu beberapa hari atau minggu. Ini adalah metode tes ulang, di mana reliabilitas yang baik dari tes ditunjukkan oleh tingkat korespondensi yang tinggi antara skor yang diperoleh oleh sekelompok peserta didik pada dua kesempatan. Seringkali, prosedur ini digunakan dalam evaluasi formatif tes, tetapi juga dapat digunakan dalam penilaian praktis untuk menentukan apakah apa yang telah dipelajari memiliki tingkat stabilitas yang wajar.
TINDAKAN NORM-REFERENSI
Tes yang dirancang untuk menghasilkan skor yang membandingkan kinerja setiap peserta didik dengan kinerja kelompok atau dengan norma yang ditetapkan oleh nilai kelompok disebut norma yang dirujuk. Secara karakteristik, tes semacam itu digunakan untuk memperoleh penilaian prestasi peserta didik di atas segmen konten pengajaran yang relatif besar, seperti topik atau matapelajaran. Mereka berbeda dari tes yang dirujuk secara objektif dalam hal mereka biasanya mengukur kinerja pada campuran tujuan daripada terbatas pada penilaian tujuan tunggal yang dapat diidentifikasi dengan jelas. Dengan demikian, tes yang direferensikan norma lebih cenderung memiliki tujuan menilai "pemahaman membaca" daripada mengukur pencapaian keterampilan individu yang terlibat dalam membaca, yang dianggap sebagai tujuan khusus.
Karena karakteristik dari cakupan yang komprehensif ini, tes yang direferensikan norma paling berguna untuk jenis penilaian dan evaluasi sumatif (lihat Bab 16). Mereka memberikan jawaban untuk pertanyaan seperti "Berapa banyak sejarah Amerika yang diketahui seorang peserta didik (dibandingkan dengan orang lain di tingkat kelasnya)?" "Seberapa baik peserta didik dapat beralasan menggunakan operasi aritmatika?" "Kecakapan apa yang dimiliki peserta didik dalam menggunakan aturan tata bahasa?" Jelas, penilaian semacam itu paling tepat bila diterapkan pada pengajaran yang diperpanjang dalam jangka waktu yang cukup lama, seperti pada ujian tengah jalan atau ujian akhir matapelajaran.
Pada saat yang sama, karakteristik tindakan yang direferensikan norma menyiratkan beberapa keterbatasan yang jelas dibandingkan dengan tes yang dirujuk secara objektif. Karena barang-barang mereka biasanya mewakili campuran tujuan, seringkali tidak mungkin untuk diidentifikasi secara tunggal, mereka tidak dapat dengan mudah digunakan untuk tujuan pengujian diagnostik keterampilan dan pengetahuan prasyarat. Untuk alasan yang sama, tes yang direferensikan norma biasanya tidak memberikan tindakan langsung dan tidak ambigu dari apa yang telah dipelajari, ketika tes yang terakhir dipahami sebagai satu atau lebih tujuan yang didefinisikan.
Seringkali tes yang direferensikan norma menyajikan pertanyaan dan tugas yang mengharuskan peserta didik pada saat yang sama untuk memanfaatkan kemampuan yang dipelajari dari keterampilan intelektual, informasi, dan strategi kognitif. Dengan demikian, mereka membuat penilaian kemampuan peserta didik yang mungkin "global" daripada spesifik untuk tujuan yang dapat diidentifikasi. Untuk alasan ini, mereka sangat tepat untuk menilai hasil pembelajaran dalam satu set topik atau dalam matapelajaran total. Karena skor yang diperoleh juga mewakili suatu kelompok (satu kelas atau kelompok "yang direferensikan" yang lebih besar seperti anak-anak berusia 10 tahun), skor yang dibuat oleh masing-masing peserta didik dapat dengan mudah dibandingkan dengan yang lain dalam kelompok. Skor persentil sering digunakan untuk tujuan ini; skor seorang peserta didik dapat dinyatakan, misalnya, sebagai "jatuh dalam persentil ke-63."
Tes Buatan Guru
Tes yang dibangun oleh guru kadang-kadang dari varietas yang dirujuk norma. Guru mungkin tertarik untuk mempelajari seberapa baik peserta didik telah mempelajari isi matapelajaran, yang dapat mewakili sejumlah tujuan yang berbeda dan beberapa kategori hasil belajar. Ujian tengah dan akhir matapelajaran sering memiliki karakteristik tujuan campuran penilaian. Ini juga dapat dipahami sebagai ditujukan untuk menguji integrasi peserta didik dari berbagai keterampilan dan pengetahuan yang diharapkan telah dia pelajari.
Pada saat yang sama, tes referensi-rujukan memungkinkan perbandingan kinerja peserta didik dalam suatu kelompok atau dengan kelompok yang direferensikan (seperti kelas tahun lalu). Seringkali, tes tersebut disempurnakan selama periode tahun, menggunakan metode analisis item untuk memilih item yang paling "diskriminatif" (cf Hills, 1981; Payne, 1968). Ini berarti bahwa item yang tidak membeda-bedakan-yang banyak dijawab oleh peserta didik dengan benar dan yang tidak banyak menjawab dengan benar-semakin dibuang. Tes yang disempurnakan dengan cara ini cenderung semakin mengukur pemecahan masalah dan strategi kognitif lainnya. Mereka mungkin juga, sebagian, mengukur kecerdasan, daripada apa yang telah dipelajari secara langsung. Meskipun ini mungkin niat yang sah ketika tujuannya adalah untuk menilai efek total dari program studi, jelas bahwa kualitas tes referensi-rujukan ini membuatnya sangat berbeda dari tes referensi-rujukan.
Ketika penilaian ditujukan pada hasil dari pelajaran individu atau bagian dari pelajaran, sedikit pembenaran dapat dilihat untuk penggunaan tes referensi normal. Ketika tes semacam itu digunakan untuk menilai kinerja peserta didik yang dihasilkan dari pembelajaran tujuan yang ditentukan, mereka cenderung kehilangan titik penilaian sepenuhnya. Ketika pengajaran telah dirancang untuk memastikan pencapaian tujuan, pengujian harus diturunkan langsung dari definisi tujuan itu sendiri, seperti yang ditunjukkan pada bagian awal bab ini. Kecuali jika tes yang dirujuk secara objektif digunakan untuk tujuan ini, dua tujuan penting penilaian kemungkinan akan diabaikan: (1) penilaian penguasaan kemampuan spesifik yang dipelajari, dan (2) kemungkinan bantuan diagnostik untuk peserta didik dalam mengatasi kekurangan belajar tertentu dengan mengambil keterampilan dan pengetahuan prasyarat yang hilang.
Tes Standar
Tes referensi-rujukan dimaksudkan untuk penggunaan luas di antara banyak sekolah dalam sistem sekolah, daerah, atau di negara ini secara keseluruhan mungkin memiliki norma yang distandarisasi. Ini berarti bahwa tes telah diberikan kepada sampel besar peserta didik dalam kelompok usia (atau kelas) yang ditentukan dan bahwa distribusi skor yang diperoleh menjadi standar yang dapat dibandingkan dengan skor setiap peserta didik atau kelas peserta didik tertentu. Kadang-kadang, norma-norma standar dinyatakan sebagai persentil, yang menunjukkan berapa persen sampel besar peserta didik yang mencapai atau jatuh di bawah nilai tertentu. Seringkali, standar tersebut juga dinyatakan sebagai skor setara kelas, menunjukkan skor yang diperoleh oleh semua anak dalam kelompok yang berada di kelas satu, kelas dua, dan seterusnya. Prosedur yang digunakan dalam pengembangan dan validasi tes standar dijelaskan dalam banyak buku tentang hal ini (lih. Cronbach, 1984; Thorndike dan Hagen, 1986; Tyler, 1971).
Tes terstandardisasi pada umumnya adalah tes yang dirujuk secara normal; pengembangan tes yang dirujuk secara objektif belum berlanjut ke titik ketersediaan untuk berbagai tujuan dan untuk berbagai tingkat pengajaran. Dengan demikian, tes standar biasanya menunjukkan karakteristik yang dijelaskan sebelumnya. Mereka biasanya dicampur dalam pengukuran tujuan tertentu karena barang-barang mereka belum secara langsung diturunkan dari tujuan tersebut. Item mereka dipilih untuk menghasilkan variasi skor terbesar di kalangan peserta didik, dan karenanya, skor mereka cenderung sangat berkorelasi dengan kecerdasan daripada dengan hasil pembelajaran tertentu. Dengan beberapa pengecualian, mereka gagal memberikan identifikasi hilangnya kemampuan bawahan yang penting untuk tujuan diagnostik.
Jelas, kemudian, tes standar sangat tidak pantas untuk digunakan dalam penilaian rinci hasil belajar dari pelajaran yang memiliki tujuan tertentu. Penggunaannya yang paling sering dan paling tepat adalah untuk tujuan evaluasi sumatif dari total matapelajaran beberapa tahun pengajaran. Ketika digunakan untuk tujuan ini, tes standar dapat memberikan informasi berharga tentang efek jangka panjang dari program dan program pengajaran yang lebih besar.
RINGKASAN
Hingga saat ini, kami telah memusatkan perhatian terutama pada tujuan dan sasaran kinerja, dengan bidang pembelajaran yang diwakilinya, dan dengan desain pelajaran yang menggunakan peristiwa dan kondisi pembelajaran yang sesuai untuk tujuan yang dipilih. Dalam bab ini, kita mengalihkan perhatian kita pada penilaian kinerja peserta didik pada tujuan. Dengan demikian, kami melanjutkan dari apa dan bagaimana ke aspek seberapa baik belajar.
Untuk tujuan menilai kinerja peserta didik pada tujuan yang direncanakan dari suatu matapelajaran, tes referensi-rujukan menggunakan interpretasi kriteria-rujukan merupakan prosedur yang paling cocok. Tes semacam itu memiliki beberapa tujuan penting:
Validitas tes yang dirujuk objektif ditemukan dengan menentukan kesesuaian tes dengan objektif. Keandalan diperoleh dengan mengukur konsistensi penilaian kinerja dan ketergantungannya dari waktu ke waktu. Konsep penguasaan relevan untuk tes yang dirujuk secara objektif dalam bidang keterampilan intelektual, keterampilan motorik, dan informasi. Untuk jenis hasil pembelajaran ini, tingkat penguasaan dapat didefinisikan sebagai pertunjukan bebas kesalahan. Dalam hal strategi dan sikap kognitif, karena penilaian berhubungan dengan seberapa baik atau seberapa banyak, penggunaan kriteria penguasaan kurang dapat diterapkan dengan jelas. Contoh diberikan tentang bagaimana kriteria kinerja dapat dipilih untuk setiap domain pembelajaran.
Jenis tes lain disebut referensi-norma. Tes semacam itu tidak mengukur tujuan matapelajaran yang terpisah dan spesifik. Sebaliknya, mereka mengukur campuran atau set tujuan komposit, apakah ini diidentifikasi atau tidak. Ketika tes yang direferensikan dengan norma adalah tes terstandarisasi, tes tersebut telah dirancang dan direvisi dengan cermat untuk menghasilkan variabilitas skor yang tinggi. Interpretasi skor dibuat dengan mengacu pada norma, yang mewakili kinerja pada tes untuk kelompok besar peserta didik. Tes semacam itu memungkinkan perbandingan skor satu murid dengan yang lainnya; mereka juga mengizinkan membandingkan skor rata-rata untuk suatu kelompok dengan skor dari kelompok norma yang lebih besar.
Referensi
Berk, R. A. (Ed.). (1984). Aguide to criterion-referenced test construction. Baltimore, MD: Johns Hopkins University Press.
Block, J. H., & Anderson, L. W. (1975). Mastery learning in classroom instruction. New York: Macmillan.
Bloom, B. S. (1968). Learning for master)'. Evaluation Comment, 1(2), 1-5.
Bloom, B. S., Hastings, J. T., & Madaus, G. F. (1971). Handbook on formative and summative evaluation of student learning. New York: McGraw-Hill.
Briggs, L. J., & Wager, W. W. (1981). Handbook ofprocedures for the design ofinstruction (2nd ed.). Englewood Cliffs, NJ: Educational Technology Publications.
Britton, B. K., & Black, J. B. (1985). Understanding expository text. Hillsdale, NJ: Earlbaum.
Cronbach, L. J. (1984). Essentials ofpsychological testing (4th ed.). New York: Harper & Row.
Dick, W., &Carey, L. (1985). The systematic design ofinstruction (2nded.). Glenview, IL: Scott, Foresman.
Fishbein, M. A. (Ed.). (1967). Attitude theory and measurement. New York: Wiley.
Gagne, R. M. (1985). The conditions of learning (4th ed.). New York: Holt, Rinehart and Winston.
Gagne, R. M, & Beard, J. G. (1978). Assessment of learning outcomes. In R. Glaser (Ed.), Advances in instructional psychology (Vol. 1). Hillsdale, NJ: Erlbaum.
Greeno, J. G. (1978). A study of problem solving. In R. Glaser (Ed.), Advances in instructional psychology (Vol. 1). Hillsdale, NJ: Erlbaum.
Guilford, J. P. (1967). The nature of human intelligence. New York: McGraw-Hill.
Hills, J. R. (1981) . Measurement and evaluation in the classroom. Columbus, OH: Merrill.
Johnson, D. M. (1972). A systematic introduction to the psychology of thinking. New York: Harper & Row.
Johnson, D. M., & Kidder, R. C. (1972). Productive thinking in psychology classes. American Psychologist, 27, 672-674.
Lathrop, R. L. (1983). The number of performance assessments necessary to determine competence. Journal of Instructional Development, 6(3), 26-31.
Pavne, D. A. (1968). The specification and measurement of learning outcomes. Waltham, MA: Blaisdell.
Popham, W. J. (1975). Educational evaluation. Englewood Cliffs, NJ: Prentice-Hall.
Thorndike, R. L., & Hagen, E. (1986). Measurement and evaluation in psychology and education. New York: Wiley.
Torrance, E. P. (1963). Education and the creative potential. Minneapolis: University of Minnesota Press.
Triandis, H. C. (1964). Exploratorv factor analyses of the behavioral component of social attitudes. Journal ofAbnormal and Social Psychology, 68, 420-430.
Tvler, L. E. (1971). Tests and measurements (2nd ed.). Englewood Cliffs, NJ: PrenticeHall.
Wald, A. (1947). Sequential analysis. New York: Wiley.
Sikap
Seperti yang ditunjukkan Bab 5, sikap bervariasi dalam intensitas yang memengaruhi pilihan tindakan pribadi. Karena kekuatan sikap adalah apa yang ingin dinilai, jelaslah bahwa penguasaan tidak dapat diidentifikasi. Penilaian kekuatan suatu sikap terhadap atau terhadap sekelompok pilihan tindakan dapat diperoleh dalam hal proporsi waktu orang tersebut berperilaku dengan cara tertentu dalam sampel situasi tertentu. Sebagai contoh, sikap terhadap penggunaan transportasi umum dapat dinilai dengan mengamati kemungkinan peserta didik memilih berbagai bentuk transportasi umum (daripada pribadi) dalam berbagai situasi di mana pilihan tersebut dibuat. Insiden yang diamati akan menjadi dasar untuk menyimpulkan sejauh mana orang tersebut cenderung menggunakan atau tidak menggunakan alat angkut publik.
Dalam menilai suatu sikap seperti "kepedulian terhadap orang lain," jelas bahwa tidak ada kriteria master gagal yang dapat ditetapkan. Namun, seorang guru mungkin mengadopsi tujuan bahwa semua murid kelas dua akan meningkat dalam sikap ini selama periode satu tahun. Selain itu, dimungkinkan untuk mengadopsi standar bahwa setiap anak akan menunjukkan kepedulian terhadap orang lain, baik dalam ekspresi verbal atau tindakan terbuka, lebih banyak kali per bulan di bulan Mei daripada selama Oktober sebelumnya. Catatan anekdotal dapat disimpan untuk merekam tindakan tersebut, dan laporan "peningkatan" atau "tidak ada perbaikan" dapat dibuat pada akhir tahun ajaran. Laporan tersebut dapat dikuantifikasi dalam hal jumlah tindakan positif dan dalam hal proporsi tindakan positif-terhadap-total (positif plus negatif). Perilaku yang mewakili kedua jenis tindakan itu tidak akan direkam, sebagai pengakuan atas kenyataan bahwa sebagian waktu anak dihabiskan dalam periode studi yang menawarkan sedikit peluang untuk berperilaku baik terhadap orang lain.
Sikap sering diukur dengan mendapatkan laporan diri tentang kemungkinan tindakan yang bertentangan dengan pengamatan langsung dari tindakan itu sendiri. Seperti diketahui, batasan paling serius dalam penggunaan kuesioner untuk tujuan ini adalah kemungkinan bias yang dihasilkan dari upaya peserta didik untuk menjawab pertanyaan sehingga mendapat persetujuan daripada mencerminkan pilihan mereka secara akurat. Tampaknya tidak ada solusi sederhana untuk masalah mendapatkan informasi yang benar-benar akurat dari laporan diri, meskipun banyak penyelidikan telah dilakukan untuk tujuan ini (lih. Fishbein, 1967). Hasil terbaik tampaknya dicapai ketika peserta didik pertama kali diyakinkan bahwa penilaian yang dilakukan tidak dimaksudkan sebagai proses musuh; yaitu, bahwa si 'tidak perlu hanya melaporkan apa yang (menurut mereka) akan disetujui. Ketika kuesioner diberikan kepada kelompok, tindakan pencegahan tambahan sering diambil untuk memastikan bahwa tanggapan dicatat secara anonim.
Seperti yang ditunjukkan sebelumnya, sikap sebaiknya dipahami dan diukur sebagai konsistensi dalam pilihan tindakan pribadi terhadap beberapa kelas objek, orang, atau peristiwa (Bab 5; lihat juga Gagne, 1985). Domain item penilaian yang mendefinisikan pilihan-pilihan ini dapat ditentukan dengan hati-hati di sepanjang beberapa dimensi (Triandis, 1964). Misalnya, dalam menilai pilihan yang dibuat oleh orang kulit putih dalam menerima "kontak sosial dengan orang Negro," item dipilih dari domain yang mencakup dimensi karakteristik sosial pribadi orang Negro (pekerjaan, usia, dan sebagainya). Tentu saja, konten spesifik instrumen Triandis mencerminkan nilai-nilai yang berlaku pada zaman sebelumnya. Tetapi metode, atau varian dari itu, mungkin dapat digunakan untuk mendefinisikan serangkaian pilihan tindakan pribadi yang memungkinkan kualitas yang dapat diterima dari skor yang dirujuk secara objektif untuk sikap.
Keterampilan Motorik
Keterampilan motorik selama bertahun-tahun telah dievaluasi dengan membandingkannya dengan standar, seperti dalam hal tulisan tangan. Bertahun-tahun yang lalu, perangkat yang dikenal di ruang sekolah dasar adalah Skala Palmer untuk menilai tulisan tangan. Sampel tulisan peserta didik dibandingkan dengan sampel ideal pada bagan yang berisi berbagai tingkat tulisan tangan "benar", masing-masing memiliki nilai numerik seperti 90, 80, 70, dan seterusnya, menunjukkan standar untuk setiap tingkat keterampilan menulis. . Ini adalah bentuk penilaian yang direferensikan kriteria, dalam standar yang stabil dan guru dapat mengatakan bahwa 60 "lulus" di kelas tiga, 70 di kelas empat, dan seterusnya.
Standar untuk penilaian keterampilan motorik biasanya merujuk pada ketepatan kinerja tetapi seringkali juga untuk kecepatannya. Karena keterampilan motorik diketahui meningkat dalam salah satu atau kedua kualitas ini dengan latihan yang lama, tidak realistis untuk mengharapkan bahwa penguasaan dapat didefinisikan dalam arti belajar atau tidak dipelajari. Oleh karena itu, standar kinerja harus diputuskan untuk menentukan apakah penguasaan telah dicapai. Keterampilan mengetik memberikan contoh metode penilaian yang baik di domain ini.
Sejumlah standar kinerja yang berbeda ditetapkan pada tingkat yang semakin tinggi untuk praktik yang telah diperpanjang dalam periode waktu yang semakin lama. Dengan demikian, standar pengujian 30 kata per menit dengan jumlah kesalahan minimum yang ditentukan dapat diadopsi sebagai standar yang masuk akal dalam matapelajaran awal, sedangkan 40 atau 50 kata per menit dapat diharapkan untuk matapelajaran lanjutan setelah lebih banyak waktu diberikan untuk latihan tambahan.
Keandalan Tindakan yang Dirujuk-Referensi
Memilih kriteria untuk item dan tes yang dirancang untuk mencapai pengukuran yang direferensikan secara obyektif memerlukan pemilihan standar kinerja yang sesuai dengan tujuan yang dinyatakan, seperti yang ditunjukkan oleh diskusi sebelumnya. Selain itu, item yang digunakan untuk penilaian perlu menghasilkan pengukuran yang dapat diandalkan. Kegiatan terakhir dari prosedur penilaian ini disebut sebagai reliabilitas, dan memiliki dua arti utama.
Konsistensi
Pertama, reliabilitas adalah konsistensi pengukuran. Penting untuk menentukan bahwa kinerja peserta didik dalam menjawab atau menyelesaikan satu item tertentu yang dirancang untuk menilai kinerjanya pada suatu tujuan konsisten dengan kinerjanya pada item lain yang ditujukan pada tujuan yang sama. Seorang murid di kelas dua dapat diminta oleh satu item untuk menunjukkan penguasaannya terhadap aturan aritmatika melalui item: 3M 2M = 25; M =? Jelas, tujuan penilaian adalah untuk mengetahui apakah ia mampu melakukan kelas operasi aritmatika jenis ini, bukan hanya apakah ia mampu melakukan yang satu ini. Dengan demikian, item tambahan milik kelas yang sama (misalnya: AM ZM - 21; SM\M = 36) biasanya digunakan untuk memastikan keandalan pengukuran.
Dalam situasi pengujian informal, seperti ketika guru memeriksa dengan menanyakan pertanyaan satu demi satu peserta didik, item tunggal dapat digunakan untuk menilai kinerja. Namun, jelas bahwa tidak ada ukuran konsistensi yang tersedia dalam situasi seperti itu. Pada setiap item, seorang peserta didik dapat membuat respons yang berhasil karena dia telah melihat dan menghafal sebuah "jawaban." Atau, tanggapannya mungkin salah karena dia secara tidak sengaja telah disesatkan oleh beberapa karakteristik tertentu dari barang tersebut. Item tunggal tidak memungkinkan kesimpulan yang meyakinkan bahwa peserta didik telah menguasai kinerja yang tersirat oleh tujuan.
Dalam kasus-kasus di mana kelas kinerja yang diwakili oleh tujuan didefinisikan dengan baik (seperti dalam contoh aritmatika yang diberikan sebelumnya), prosedur pemilihan item penilaian tambahan dari kelas yang sama cukup mudah. Penting untuk diingat bahwa kesimpulan yang ditujukan bukan "berapa banyak item yang benar?" melainkan "apakah angka yang benar menunjukkan penguasaan yang dapat diandalkan?" Meskipun dua item jelas lebih baik dari satu, mereka dapat menghasilkan hasil yang membingungkan, setengah benar-salah. Apakah ini berarti bahwa peserta didik telah mencapai penguasaan, atau apakah itu berarti dia mendapatkan satu item dengan benar hanya karena dia entah bagaimana berhasil menghafal sebuah jawaban? Tiga hal tampaknya memberikan cara yang lebih baik untuk membuat keputusan yang andal tentang penguasaan. Dalam hal ini, dua dari tiga yang dijawab dengan benar mengarah pada keyakinan tertentu bahwa keandalan pengukuran telah dicapai. Lebih banyak item dapat segera digunakan, tetapi tiga tampaknya minimum yang wajar yang menjadi dasar penilaian penguasaan yang dapat diandalkan.
Ketika strategi kognitif merupakan tujuan penilaian, item yang dipilih untuk tujuan penilaian sebenarnya bisa menjadi tugas penyelesaian masalah yang agak panjang. Sebagai contoh, tugas seperti itu mungkin untuk 'Menulis tema 300 kata pada topik yang dipilih peserta didik, dalam waktu satu jam. "Menilai kinerja secara konsisten mungkin memerlukan beberapa item karena perlu untuk menguraikan pembelajaran sebelum informasi dan keterampilan intelektual dari kualitas pemikiran orisinal. Sejumlah kesempatan harus disediakan di mana peserta didik dapat menampilkan kualitas kinerjanya dalam domain hasil belajar ini. Tujuannya adalah untuk membuat peserta didik tidak mungkin dapat memenuhi kriteria yang ditetapkan untuk tugas-tugas tersebut tanpa memiliki kemampuan asli, yang dapat digeneralisasikan untuk menulis tema asli pada topik lain.
Ketergantungan temporal
Arti kedua dari reliabilitas adalah ketergantungan pengukuran pada kesempatan yang terpisah untuk sementara waktu. Seseorang ingin diyakinkan bahwa demonstrasi penguasaan peserta didik terhadap tujuan yang dinilai pada hari Senin tidak berbeda dari apa yang akan terjadi pada hari Selasa atau pada hari lain. Apakah kinerjanya adalah hal yang fana, atau apakah ia memiliki tingkat keabadian yang diharapkan dari kemampuan yang dipelajari? Apakah kinerjanya, baik atau buruk, sebagian besar ditentukan oleh apa yang ia rasakan hari itu, oleh penyakit sementara, atau oleh beberapa fitur petualangan dari situasi pengujian?
Keandalan pengukuran dalam arti kedua ini biasanya ditentukan oleh pengujian kedua yang dipisahkan dari yang pertama dengan interval waktu beberapa hari atau minggu. Ini adalah metode tes ulang, di mana reliabilitas yang baik dari tes ditunjukkan oleh tingkat korespondensi yang tinggi antara skor yang diperoleh oleh sekelompok peserta didik pada dua kesempatan. Seringkali, prosedur ini digunakan dalam evaluasi formatif tes, tetapi juga dapat digunakan dalam penilaian praktis untuk menentukan apakah apa yang telah dipelajari memiliki tingkat stabilitas yang wajar.
TINDAKAN NORM-REFERENSI
Tes yang dirancang untuk menghasilkan skor yang membandingkan kinerja setiap peserta didik dengan kinerja kelompok atau dengan norma yang ditetapkan oleh nilai kelompok disebut norma yang dirujuk. Secara karakteristik, tes semacam itu digunakan untuk memperoleh penilaian prestasi peserta didik di atas segmen konten pengajaran yang relatif besar, seperti topik atau matapelajaran. Mereka berbeda dari tes yang dirujuk secara objektif dalam hal mereka biasanya mengukur kinerja pada campuran tujuan daripada terbatas pada penilaian tujuan tunggal yang dapat diidentifikasi dengan jelas. Dengan demikian, tes yang direferensikan norma lebih cenderung memiliki tujuan menilai "pemahaman membaca" daripada mengukur pencapaian keterampilan individu yang terlibat dalam membaca, yang dianggap sebagai tujuan khusus.
Karena karakteristik dari cakupan yang komprehensif ini, tes yang direferensikan norma paling berguna untuk jenis penilaian dan evaluasi sumatif (lihat Bab 16). Mereka memberikan jawaban untuk pertanyaan seperti "Berapa banyak sejarah Amerika yang diketahui seorang peserta didik (dibandingkan dengan orang lain di tingkat kelasnya)?" "Seberapa baik peserta didik dapat beralasan menggunakan operasi aritmatika?" "Kecakapan apa yang dimiliki peserta didik dalam menggunakan aturan tata bahasa?" Jelas, penilaian semacam itu paling tepat bila diterapkan pada pengajaran yang diperpanjang dalam jangka waktu yang cukup lama, seperti pada ujian tengah jalan atau ujian akhir matapelajaran.
Pada saat yang sama, karakteristik tindakan yang direferensikan norma menyiratkan beberapa keterbatasan yang jelas dibandingkan dengan tes yang dirujuk secara objektif. Karena barang-barang mereka biasanya mewakili campuran tujuan, seringkali tidak mungkin untuk diidentifikasi secara tunggal, mereka tidak dapat dengan mudah digunakan untuk tujuan pengujian diagnostik keterampilan dan pengetahuan prasyarat. Untuk alasan yang sama, tes yang direferensikan norma biasanya tidak memberikan tindakan langsung dan tidak ambigu dari apa yang telah dipelajari, ketika tes yang terakhir dipahami sebagai satu atau lebih tujuan yang didefinisikan.
Seringkali tes yang direferensikan norma menyajikan pertanyaan dan tugas yang mengharuskan peserta didik pada saat yang sama untuk memanfaatkan kemampuan yang dipelajari dari keterampilan intelektual, informasi, dan strategi kognitif. Dengan demikian, mereka membuat penilaian kemampuan peserta didik yang mungkin "global" daripada spesifik untuk tujuan yang dapat diidentifikasi. Untuk alasan ini, mereka sangat tepat untuk menilai hasil pembelajaran dalam satu set topik atau dalam matapelajaran total. Karena skor yang diperoleh juga mewakili suatu kelompok (satu kelas atau kelompok "yang direferensikan" yang lebih besar seperti anak-anak berusia 10 tahun), skor yang dibuat oleh masing-masing peserta didik dapat dengan mudah dibandingkan dengan yang lain dalam kelompok. Skor persentil sering digunakan untuk tujuan ini; skor seorang peserta didik dapat dinyatakan, misalnya, sebagai "jatuh dalam persentil ke-63."
Tes Buatan Guru
Tes yang dibangun oleh guru kadang-kadang dari varietas yang dirujuk norma. Guru mungkin tertarik untuk mempelajari seberapa baik peserta didik telah mempelajari isi matapelajaran, yang dapat mewakili sejumlah tujuan yang berbeda dan beberapa kategori hasil belajar. Ujian tengah dan akhir matapelajaran sering memiliki karakteristik tujuan campuran penilaian. Ini juga dapat dipahami sebagai ditujukan untuk menguji integrasi peserta didik dari berbagai keterampilan dan pengetahuan yang diharapkan telah dia pelajari.
Pada saat yang sama, tes referensi-rujukan memungkinkan perbandingan kinerja peserta didik dalam suatu kelompok atau dengan kelompok yang direferensikan (seperti kelas tahun lalu). Seringkali, tes tersebut disempurnakan selama periode tahun, menggunakan metode analisis item untuk memilih item yang paling "diskriminatif" (cf Hills, 1981; Payne, 1968). Ini berarti bahwa item yang tidak membeda-bedakan-yang banyak dijawab oleh peserta didik dengan benar dan yang tidak banyak menjawab dengan benar-semakin dibuang. Tes yang disempurnakan dengan cara ini cenderung semakin mengukur pemecahan masalah dan strategi kognitif lainnya. Mereka mungkin juga, sebagian, mengukur kecerdasan, daripada apa yang telah dipelajari secara langsung. Meskipun ini mungkin niat yang sah ketika tujuannya adalah untuk menilai efek total dari program studi, jelas bahwa kualitas tes referensi-rujukan ini membuatnya sangat berbeda dari tes referensi-rujukan.
Ketika penilaian ditujukan pada hasil dari pelajaran individu atau bagian dari pelajaran, sedikit pembenaran dapat dilihat untuk penggunaan tes referensi normal. Ketika tes semacam itu digunakan untuk menilai kinerja peserta didik yang dihasilkan dari pembelajaran tujuan yang ditentukan, mereka cenderung kehilangan titik penilaian sepenuhnya. Ketika pengajaran telah dirancang untuk memastikan pencapaian tujuan, pengujian harus diturunkan langsung dari definisi tujuan itu sendiri, seperti yang ditunjukkan pada bagian awal bab ini. Kecuali jika tes yang dirujuk secara objektif digunakan untuk tujuan ini, dua tujuan penting penilaian kemungkinan akan diabaikan: (1) penilaian penguasaan kemampuan spesifik yang dipelajari, dan (2) kemungkinan bantuan diagnostik untuk peserta didik dalam mengatasi kekurangan belajar tertentu dengan mengambil keterampilan dan pengetahuan prasyarat yang hilang.
Tes Standar
Tes referensi-rujukan dimaksudkan untuk penggunaan luas di antara banyak sekolah dalam sistem sekolah, daerah, atau di negara ini secara keseluruhan mungkin memiliki norma yang distandarisasi. Ini berarti bahwa tes telah diberikan kepada sampel besar peserta didik dalam kelompok usia (atau kelas) yang ditentukan dan bahwa distribusi skor yang diperoleh menjadi standar yang dapat dibandingkan dengan skor setiap peserta didik atau kelas peserta didik tertentu. Kadang-kadang, norma-norma standar dinyatakan sebagai persentil, yang menunjukkan berapa persen sampel besar peserta didik yang mencapai atau jatuh di bawah nilai tertentu. Seringkali, standar tersebut juga dinyatakan sebagai skor setara kelas, menunjukkan skor yang diperoleh oleh semua anak dalam kelompok yang berada di kelas satu, kelas dua, dan seterusnya. Prosedur yang digunakan dalam pengembangan dan validasi tes standar dijelaskan dalam banyak buku tentang hal ini (lih. Cronbach, 1984; Thorndike dan Hagen, 1986; Tyler, 1971).
Tes terstandardisasi pada umumnya adalah tes yang dirujuk secara normal; pengembangan tes yang dirujuk secara objektif belum berlanjut ke titik ketersediaan untuk berbagai tujuan dan untuk berbagai tingkat pengajaran. Dengan demikian, tes standar biasanya menunjukkan karakteristik yang dijelaskan sebelumnya. Mereka biasanya dicampur dalam pengukuran tujuan tertentu karena barang-barang mereka belum secara langsung diturunkan dari tujuan tersebut. Item mereka dipilih untuk menghasilkan variasi skor terbesar di kalangan peserta didik, dan karenanya, skor mereka cenderung sangat berkorelasi dengan kecerdasan daripada dengan hasil pembelajaran tertentu. Dengan beberapa pengecualian, mereka gagal memberikan identifikasi hilangnya kemampuan bawahan yang penting untuk tujuan diagnostik.
Jelas, kemudian, tes standar sangat tidak pantas untuk digunakan dalam penilaian rinci hasil belajar dari pelajaran yang memiliki tujuan tertentu. Penggunaannya yang paling sering dan paling tepat adalah untuk tujuan evaluasi sumatif dari total matapelajaran beberapa tahun pengajaran. Ketika digunakan untuk tujuan ini, tes standar dapat memberikan informasi berharga tentang efek jangka panjang dari program dan program pengajaran yang lebih besar.
RINGKASAN
Hingga saat ini, kami telah memusatkan perhatian terutama pada tujuan dan sasaran kinerja, dengan bidang pembelajaran yang diwakilinya, dan dengan desain pelajaran yang menggunakan peristiwa dan kondisi pembelajaran yang sesuai untuk tujuan yang dipilih. Dalam bab ini, kita mengalihkan perhatian kita pada penilaian kinerja peserta didik pada tujuan. Dengan demikian, kami melanjutkan dari apa dan bagaimana ke aspek seberapa baik belajar.
Untuk tujuan menilai kinerja peserta didik pada tujuan yang direncanakan dari suatu matapelajaran, tes referensi-rujukan menggunakan interpretasi kriteria-rujukan merupakan prosedur yang paling cocok. Tes semacam itu memiliki beberapa tujuan penting:
- Mereka menunjukkan apakah setiap peserta didik telah menguasai suatu tujuan dan, karenanya, dapat melanjutkan belajar untuk tujuan lain.
- Mereka memungkinkan deteksi dini dan diagnosis kegagalan untuk belajar, sehingga membantu mengidentifikasi studi perbaikan yang diperlukan.
- Mereka menyediakan data untuk melakukan perbaikan dalam pengajaran itu sendiri.
- Mereka adalah evaluasi yang adil dalam hal mereka mengukur kinerja pada tujuan yang diberikan kepada peserta didik sebagai indikasi apa yang seharusnya dia pelajari. Tes semacam ini konsisten dengan kejujuran hubungan guru dengan pelajar.
Validitas tes yang dirujuk objektif ditemukan dengan menentukan kesesuaian tes dengan objektif. Keandalan diperoleh dengan mengukur konsistensi penilaian kinerja dan ketergantungannya dari waktu ke waktu. Konsep penguasaan relevan untuk tes yang dirujuk secara objektif dalam bidang keterampilan intelektual, keterampilan motorik, dan informasi. Untuk jenis hasil pembelajaran ini, tingkat penguasaan dapat didefinisikan sebagai pertunjukan bebas kesalahan. Dalam hal strategi dan sikap kognitif, karena penilaian berhubungan dengan seberapa baik atau seberapa banyak, penggunaan kriteria penguasaan kurang dapat diterapkan dengan jelas. Contoh diberikan tentang bagaimana kriteria kinerja dapat dipilih untuk setiap domain pembelajaran.
Jenis tes lain disebut referensi-norma. Tes semacam itu tidak mengukur tujuan matapelajaran yang terpisah dan spesifik. Sebaliknya, mereka mengukur campuran atau set tujuan komposit, apakah ini diidentifikasi atau tidak. Ketika tes yang direferensikan dengan norma adalah tes terstandarisasi, tes tersebut telah dirancang dan direvisi dengan cermat untuk menghasilkan variabilitas skor yang tinggi. Interpretasi skor dibuat dengan mengacu pada norma, yang mewakili kinerja pada tes untuk kelompok besar peserta didik. Tes semacam itu memungkinkan perbandingan skor satu murid dengan yang lainnya; mereka juga mengizinkan membandingkan skor rata-rata untuk suatu kelompok dengan skor dari kelompok norma yang lebih besar.
Referensi
Berk, R. A. (Ed.). (1984). Aguide to criterion-referenced test construction. Baltimore, MD: Johns Hopkins University Press.
Block, J. H., & Anderson, L. W. (1975). Mastery learning in classroom instruction. New York: Macmillan.
Bloom, B. S. (1968). Learning for master)'. Evaluation Comment, 1(2), 1-5.
Bloom, B. S., Hastings, J. T., & Madaus, G. F. (1971). Handbook on formative and summative evaluation of student learning. New York: McGraw-Hill.
Briggs, L. J., & Wager, W. W. (1981). Handbook ofprocedures for the design ofinstruction (2nd ed.). Englewood Cliffs, NJ: Educational Technology Publications.
Britton, B. K., & Black, J. B. (1985). Understanding expository text. Hillsdale, NJ: Earlbaum.
Cronbach, L. J. (1984). Essentials ofpsychological testing (4th ed.). New York: Harper & Row.
Dick, W., &Carey, L. (1985). The systematic design ofinstruction (2nded.). Glenview, IL: Scott, Foresman.
Fishbein, M. A. (Ed.). (1967). Attitude theory and measurement. New York: Wiley.
Gagne, R. M. (1985). The conditions of learning (4th ed.). New York: Holt, Rinehart and Winston.
Gagne, R. M, & Beard, J. G. (1978). Assessment of learning outcomes. In R. Glaser (Ed.), Advances in instructional psychology (Vol. 1). Hillsdale, NJ: Erlbaum.
Greeno, J. G. (1978). A study of problem solving. In R. Glaser (Ed.), Advances in instructional psychology (Vol. 1). Hillsdale, NJ: Erlbaum.
Guilford, J. P. (1967). The nature of human intelligence. New York: McGraw-Hill.
Hills, J. R. (1981) . Measurement and evaluation in the classroom. Columbus, OH: Merrill.
Johnson, D. M. (1972). A systematic introduction to the psychology of thinking. New York: Harper & Row.
Johnson, D. M., & Kidder, R. C. (1972). Productive thinking in psychology classes. American Psychologist, 27, 672-674.
Lathrop, R. L. (1983). The number of performance assessments necessary to determine competence. Journal of Instructional Development, 6(3), 26-31.
Pavne, D. A. (1968). The specification and measurement of learning outcomes. Waltham, MA: Blaisdell.
Popham, W. J. (1975). Educational evaluation. Englewood Cliffs, NJ: Prentice-Hall.
Thorndike, R. L., & Hagen, E. (1986). Measurement and evaluation in psychology and education. New York: Wiley.
Torrance, E. P. (1963). Education and the creative potential. Minneapolis: University of Minnesota Press.
Triandis, H. C. (1964). Exploratorv factor analyses of the behavioral component of social attitudes. Journal ofAbnormal and Social Psychology, 68, 420-430.
Tvler, L. E. (1971). Tests and measurements (2nd ed.). Englewood Cliffs, NJ: PrenticeHall.
Wald, A. (1947). Sequential analysis. New York: Wiley.
0 Komentar