Mengembangkan Penilaian Siswa yang Andal

pencils and smartphone on top of books

Reliabilitas mengacu pada seberapa baik skor mewakili kemampuan individu, dan dalam pendidikan, memastikan bahwa penilaian mengukur pengetahuan siswa secara akurat. Karena reliabilitas mengacu secara khusus pada skor, tes atau rubrik penuh tidak dapat digambarkan sebagai dapat diandalkan atau tidak dapat diandalkan. Sebaliknya, skor yang dapat diandalkan membantu siswa memahami tingkat perkembangan mereka, dan membantu instruktur meningkatkan efektivitas pengajaran mereka. Berbagai metode biasanya digunakan untuk memperkirakan reliabilitas skor, dan instruktur dapat membuat metode reliabilitas transparan untuk memotivasi upaya siswa dan memastikan keakuratannya.

Instruktur harus memperhatikan bahwa ada banyak alasan mengapa skor mungkin tidak secara sempurna mewakili pengetahuan siswa. Misalnya, kecemasan ujian, gangguan dalam lingkungan pengujian, atau menebak-nebak dapat menyebabkan perbedaan antara skor dan kemampuan aktual individu. Meskipun beberapa faktor ini tidak dapat sepenuhnya dihilangkan, instruktur dapat meningkatkan keandalan saat merancang penilaian, menilai pekerjaan siswa, dan menganalisis kinerja siswa pada item atau kriteria tes individu.

Contoh Ukuran Keandalan:
Antar-penilai – Dua individu yang terpisah (misalnya, instruktur dan TF, atau rekan) mengevaluasi dan menilai tes subjek, esai, atau kinerja, dan skor dari masing-masing penilai dikorelasikan. Koefisien korelasi kemudian digunakan sebagai estimasi reliabilitas. Beberapa statistik lain juga dapat dihitung oleh instruktur untuk membandingkan skor dari dua penilai. Misalnya, kappa Cohen mempertimbangkan jumlah kesepakatan yang mungkin terjadi antara dua penilai sebagai akibat kebetulan.

Test-Retest – Individu mengikuti tes yang sama pada kesempatan terpisah dan skor dapat dikorelasikan oleh instruktur, menggunakan koefisien korelasi sebagai perkiraan reliabilitas. Karena individu belajar dari tes, pendekatan ini harus peka terhadap jumlah waktu dan tingkat pembelajaran antara penyelenggara tes.
Bentuk Paralel – Dua tes yang setara, mengukur konsep yang sama, pengetahuan, keterampilan, kemampuan, dll., Diberikan kepada kelompok individu yang sama, dan nilainya dapat dikorelasikan oleh instruktur. Koefisien korelasi adalah perkiraan reliabilitas. Instruktur harus memperhatikan bahwa merancang dua pengujian yang terpisah tetapi identik bisa sangat sulit.
Split-Half – Satu tes dibagi menjadi dua set item. Skor individu pada separuh tes dikorelasikan dengan skor mereka pada separuh tes lainnya. Pendekatan ini memperhitungkan kelelahan pengujian dan pergeseran bertahap dalam pendekatan saat pengujian dirancang. Instruktur dapat memutuskan untuk membagi tes dengan berbagai cara (yaitu genap versus ganjil, pertama versus terakhir, dll.), Tetapi harus menyadari bahwa metode pemisahan akan memengaruhi koefisien korelasi.

Cronbach’s Alpha – Cronbach’s Alpha adalah ukuran keandalan yang paling sering dilaporkan saat menganalisis skala jenis Likert atau tes pilihan ganda. Ini umumnya diinterpretasikan sebagai mean dari semua kemungkinan kombinasi split-half, atau rata-rata atau tendensi sentral ketika sebuah pengujian dipisahkan terhadap dirinya sendiri. Untuk referensi, alfa di atas 0,7 biasanya dianggap dapat diterima. Cronbach’s Alpha dapat dihitung oleh instruktur di Excel atau paket perangkat lunak statistik lainnya.

Rekomendasi
Reliabilitas dapat ditingkatkan dengan sejumlah metode. Jika evaluasi berbasis kinerja atau esai:

Rancang rubrik – Rubrik membantu penilai / penilai fokus pada kriteria yang sama di semua kiriman. Rubrik dapat dirancang dengan berbagai cara, dan juga memperjelas standar penilaian dan ekspektasi kinerja bagi siswa.
Menilai item demi item – Jika siswa diberikan beberapa esai atau set masalah, instruktur dapat mengevaluasi / menilai esai / masalah pertama pada makalah setiap siswa sebelum menilai esai / masalah kedua. Hal ini memungkinkan penilai / pemberi nilai untuk menerapkan kumpulan kriteria yang sama pada satu waktu, dan meminimalkan efek dampak kelelahan atau suasana hati yang secara berbeda mempengaruhi kinerja siswa mana pun.
Memberi nilai secara anonim – Instruktur mungkin ingin tahu pekerjaan siapa yang mereka nilai, untuk memberikan umpan balik tentang kinerja di seluruh kursus. Namun, setiap penilai / evaluator memiliki beberapa bias, yang dapat berdampak positif atau negatif terhadap skor siswa secara individu. Misalnya, jika seorang siswa adalah pekerja keras di kelas, instruktur mungkin lebih lunak saat menilai esai dari siswa tersebut. Instruktur dapat menilai secara anonim untuk meminimalkan efek bias dalam proses penilaian. Instruktur dapat mengabaikan nama siswa saat menilai, atau mempertimbangkan pendekatan penilaian buta lainnya.

Melatih penilai – Jika beberapa penilai digunakan, instruktur harus memberikan pelatihan kepada penilai tentang cara menggunakan rubrik atau kriteria evaluasi / penilaian. Contoh esai atau pertunjukan dapat disediakan. Selain itu, untuk setiap esai atau masalah, sebagian kiriman harus dinilai secara independen oleh beberapa penilai. Keandalan antar penilai dapat dihitung pada subset, dan penilai dapat mendiskusikan perbedaan apa pun sebelum menilai kiriman lainnya.

Jika evaluasi terdiri dari tes pilihan ganda atau item tipe likert:

Rancang penilaian menggunakan tabel spesifikasi – Tabel spesifikasi menguraikan konten yang dicakup dalam tes atau penilaian. Tabel spesifikasi biasanya terdiri dari tiga komponen utama. Pertama, daftar topik yang tercakup dalam penilaian. Kedua, klasifikasi atau taksonomi (yaitu taksonomi Bloom) yang menjelaskan jenis pertanyaan yang ada dalam ujian. Ketiga, indikator jumlah pertanyaan yang akan disajikan yang sesuai dengan masing-masing bidang konten dan klasifikasi.

Tabel spesifikasi memungkinkan subskala dibuat di antara beberapa konsep yang diuji. Misalnya, koefisien reliabilitas terpisah dapat dihitung untuk item yang menguji unit pertama dan item yang mengukur unit kedua. Tabel spesifikasi juga akan memberikan umpan balik terperinci kepada siswa dan instruktur tentang konten yang dibahas.
Lakukan diagnostik level item untuk meningkatkan tes. Harap dicatat bahwa beberapa perangkat lunak pengujian dapat memberikan data yang dijelaskan di bawah ini untuk Anda dalam bentuk laporan.
Cronbach’s alpha – Saat menghitung Cronbach’s Alpha, dimungkinkan untuk menentukan item mana yang berdampak negatif pada keandalan. Item tersebut kemudian dapat dihapus untuk meningkatkan keandalan skor.
Kesulitan item – Persentase siswa yang menjawab item dengan benar. Item yang terlalu sulit dapat berdampak negatif pada reliabilitas, jika kesulitan berhasil dikaitkan dengan pertanyaan atau isi, dan bukan pada prestasi belajar siswa. Namun, item yang terlalu mudah tidak mendeteksi perbedaan antara siswa yang berprestasi tinggi dan rendah.
Diskriminasi item – Memeriksa seberapa baik suatu item mampu membedakan antara siswa berprestasi tinggi dan siswa berprestasi rendah. Item yang tidak berkinerja seperti yang diharapkan (siswa yang berprestasi lebih banyak mendapatkan jawaban benar lebih banyak daripada siswa yang berprestasi lebih rendah) berdampak negatif pada keandalan.
Analisis pengalih perhatian – Menentukan pertanyaan pengalih mana yang dipilih oleh siswa (atau siswa dengan tingkat kinerja yang berbeda). Setiap gangguan yang tidak dipilih (atau jarang dipilih) harus diubah. Jika siswa mampu menghilangkan pilihan jawaban, mereka memiliki kemungkinan lebih tinggi untuk menebak jawaban yang benar tanpa memahami isinya.

Bacaan lebih lanjut
Cronbach LJ. (1951). Koefisien alpha dan struktur internal pengujian. Psikometrika 16: 297-334.

Guttman L. (1945). Dasar untuk menganalisis reliabilitas test-retest. Psychometrika 10: 255-282.

Gwet KL. (2014). Buku Pegangan keandalan antar penilai: Panduan definitif untuk mengukur tingkat kesepakatan di antara penilai. Analisis Lanjutan, LLC.

Malouff J. (2008). Bias dalam penilaian. Pengajaran Perguruan Tinggi 56 (3): 191-192.

Murphy KR & Davidshofer CO. (1988). Tes psikologis. Prinsip, dan Penerapan. Prentice Hall: Englewood Cliffs, NJ.

Osterlind, SJ. (2006). Pengukuran modern: Teori, prinsip, dan aplikasi penilaian mental. Pearson: Upper Saddle River, NJ.

Sumber: https://poorvucenter.yale.edu/ReliableAssessments