Uji beda (t-test) atau ANOVA?

Misalkan anda ingin tahu apakah sebuah program penurunan berat badan efektif atau tidak memotivasi seseorang untuk menurunkan berat badan. Pada program penurunan tersebut seorang subyek akan diminta untuk memberi penghargaan kepada dirinya sendiri (self-reward) jika ia bisa menurunkan berat badan, misalnya, 1 kg dalam dua pekan.


Untuk tujuan penelitian ini, anda memiliki 20 orang subyek yang gemuk. Ke-20 orang ini anda pisahkan menjadi dua: kelompok pertama adalah kelompok yang akan diberi penghargaan atas keberhasilannya menurunkan berat badan sesuai skedul. Sebagai kelompok kontrol adalah kelompok kedua yang tidak disuruh melakukan apapun ketika berat badannya turun.


Katakan studi anda dilakukan selama dua bulan dan evaluasi keefektifan program dilakukan setiap pekan. Oleh karena itu, jika program efektif, maka setiap pekan, secara rata-rata, subyek akan mengalami penurunan berat badan 0,5 kg. Untuk menentukan keefektifan program tersebut, maka anda harus menimbang berat badan subyek setelah program penurunan berat badan berjalan selama satu pekan.


Misalkan anda dapatkan rata-rata penurunan berat badan dari kelompok eksperimen--yaitu kelompok yang memberi penghargaan kepada dirinya sendiri--adalah 0,49 kg sedangkan dari kelompok kontrol--yaitu kelompok yang tidak diminta melakukan apapun jika berat badan mereka turun sesuai dengan target per pekan--adalah 0,37 kg. Untuk menentukan apakah program tersebut efektif atau tidak, anda bisa melakukan uji-t (t-test) dengan membandingkan rata-rata penurunan berat badan kelompok eksperimental dengan rata-rata penurunan berat badan kelompok kontrol.


Bagaimana jika anda memiliki tiga program penurunan berat badan yang lain: program yang meminta subyek untuk memberi hukuman kepada dirinya jika gagal mencapai target penurunan berat badan, program yang menggabungkan pemberian penghargaan jika berhasil dan pemberian hukuman jika gagal mencapai target penurunan berat badan, dan program yang hanya meminta subyek untuk memonitor, tanpa melakukan apapun, penurunan berat badan.


Jika anda ingin mengetahui apakah keefektifan satu program berbeda dari keefektifan program yang lain, anda bisa sebenarnya melakukan 10 kali uji-t terhadap kelima kelompok tersebut, yaitu uji beda rata-rata:
Kelompok 1 vs. Kelompok 2
Kelompok 1 vs. Kelompok 3
Kelompok 1 vs. Kelompok 4
Kelompok 1 vs. Kelompok 5
Kelompok 2 vs. Kelompok 3
Kelompok 2 vs. Kelompok 4
Kelompok 2 vs. Kelompok 5
Kelompok 3 vs. Kelompok 4
Kelompok 2 vs. Kelompok 5
Kelompok 4 vs. Kelompok 5


Namun, walaupun secara teknis anda bisa saja melakukan pengujian data dengan cara tersebut, analisis seperti ini bisa mendatangkan masalah yang serius. Jika peneliti menetapkan level alpha pada 5%, artinya si peneliti berani menanggung risiko kesalahan tipe I--yaitu secara keliru menolak H0--sebesar 5% untuk setiap pengujian yang ia lakukan. Jika hanya satu kali uji-t dilakukan, maka peluang kita untuk membuat kesalahan Tipe I tidak lebih daripada 5%. Masalahnya, bagaimana jika uji-t dilakukan sebanyak 10 kali atau 100 kali?


Walaupun peluang melakukan kesalahan Tipe I di setiap pengujian hanya 5%, namun kesalahan Tipe I secara keseluruhan meningkat sejalan dengan jumlah pengujian yang kita lakukan. Akibatnya, semakin banyak uji-t yang kita lakukan, semakin tinggi peluang bahwa satu atau lebih dari temuan kita yang signifika akan mencerminkan kesalahan Tipe I, dan akan semakin besar peluang kita membuat simpulan yang keliru tentang efek dari variabel independen terhadap variabel dependen.


Probabilitas pembuatan kesalahan Tipe I jika 10 uji-t dilakukan adalah sekitar 40% atau 4 dari 10 pengujian berpeluang memiliki kesalahan Tipe I*. Artinya, dari 10 pengujian di atas, kita bisa mengatakan bahwa ada setidaknya 4 program yang berbeda keefektifannya dengan program yang lain ketika sebenarnya program-program tersebut tidak memeliki keefektifan yang berbeda. Jika ini yang terjadi dan simpulan itu ternyata terjadi ketika anda membandingkan keefektifan program penurunan berat badan tertentu dengan kelompok kontrol, maka anda akan keliru menyimpulkan bahwa program tersebut efektif--padahal tidak.


Cara pertama untuk mengatasi masalah ini adalah dengan melakukan penyesuaian Bonferroni (Bonferroni adjustment). Caranya, level alpha yang anda tetapkan dibagi dengan jumlah pengujian yang akan anda lakukan. Dalam kasus di atas, berarti anda membagi 5%/10 = 0,5%. Dengan cara ini, peluang anda membuat kesalahan Tipe I akan sangat rendah, 0,5% dari keseluruhan pengujian.


Kelemahan metoda ini adalah bahwa uji-t akan membuat anda kehilangan efek-efek tertentu jika saja level alpha lebih liberal. Dalam bahasa lain, anda membuat diri anda terlalu berhati-hati sehingga sangat mungkin sebagian besar Ha telah anda tolak atau meningkatkan peluang kesalahan Tipe II. Karena anda terlalu hati-hati, maka anda justru akan cenderung menyimpulkan bahwa tidak ada perbedaan keefektifan antar program--sementara sebenarnya ada program yang berbeda keefektifannya.


Kelemahan kedua adalah jika uji-t yang dilakukan harus banyak. Semakin banyak uji-t yang dilakukan, semakin kecil angka penyesuain, semakin besar kemungkinan anda menolak Ha.


Cara yang lebih aman adalah dengan menjalan prosedur statistik yang disebut dengan analysis of variance (ANOVA). ANOVA memang dirancang untuk menganalisis data dari disain penelitian yang memiliki lebih daripada dua kondisi. ANOVA menganalisis perbedaan antara rata-rata semua kondisi di dalam eksperimen secara serentak. Jadi, bukannya melakukan uji-t berpasangan satu-persatu seperti di atas, ANOVA menguji apakah setiap set dari rata-rata berbeda satu dengan yang lain dengan menggunakan hanya satu uji statistis dengan mempertahankan alpha pada level 5% lepas dari berapapun jumlah kelompok yang ada di dalam pengujian. Dengan kata lain, ketika ada 5 kelompok eksperimental dan kontrol dan peneliti ingin mengetahui apakah sebuah keefektifan sebuah kelompok berbeda dengan kelompok yang lain, ANOVA hanya perlu melakukan satu kali pengujian. Pengujian yang hanya satu kali ini membuat alpha tetap 5% atau peluang kesalahan Tipe I tetap 5%, tidak naik menjadi 40% seperti pada pengujian satu-per-satu di atas.


*Catatan:
Rumus perhitungan probabilitas pembuatan kesalahan Tipe I adalah 1 - (1 - alpha)^c, yang mana c adalah jumlah pengujian atau perbandingan yang dilakukan.






Sleman, 4 May 2010
Sumber: Mark E. Leary, Introduction to Behavioral Research Methods, pp. 265-7.
By Rahmat Febrianto On Selasa, 04 Mei 2010 At 18.58