Politika.co.id - Penelitian terbaru menunjukkan bahwa meskipun 55 persen organisasi telah merilis aplikasi dan fitur berbasis AI, 52 persen inisiatif AI gagal mencapai  tahap produksi penuh. Ketegangan ini juga tercermin dalam sentimen pengguna, dengan 40 persen mengatakan bahwa meskipun alat AI meningkatkan produktivitas lebih dari 75 persen, masalah kualitas semakin meningkat.

Laporan dari  Applause , berdasarkan survei terhadap lebih dari 1.000 pengembang, profesional QA, dan konsumen, menemukan bahwa 40 persen pengguna mengalami halusinasi AI, meningkat dari 32 persen pada tahun 2025. Selain itu, 46 persen mengatakan AI salah memahami perintah mereka — yang kini menjadi masalah yang paling banyak dilaporkan — sementara 41 persen mengatakan respons yang diberikan kurang detail.

Di antara temuan lainnya, 84 persen pengguna AI generatif mengatakan fungsionalitas multimodal — kemampuan untuk memproses dan menghasilkan teks, gambar, audio, dan video — sangat penting, sehingga memberikan tekanan tambahan pada tim QA. Laporan tersebut juga menemukan bahwa peningkatan skala inisiatif AI, termasuk dua yang paling umum — chatbot dan alat layanan pelanggan — masih merupakan tantangan.

Meskipun organisasi mempercepat adopsi teknik pengujian AI untuk memvalidasi produk AI baru, evaluasi oleh manusia tetap menjadi pendekatan yang paling banyak digunakan, dengan 61 persen organisasi mengandalkan masukan manusia untuk memvalidasi kinerja AI. Sementara itu, 33 persen menggunakan metode LLM sebagai penilai, di mana beberapa model menilai keluaran AI secara paralel untuk mengungkap titik buta.

Terlepas dari beragam pendekatan ini, strategi pengujian masih kesulitan untuk mengimbangi kecepatan dan kompleksitas pengembangan AI, sehingga meninggalkan celah kritis dalam bagaimana sistem ini divalidasi dalam skala besar.

Untuk mengatasi hal ini, tim mengadopsi kombinasi pendekatan pengujian berbasis AI dan yang dipimpin manusia. Pendekatan ini mencakup penyempurnaan dengan data sintetis (29 persen) dan data yang dihasilkan manusia (54 persen), pengujian tim merah yang dipimpin manusia (39 persen) dan otomatis (23 persen), serta agen pengujian berbasis AI (30 persen) dan pemantauan dengan campur tangan manusia (31 persen). Wawasan manusia tetap menjadi inti dari proses QA AI.

Sebanyak 46 persen melaporkan bahwa sentimen manusia dan kemudahan penggunaan adalah faktor utama dalam menentukan apakah fitur AI siap untuk diproduksi — jauh lebih penting daripada tolok ukur teknis semata.

“Pengujian AI bukan hanya tentang akurasi—tetapi juga tentang mengevaluasi keluaran multimodal yang kompleks dalam skala besar,” kata Chris Munroe, Wakil Presiden program AI di Applause.

 “Sistem LLM sebagai penilai menjadi bagian penting dari proses tersebut, tetapi sistem ini tidak dapat beroperasi secara terisolasi,” lanjutnya.

Tanpa pengawasan manusia, Anda berisiko memperkuat titik buta yang sama yang ingin Anda deteksi. Selain evaluasi dan penyempurnaan yang dipimpin manusia, pengujian tim merah terstruktur oleh pakar bidang dan generalis sangat penting.