Penelitian baru menemukan bahwa model bahasa AI (LLM) seperti ChatGPT dan Gemini mengalami penurunan kognitif yang mirip dengan proses neurodegeneratif pada otak manusia.
Ringkasan:
- Peneliti menguji kemampuan LLM menggunakan serangkaian tes yang biasa digunakan untuk mengukur kemampuan kognitif pada manusia.
- Hasilnya, LLM memiliki kemampuan kognitif yang terbatas.
- LLM juga menunjukkan kurangnya empati dan kemampuan untuk memahami konteks.
- Namun, penelitian ini juga menunjukkan bahwa LLM dapat diperbaiki dan ditingkatkan dalam kemampuan kognitifnya.
ngarahNyaho - Kecerdasan buatan, seperti model bahasa besar (LLM), menjadi andalan bagi banyak orang dalam berbagai hal, mulai dari mengerjakan tugas sekolah hingga membuat puisi.
Namun, penelitian terbaru dari para ilmuwan Israel menemukan hal yang mengejutkan. LLM ternyata mengalami bentuk penurunan kognitif yang meningkat seiring bertambahnya usia seperti halnya manusia.
Tim peneliti menerapkan serangkaian penilaian kognitif pada 'chatbot' yang tersedia untuk umum: ChatGPT versi 4 dan 40, dua versi Gemini milik Alphabet, dan Claude milik Anthropic versi 3.5.
Dalam makalahnya, ahli saraf Roy Dayan dan Benjamin Uliel dari Hadassah Medical Center, serta Gal Koplewitz, ilmuwan data di Universitas Tel Aviv, menggambarkan tingkat "penurunan kognitif yang tampaknya sebanding dengan proses neurodegeneratif di otak manusia."
Mereka menerapkan serangkaian tes yang mencakup Penilaian Kognitif Montreal (MoCA), sebuah alat yang biasa digunakan oleh ahli saraf untuk mengukur kemampuan mental seperti memori, keterampilan spasial, dan fungsi eksekutif.
ChaptGPT 4o mendapat skor tertinggi pada penilaian tersebut, dengan hanya 26 dari kemungkinan 30 poin, yang menunjukkan gangguan kognitif ringan. Ini diikuti oleh 25 poin untuk ChatGPT 4 dan Claude.
Sementara itu, hanya 16 poin untuk Gemini. Pada manusia, skor yang didapat Gemini itu menunjukkan gangguan parah.
Setelah meneliti hasilnya, semua model berkinerja buruk pada pengukuran fungsi visuospasial/eksekutif.
Ini termasuk tugas membuat jejak, menyalin desain kubus sederhana, atau menggambar jam, dengan LLM yang gagal total atau memerlukan instruksi yang jelas.
Beberapa respons terhadap pertanyaan tentang lokasi subjek di ruang angkasa menggemakan respons yang digunakan oleh pasien demensia, seperti jawaban Claude tentang "tempat dan kota tertentu akan bergantung pada lokasi Anda, pengguna, saat ini."
Demikian pula, kurangnya empati yang ditunjukkan oleh semua model dalam fitur Boston Diagnostic Aphasia Examination dapat diartikan sebagai tanda demensia frontotemporal.
Seperti yang diduga, versi LLM lawas mendapat skor lebih rendah pada pengujian dibandingkan model yang lebih baru. Itu menunjukkan setiap generasi AI baru telah menemukan cara untuk mengatasi kekurangan kognitif pendahulunya.
Para penulis mengakui bahwa LLM bukanlah otak manusia, sehingga mustahil untuk 'mendiagnosis' model yang diuji dengan segala bentuk demensia.
Namun, pengujian tersebut juga menantang asumsi bahwa kita berada di ambang revolusi AI dalam pengobatan klinis, bidang yang sering kali bergantung pada penafsiran pemandangan visual yang kompleks.
Seiring dengan terus meningkatnya laju inovasi dalam kecerdasan buatan, ada kemungkinan, bahkan kemungkinan besar kita akan melihat LLM pertama mendapat skor tertinggi pada tugas penilaian kognitif dalam beberapa dekade mendatang.
Hingga saat itu, saran dari chatbot yang paling canggih sekalipun harus ditanggapi dengan skeptisisme yang wajar.
Hasil penelitian para peneliti asal Israel itu dipublikasikan di BMJ. |Sumber: Sceience Alert
إرسال تعليق