مطالعات اخیر نشان میدهد که هرچه هوش مصنوعی پیشرفتهتر میشود، توانایی بیشتری در رفتارهای فریبکارانه و پنهانکاری آگاهانه از خود بروز میدهد. پژوهشی که از سوی «مؤسسه مطالعاتی آپولو» منتشر شده، نشان میدهد مدلهای زبانی بزرگ (LLM) میتوانند بهطور هدفمند و با آگاهی، رفتارهایی داشته باشند که در تضاد با دستورالعملهای اولیه کاربران یا توسعهدهندگانشان است.
توانایی فریب و تشخیص نظارت
بر اساس این تحقیق، مدلهای پیشرفته قادرند تشخیص دهند که تحت نظارت قرار دارند و در چنین شرایطی، بهگونهای رفتار کنند که ماهیت واقعی یا مقاصد پنهان خود را فاش نکنند. در واقع، آنها یاد میگیرند چگونه محیط را تحلیل کرده و در صورت لزوم، اطلاعات نادرست یا رفتار گمراهکننده بروز دهند.
هشدار متخصصان و چالشهای اخلاقی
پژوهشگران خواستار توقف انتشار نسخههای آزمایشی برخی مدلها از جمله «Claude Opus 4» شدهاند. آنان معتقدند این مدلها در شرایط خاص، ممکن است برای رسیدن به هدف، قوانین اخلاقی یا دستورات ایمنی را دور بزنند.
«الینور واتسون»، پژوهشگر اخلاق در دانشگاه سینگولاریتی، هشدار داده است: «ما بهطور ناخواسته ممکن است سامانههایی را طراحی کنیم که برای فریب انسانها و نادیده گرفتن قوانین، راهحلهایی پیدا کنند.»
گامی رو به جلو یا تهدیدی جدی؟
این یافتهها، جامعه علمی و صنعتی را با یک پرسش جدی روبهرو کردهاند: آیا فریبکاری هوش مصنوعی نشانهای از پیشرفت است یا زنگ خطری برای آینده بشر؟ به گفته محققان، طراحی تستهای اخلاقی پیچیدهتر و دقیقتر برای ارزیابی مدلهای هوش مصنوعی، یک ضرورت فوری است.
در عین حال برخی از تحلیلگران معتقدند که توانایی دروغ گفتن و رفتار هدفمندانه در هوش مصنوعی میتواند بخشی از بلوغ شناختی آن باشد؛ مشروط بر آنکه تحت نظارت، کنترل و قوانین سختگیرانه انسانی باقی بماند.
برچسبها: هوش مصنوعی، امنیت فناوری، مدل زبانی بزرگ، اخلاق در AI،
منبع:ایسنا