طبق گفته دو محقق هوش مصنوعی ChatGPT دیگر قدیمی شده و با دوران تجربه ، هوش مصنوعی دیگر نیازی به انسان نخواهد داشت.
به گزارش پایگاه خبری پهنه پرواز به نقل از غزال زیاری: واحد DeepMind گوگل اخیراً در مقاله جدیدش از رویکردی انقلابی برای توسعه هوش مصنوعی پرده برداشته و آن را “streams” یا “جریانهای تجربه” نامیده است.
در این رویکرد، آموزش دیدن مدلهای هوش مصنوعی صرفاً با دادههای انسانیِ ایستا و محدود نخواهد بود؛ بلکه این مدلها مثل انسانها، از طریق تعامل مستمر با محیط اطرافشان تجربهاندوزی کرده و با بازخوردهای محیطی هدفگذاری میکنند.
نقطهضعف کجاست و راهکار چیست؟
به نظر میرسد که نقطه آغاز این تحول، انتقاد از وضعیت فعلی توسعه مدلهای زبانی بزرگ است. دیوید سیلور و ریچارد ساتن، دو چهره برجسته حوزه هوش مصنوعی، چالش اصلی را نه در آزمونهایی مثل تست تورینگ، بلکه در محدودیت ذاتی نهفته در شیوه فعلی آموزش میدانند و معتقدند که دادههای ثابت و انسانی توان ایجاد تواناییهای نوین را ندارند.
در این مقاله که در آینده در قالب یک کتاب منتشر خواهد شد، نگاه بلندمدتی به مسیر آینده هوش مصنوعی انداختهشده است. سیلور که پیشازاین هدایت توسعه AlphaZero را بر عهده داشت و ساتن که از پیشگامان یادگیری تقویتی است معتقدند که تنها راه پیشرفت، عبور از چارچوبهای فعلی و حرکت بهسوی سیستمهایی با تجربه مداوم است.
مدلهای زبانی امروزی مثل ChatGPT، صرفاً به پرسشهای کاربران پاسخ میدهند. این فرآیند که به “اپیزودهای کوتاه” معروف است، درگیر حافظه، تداوم یا یادگیری بلندمدت نمیشود و بدون اینکه آموختههای گذشته در تعاملات آینده لحاظ گردد، هر تعامل بهصورت مجزا در نظر گرفته میشود.
این محققان معتقدند که این سبک تعاملی نوعی “پیشداوری انسانی” را به مدلها تحمیل میکند؛ چراکه مدل نمیتواند استراتژیهایی را کشف کند که فراتر از درک یا انتظار کاربران باشد و این به معنای سقفی ناپیدا برای تواناییهای هوش مصنوعی خواهد بود.
چه خواهد کرد؟
اما رویکرد streams، نقطه مقابل این وضعیت است؛ در این رویکرد، عامل هوش مصنوعی وارد یک جریان بلندمدت تجربه میشود و مثل انسان، با گذر زمان میآموزد، هدفگذاری میکند و خودش را با محیط وفق میدهد.
درواقع، این عامل، بهجای تکیه بر دادههای گذشته انسان، از طریق تعاملات مستقیم با محیط، پاداش دریافت میکند و به شکل پویاتری به یادگیری ادامه میدهد.
نویسندگان در این مقاله به توصیف نسل جدیدی از عاملهای هوشمند میپردازند که مثل انسان، بر اساس سیگنالهای متنوعی از نرخ خطا، بهرهوری، درآمد و بازخورد کاربران گرفته تا علائم جسمانی، متریکهای سلامت، دادههای اقلیمی و حتی احساس درد و لذت، از جهان اطراف خود یاد میگیرند. به اعتقاد آنها، جهان پر از منابع پاداشدهی است که تنها باید در معرض تجربه عامل قرار گیرند.
شیوههای مدرن
برای شروع، میتوان از مدلسازی جهان (world model) استفاده کرد. این مدلها به عامل اجازه میدهند تا درباره نتایج اقداماتش، پیشبینیهایی داشته باشد؛ آنها را در جهان واقعی یا شبیهسازیشده امتحان کند و در ادامه از بازخوردها برای اصلاح مدل ذهنیاش بهره بگیرد. بهتدریج عامل یاد میگیرد که چگونه نه با تقلید از انسان، بلکه با تجربه مستقیم و شخصیاش عملکرد بهتری داشته باشد.
نکته مهم اینجاست که در دوران تجربه، عاملها صرفاً ابزار نیستند و هدفهای بلندمدت را دنبال میکنند. مثلاً اگر کاربر از آنها بخواهد تا در بهبود وضعیت جسمانیاش به او کمک کنند، عامل میتواند در طول هفتهها یا ماهها دادههایی مثل ضربان قلب، کیفیت خواب و تعداد قدمهای فرد را بررسی کرده و راهکارهای پایداری را به پیشنهاد دهد. یا درزمینهٔ آموزش زبان، از نتایج آزمونهای کاربر بهعنوان معیار پاداش استفاده کرده و مسیر آموزشی او را اصلاح کند.
عاملهای تجربه محور، برخلاف مدلهای زبانی فعلی این توانایی را دارند تا تحلیلهای علمی پیشرفتهای نیز انجام دهند و قادر خواهند بود تا دادههای اقلیمی، اقتصادی یا زیستی در طول چندین سال رصد کرده، فرضیههایی ایجاد کرده و با انجام شبیهسازی، آزمایشهایی را پیشنهاد کنند. چنین عاملی میتواند دستیار قدرتمندی برای محققان در کشف مواد جدید یا مقابله با تغییرات اقلیمی باشد.
خطرات احتمالی پیش رو
اما سیلور و ساتن هشدار میدهند که با قدرت گرفتن عاملهای تجربه محور، خطراتی نیز در کمین خواهد بود که ازجمله آنها میتوان به کاهش توان مداخله انسان در تصمیمگیریهای عامل یا بروز پیامدهایی که پیشبینیناپذیرند اشاره کرد.
این محققان بر این نکته تأکید دارند که عاملهای قابل تطبیق، در صورت مشاهده نارضایتی یا نگرانی کاربران، قادر به تغییر رفتار خود خواهند بود؛ دقیقاً برخلاف مدلهای ثابت امروزی که بهجز با دخالت مستقیم توسعهدهندگان، نمیتوانند خود را بهروزرسانی کنند.
این نویسندگان معتقدند که دادههای تجربی این عاملها بهمراتب فراتر از دادههای انسانی مثل ویکیپدیا یا ردیت خواهند بود و درواقع این “دگرگونی پارادایمی” همراه با پیشرفت الگوریتمهای یادگیری تقویتی، تواناییهایی را در زمینههای مختلف ایجاد خواهد کرد که فراتر از توان انسان است.
سیلور در صحبتهایی به این نکته اشارهکرده که دوران تجربه، راه را برای ظهور هوش مصنوعی عمومی (AGI) یا حتی فراتر از آن، هوش فرا انسانی (Superintelligence) هموار خواهد کرد و البته بر ضرورت دقت، اخلاقمداری و کنترل انسانی بر توسعه این سیستمها تأکید ویژهای دارد.