کار انسان تمام است؛ تبدیل هوش مصنوعی به سوپرهوش مصنوعی با تجربه‌اندوزی

اشتراک‌گذاری در:
images
images

طبق گفته دو محقق هوش مصنوعی ChatGPT دیگر قدیمی شده و با دوران تجربه ، هوش مصنوعی دیگر نیازی به انسان نخواهد داشت.

به گزارش پایگاه خبری پهنه پرواز به نقل از غزال زیاری: واحد DeepMind گوگل اخیراً در مقاله جدیدش از رویکردی انقلابی برای توسعه هوش مصنوعی پرده برداشته و آن را “streams” یا “جریان‌های تجربه” نامیده است.

در این رویکرد، آموزش دیدن مدل‌های هوش مصنوعی صرفاً با داده‌های انسانیِ ایستا و محدود نخواهد بود؛ بلکه این مدل‌ها مثل انسان‌ها، از طریق تعامل مستمر با محیط اطرافشان تجربه‌اندوزی کرده و با بازخوردهای محیطی هدف‌گذاری می‌کنند.

نقطه‌ضعف کجاست و راهکار چیست؟

به نظر می‌رسد که نقطه آغاز این تحول، انتقاد از وضعیت فعلی توسعه مدل‌های زبانی بزرگ است. دیوید سیلور و ریچارد ساتن، دو چهره برجسته حوزه هوش مصنوعی، چالش اصلی را نه در آزمون‌هایی مثل تست تورینگ، بلکه در محدودیت ذاتی نهفته در شیوه فعلی آموزش می‌دانند و معتقدند که داده‌های ثابت و انسانی توان ایجاد توانایی‌های نوین را ندارند.

در این مقاله که در آینده در قالب یک کتاب منتشر خواهد شد، نگاه بلندمدتی به مسیر آینده هوش مصنوعی انداخته‌شده است. سیلور که پیش‌ازاین هدایت توسعه AlphaZero را بر عهده داشت و ساتن که از پیشگامان یادگیری تقویتی است معتقدند که تنها راه پیشرفت، عبور از چارچوب‌های فعلی و حرکت به‌سوی سیستم‌هایی با تجربه مداوم است.

مدل‌های زبانی امروزی مثل ChatGPT، صرفاً به پرسش‌های کاربران پاسخ می‌دهند. این فرآیند که به “اپیزودهای کوتاه” معروف است، درگیر حافظه، تداوم یا یادگیری بلندمدت نمی‌شود و بدون اینکه آموخته‌های گذشته در تعاملات آینده لحاظ گردد، هر تعامل به‌صورت مجزا در نظر گرفته می‌شود.
این محققان معتقدند که این سبک تعاملی نوعی “پیش‌داوری انسانی” را به مدل‌ها تحمیل می‌کند؛ چراکه مدل نمی‌تواند استراتژی‌هایی را کشف کند که فراتر از درک یا انتظار کاربران باشد و این به معنای سقفی ناپیدا برای توانایی‌های هوش مصنوعی خواهد بود.

 چه خواهد کرد؟

اما رویکرد streams، نقطه مقابل این وضعیت است؛ در این رویکرد، عامل هوش مصنوعی وارد یک جریان بلندمدت تجربه می‌شود و مثل انسان، با گذر زمان می‌آموزد، هدف‌گذاری می‌کند و خودش را با محیط وفق می‌دهد.
درواقع، این عامل، به‌جای تکیه بر داده‌های گذشته انسان، از طریق تعاملات مستقیم با محیط، پاداش دریافت می‌کند و به شکل پویاتری به یادگیری ادامه می‌دهد.

نویسندگان در این مقاله به توصیف نسل جدیدی از عامل‌های هوشمند می‌پردازند که مثل انسان، بر اساس سیگنال‌های متنوعی از نرخ خطا، بهره‌وری، درآمد و بازخورد کاربران گرفته تا علائم جسمانی، متریک‌های سلامت، داده‌های اقلیمی و حتی احساس درد و لذت، از جهان اطراف خود یاد می‌گیرند. به اعتقاد آن‌ها، جهان پر از منابع پاداش‌دهی است که تنها باید در معرض تجربه عامل قرار گیرند.

شیوه‌های مدرن

برای شروع، می‌توان از مدل‌سازی جهان (world model) استفاده کرد. این مدل‌ها به عامل اجازه می‌دهند تا درباره نتایج اقداماتش، پیش‌بینی‌هایی داشته باشد؛ آن‌ها را در جهان واقعی یا شبیه‌سازی‌شده امتحان کند و در ادامه از بازخوردها برای اصلاح مدل ذهنی‌اش بهره بگیرد. به‌تدریج عامل یاد می‌گیرد که چگونه نه با تقلید از انسان، بلکه با تجربه مستقیم و شخصی‌اش عملکرد بهتری داشته باشد.

نکته مهم اینجاست که در دوران تجربه، عامل‌ها صرفاً ابزار نیستند و هدف‌های بلندمدت را دنبال می‌کنند. مثلاً اگر کاربر از آن‌ها بخواهد تا در بهبود وضعیت جسمانی‌اش به او کمک کنند، عامل می‌تواند در طول هفته‌ها یا ماه‌ها داده‌هایی مثل ضربان قلب، کیفیت خواب و تعداد قدم‌های فرد را بررسی کرده و راهکارهای پایداری را به پیشنهاد دهد. یا درزمینهٔ آموزش زبان، از نتایج آزمون‌های کاربر به‌عنوان معیار پاداش استفاده کرده و مسیر آموزشی او را اصلاح کند.

عامل‌های تجربه محور، برخلاف مدل‌های زبانی فعلی این توانایی را دارند تا تحلیل‌های علمی پیشرفته‌ای نیز انجام دهند و قادر خواهند بود تا داده‌های اقلیمی، اقتصادی یا زیستی در طول چندین سال رصد کرده، فرضیه‌هایی ایجاد کرده و با انجام شبیه‌سازی، آزمایش‌هایی را پیشنهاد کنند. چنین عاملی می‌تواند دستیار قدرتمندی برای محققان در کشف مواد جدید یا مقابله با تغییرات اقلیمی باشد.

خطرات احتمالی پیش رو

اما سیلور و ساتن هشدار می‌دهند که با قدرت گرفتن عامل‌های تجربه محور، خطراتی نیز در کمین خواهد بود که ازجمله آن‌ها می‌توان به کاهش توان مداخله انسان در تصمیم‌گیری‌های عامل یا بروز پیامدهایی که پیش‌بینی‌ناپذیرند اشاره کرد.

این محققان بر این نکته تأکید دارند که عامل‌های قابل تطبیق، در صورت مشاهده نارضایتی یا نگرانی کاربران، قادر به تغییر رفتار خود خواهند بود؛ دقیقاً برخلاف مدل‌های ثابت امروزی که به‌جز با دخالت مستقیم توسعه‌دهندگان، نمی‌توانند خود را به‌روزرسانی کنند.

این نویسندگان معتقدند که داده‌های تجربی این عامل‌ها به‌مراتب فراتر از داده‌های انسانی مثل ویکی‌پدیا یا ردیت خواهند بود و درواقع این “دگرگونی پارادایمی” همراه با پیشرفت الگوریتم‌های یادگیری تقویتی، توانایی‌هایی را در زمینه‌های مختلف ایجاد خواهد کرد که فراتر از توان انسان است.

سیلور در صحبت‌هایی به این نکته اشاره‌کرده که دوران تجربه، راه را برای ظهور هوش مصنوعی عمومی (AGI) یا حتی فراتر از آن، هوش فرا انسانی (Superintelligence) هموار خواهد کرد و البته بر ضرورت دقت، اخلاق‌مداری و کنترل انسانی بر توسعه این سیستم‌ها تأکید ویژه‌ای دارد.

کد خبر:2454

نظرات ارزشمند شما

بدون دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *