گروهی از پژوهشگران نشان دادهاند هوش مصنوعی از پس کار بسیار سادهای که حتی دانشآموز کلاس دوم میتواند انجام دهد، برنمیآید.
به گزارش پایگاه خبری پهنه پرواز به نقل از سایت زومیت ، بیشتر کودکان در سنین شش یا هفت سالگی میتوانند زمان را از روی ساعت بخوانند، اما جالب است که هوش مصنوعی هنوز نمیتواند صفحه ساعت را درک کند و زمان را از آن استخراج کند.
پژوهشگران دانشگاه ادینبرو اسکاتلند متوجه شدهاند مدلهای هوش مصنوعی که قادر به پردازش متن و تصاویر هستند یعنی مدلهای زبانی بزرگ چندوجهی (MLLMs) فقط در ۲۵ درصد موارد میتوانند صفحه ساعت آنالوگ را بخوانند.
نویسندگان در مقالهای که هنوز تحت داوری همتا قرار نگرفته است، توضیح دادهاند که وقتی مدلهای هوش مصنوعی مختلف ازجمله مدلهای اوپنای آی، جمنای، انتروپیک و مدلهای دیگر را آزمایش کردند تا ببینند کدام یک بهتر میتواند صفحه ساعت و تقویمهای سالانه را بخواند، مدل جمنای گوگل بهترین عملکرد را نشان داد.
تمامی مدلهای هوش مصنوعی که آزمایش شدند، در خواندن زمان و تاریخها مشکل داشتند. مشکل اصلی این است که این مدلها نمیتوانند به خوبی ترکیب سه عامل مهم یعنی آگاهی فضایی، زمینه و ریاضیات پایه را درک کنند.
تمامی مدلهای هوش مصنوعی که آزمایش شدند، در خواندن زمان و تاریخها مشکل داشتند
پژوهشگران انواع مختلفی از طراحیهای ساعت را آزمایش کردند. این طراحیها شامل ساعتهایی با اعداد رومی، ساعتهایی با عقربه ثانیهشمار و بدون آن و ساعتهایی با صفحههای رنگی مختلف بودند سیستمهای هوش مصنوعی تنها در کمتر از یکچهارم مواقع میتوانستند موقعیت صحیح عقربههای ساعت را تشخیص دهند. اشتباهات بیشتر زمانی رخ میداد که ساعتها اعداد رومی داشتند یا عقربهها طراحی خاص و متفاوتی داشتند.
وقتی پژوهشگران آزمایش کردند که مدلهای هوش مصنوعی چگونه میتوانند تقویمها را بخوانند (مخصوصاً تقویمهای سالانه بزرگی که تمام ۱۲ ماه سال را در یک صفحه نمایش میدهند)، متوجه شدند مدلهای هوش مصنوعی در خواندن تاریخها نیز دچار مشکلاتی بودند، هرچند کمی بهتر از خواندن زمانها عمل کردند.
درنهایت، جیپیتی او ۱ (GPT-o1) اولین مدل استدلالی اوپن ایآی بالاترین امتیاز را در چالش تقویم کسب کرد و توانست ۸۰ درصد از سوالات تاریخ را به درستی پاسخ دهد. بااینحال، این مدل یکپنجم از سوالاتی که از آن پرسیده شد، مانند «اولین روز سال در چه روزی از هفته قرار دارد؟» یا «۱۵۳امین روز سال چه روزی است؟» را به اشتباه پاسخ داد.