پژوهشگران مؤسسه فناوری ماساچوست (MIT) با طراحی بنچمارکی تازه به نام WorldTest نشان دادهاند که مدلهای هوش مصنوعی برخلاف تصور عمومی، هنوز توانایی «درک واقعی» از جهان پیرامون را ندارند و صرفاً الگوها را تقلید میکنند.
این بنچمارک شامل مجموعهای با عنوان AutumnBench است که از ۴۳ محیط مجازی و ۱۲۹ وظیفهی متنوع تشکیل شده است. در این وظایف، مدلها باید رفتارهایی شبیه انسان از خود نشان دهند؛ از جمله پیشبینی بخشهای پنهان محیط، برنامهریزی چندمرحلهای و تشخیص تغییر قوانین محیط.
در آزمایشها، مدلهای پیشرفتهای مانند Claude، Gemini 2.5 Pro و OpenAI o3 در برابر عملکرد انسانها قرار گرفتند. نتایج نشان داد که در تمام دستهها، انسانها عملکرد بهتری از هوش مصنوعی داشتند. افزایش توان پردازشی نیز نتوانست این شکاف را پر کند.
به گفتهی پژوهشگران MIT، مدلهای زبانی فعلی صرفاً در بازتولید الگوهای زبانی قوی هستند، اما فاقد درک عمیق و ساختاری از جهاناند. آنها نتیجه گرفتند که «مدلهای امروزی تنها بر اساس تطبیق دادهها تصمیم میگیرند، نه فهم آنها.»
بنچمارک جدید WorldTest گامی مهم در جهت سنجش واقعی «درک شناختی» در مدلهای هوش مصنوعی به شمار میرود و ممکن است مسیر پژوهشهای آینده را برای نزدیکتر کردن ماشینها به تفکر انسانی هموار کند.
منبع: زومیت
برچسبها: #هوش مصنوعی #AI #MIT #WorldTest #AutumnBench #درک شناختی #الگو #فناوری




