هوش مصنوعی زبان را مانند یک کودک یاد می گیرد

اشتراک‌گذاری در:

خلاصه: محققان با آموزش یک سیستم هوش مصنوعی چندوجهی تنها با استفاده از ورودی هایی که یک کودک از بدو تولد تا تولد دوم خود دریافت می کند، به پیشرفت قابل توجهی دست یافتند و این تصور را که هوش مصنوعی برای یادگیری زبان به داده های گسترده ای نیاز دارد، به چالش می کشد.

مطالعه آنها نشان می‌دهد که مدل هوش مصنوعی قادر به یادگیری کلمات و مفاهیم از بخش کوچکی از تجربیات یک کودک است که از طریق ضبط‌های دوربین سر گرفته شده است. این آزمایش پتانسیل هوش مصنوعی را برای تقلید از فرآیندهای یادگیری زبان انسانی برجسته می‌کند و درک ما از درک اولیه زبان و مفهوم را تغییر می‌دهد.

محققان با همسو کردن یادگیری هوش مصنوعی با تجربه طبیعت‌گرایانه کودک، بینش‌های جدیدی را در مورد بحث در مورد چگونگی یادگیری زبان کودکان ارائه می‌کنند و نشان می‌دهند که یادگیری تداعی ممکن است نقش مهم‌تری نسبت به آنچه قبلا تصور می‌شد بازی کند.

حقایق کلیدی

سیستم هوش مصنوعی که بر روی فیلم دوربین سر از یک کودک مجرد آموزش دیده بود، توانست تعداد قابل توجهی از کلمات و مفاهیم را بیاموزد، علیرغم اینکه ویدیو تنها حدود 1٪ از ساعات بیداری کودک را ضبط می کرد.
این مطالعه از یک شبکه عصبی چندوجهی استفاده کرد که داده‌های بصری و زبانی را از طریق یادگیری متضاد ترکیب می‌کند تا از روشی که کودکان کلمات را با زمینه‌های بصری پیوند می‌دهند، تقلید کند.
این تحقیق باورهای سنتی در مورد یادگیری زبان را به چالش می‌کشد و نشان می‌دهد که یادگیری تداعی با حداقل ورودی می‌تواند به فراگیری زبان قابل توجهی مانند کودکان انسان منجر شود.

منبع: NYU

سیستم‌های هوش مصنوعی، مانند GPT-4، اکنون می‌توانند زبان انسانی را یاد بگیرند و از آن استفاده کنند، اما از مقادیر نجومی ورودی زبان یاد می‌گیرند – بسیار بیشتر از آنچه کودکان هنگام یادگیری نحوه درک و صحبت کردن یک زبان دریافت می‌کنند. بهترین سیستم‌های هوش مصنوعی بر روی متن با تعداد تریلیون‌ها کلمه تمرین می‌کنند، در حالی که کودکان فقط میلیون‌ها در سال دریافت می‌کنند.

با توجه به این شکاف عظیم داده ها، محققان نسبت به این که پیشرفت های اخیر هوش مصنوعی می تواند چیزهای زیادی در مورد یادگیری و توسعه انسان به ما بگوید، تردید دارند. یک آزمایش ایده آل برای نشان دادن یک اتصال شامل آموزش یک مدل هوش مصنوعی است، نه بر روی داده های عظیم از وب، بلکه فقط بر روی ورودی هایی که یک کودک دریافت می کند. در آن صورت مدل می تواند چه چیزی را یاد بگیرد؟

اعتبار: NYU

تیمی از محققان دانشگاه نیویورک دقیقا این آزمایش را انجام دادند. آنها یک سیستم هوش مصنوعی چندوجهی را از طریق چشم و گوش یک کودک آموزش دادند و با استفاده از فیلم های ضبط شده با دوربین سر از زمانی که کودک شش ماهه بود و تا تولد دومش بود. آنها بررسی کردند که آیا مدل هوش مصنوعی می تواند کلمات و مفاهیم موجود در تجربه روزمره کودک را بیاموزد یا خیر.

یافته‌های آن‌ها که در آخرین شماره مجله Science گزارش شد، نشان داد که این مدل یا شبکه عصبی، در واقع می‌تواند تعداد قابل توجهی از کلمات و مفاهیم را با استفاده از بخش‌های محدودی از آنچه کودک تجربه کرده است، بیاموزد. به این معنا که این ویدئو تنها حدود 1 درصد از ساعات بیداری کودک را ضبط کرد، اما برای یادگیری واقعی زبان کافی بود.

وای کین وونگ، دانشمند پژوهشی در مرکز علوم داده دانشگاه نیویورک می‌گوید: ما برای اولین بار نشان می‌دهیم که یک شبکه عصبی که بر اساس این ورودی واقع‌گرایانه رشدی یک کودک آموزش دیده است، می‌تواند یاد بگیرد که کلمات را به همتایان بصری خود پیوند دهد. اولین نویسنده مقاله

نتایج ما نشان می‌دهد که چگونه پیشرفت‌های الگوریتمی اخیر همراه با تجربه طبیعت‌گرایانه یک کودک، این پتانسیل را دارد که درک ما از زبان اولیه و اکتساب مفاهیم را تغییر دهد.»

با استفاده از مدل‌های هوش مصنوعی برای مطالعه مشکل واقعی یادگیری زبان که کودکان با آن مواجه هستند، می‌توانیم به بحث‌های کلاسیک درباره اینکه کودکان برای یادگیری لغات به چه عناصری نیاز دارند، بپردازیم – اینکه آیا آنها برای ادامه کار به تعصبات خاص زبان، دانش ذاتی یا فقط یادگیری تداعی نیاز دارند. برندن لیک، استادیار مرکز علوم داده و گروه روانشناسی دانشگاه نیویورک و نویسنده ارشد مقاله می‌افزاید. به نظر می رسد که ما می توانیم با یادگیری بیشتر از آنچه که معمولاً تصور می شود به دست آوریم.”

وونگ، لیک و همکارانشان در دانشگاه نیویورک، ونتائو وانگ و امین اورهان، فرآیند یادگیری کودک را که در ویدئوی اول شخص گرفته شده بود – از طریق یک دوربین سبک و سر، به صورت هفتگی، از شش ماهگی و تا ۲۵ ماهگی، تجزیه و تحلیل کردند. بیش از 60 ساعت فیلم

این فیلم حاوی تقریباً یک چهارم میلیون نمونه کلمه (یعنی تعداد کلمات ارسال شده، بسیاری از آنها به طور مکرر) بود که با فریم‌های ویدیویی از آنچه کودک در هنگام گفتن آن کلمات دید، مرتبط است و شامل طیف گسترده‌ای از فعالیت‌های مختلف می‌شود. رشد، از جمله زمان صرف غذا، خواندن کتاب و بازی کودک.

سپس محققان دانشگاه نیویورک یک شبکه عصبی چندوجهی را با دو ماژول مجزا آموزش دادند: یکی که فریم‌های ویدئویی را می‌گیرد (رمزگذار بینایی) و دیگری که گفتار رونویسی شده توسط کودک (رمزگذار زبان) را می‌گیرد.

این دو رمزگذار با استفاده از الگوریتمی به نام یادگیری متضاد ترکیب و آموزش داده شدند که هدف آن یادگیری ویژگی‌های ورودی مفید و ارتباطات متقابل آنهاست. به عنوان مثال، هنگامی که والدین چیزی را در نظر کودک می گویند، احتمالاً برخی از کلمات استفاده شده به چیزی اشاره دارد که کودک می تواند ببیند، به این معنی که درک با پیوند دادن نشانه های بصری و زبانی القا می شود. وونگ توضیح می‌دهد: «این سرنخی به مدل ارائه می‌کند که کدام کلمات باید با کدام اشیا مرتبط شوند.

“ترکیب این نشانه‌ها چیزی است که یادگیری متضاد را قادر می‌سازد تا به تدریج تعیین کند که کدام کلمات متعلق به کدام تصویر هستند و یادگیری اولین کلمات کودک را به تصویر بکشد.”

پس از آموزش مدل، محققان آن را با استفاده از همان نوع ارزیابی‌هایی که برای اندازه‌گیری یادگیری کلمات در نوزادان مورد استفاده قرار می‌گرفت، آزمایش کردند – مدل را با کلمه هدف و آرایه‌ای از چهار گزینه تصویر مختلف ارائه کردند و از آن خواستند تصویری را انتخاب کند که با کلمه هدف مطابقت دارد. .

نتایج آنها نشان داد که مدل قادر است تعداد قابل توجهی از کلمات و مفاهیم موجود در تجربه روزمره کودک را بیاموزد. علاوه بر این، برای برخی از کلماتی که مدل یاد گرفت، می‌تواند آنها را به نمونه‌های بصری بسیار متفاوتی نسبت به مواردی که در آموزش دیده می‌شود تعمیم دهد، که بازتاب جنبه‌ای از تعمیم در کودکان هنگام آزمایش در آزمایشگاه است.

لیک می‌گوید: «این یافته‌ها نشان می‌دهد که این جنبه از یادگیری کلمات از نوع داده‌های طبیعت‌گرایانه‌ای که کودکان در حین استفاده از مکانیسم‌های یادگیری نسبتاً عمومی مانند آن‌هایی که در شبکه‌های عصبی یافت می‌شوند، امکان‌پذیر است».

ودجه: این کار توسط آژانس پروژه های تحقیقاتی پیشرفته دفاعی وزارت دفاع ایالات متحده (N6600119C4030) و بنیاد ملی علوم (1922658) حمایت شد. مشارکت کودک توسط والدین تایید شد و روش شناسی توسط هیئت بررسی نهادی دانشگاه نیویورک تایید شد.

درباره این خبر تحقیق هوش مصنوعی

یادگیری زبان پایه از طریق چشم و گوش یک کودک مجرد

از حدود 6 تا 9 ماهگی، کودکان شروع به یادگیری اولین کلمات خود می کنند و کلمات گفتاری را به همتایان بصری خود پیوند می دهند. چه مقدار از این دانش از ورودی حسی با مکانیسم های یادگیری نسبتاً عمومی قابل یادگیری است و چه مقدار به سوگیری های استقرایی قوی تری نیاز دارد؟

با استفاده از ضبط‌های طولی دوربین روی سر از یک کودک 6 تا 25 ماهه، ما یک شبکه عصبی نسبتاً عمومی را بر روی 61 ساعت جریان داده‌های دیداری-زبانی مرتبط، یادگیری بازنمایی‌های مبتنی بر ویژگی و تداعی‌های متقابل آموزش دادیم.

مدل ما بسیاری از نگاشتهای مرجع کلمه را در تجربه روزمره کودک به دست می آورد، تعمیم صفر شات را به مراجع بصری جدید امکان پذیر می کند و سیستم های مفهومی بصری و زبانی خود را همسو می کند.

این نتایج نشان می‌دهد که چگونه جنبه‌های حیاتی معنای واژه‌های پایه از طریق بازنمایی مشترک و یادگیری تداعی از ورودی یک کودک قابل یادگیری است.

کد خبر:46

نظرات ارزشمند شما

بدون دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *