خلاصه: محققان با آموزش یک سیستم هوش مصنوعی چندوجهی تنها با استفاده از ورودی هایی که یک کودک از بدو تولد تا تولد دوم خود دریافت می کند، به پیشرفت قابل توجهی دست یافتند و این تصور را که هوش مصنوعی برای یادگیری زبان به داده های گسترده ای نیاز دارد، به چالش می کشد.
مطالعه آنها نشان میدهد که مدل هوش مصنوعی قادر به یادگیری کلمات و مفاهیم از بخش کوچکی از تجربیات یک کودک است که از طریق ضبطهای دوربین سر گرفته شده است. این آزمایش پتانسیل هوش مصنوعی را برای تقلید از فرآیندهای یادگیری زبان انسانی برجسته میکند و درک ما از درک اولیه زبان و مفهوم را تغییر میدهد.
محققان با همسو کردن یادگیری هوش مصنوعی با تجربه طبیعتگرایانه کودک، بینشهای جدیدی را در مورد بحث در مورد چگونگی یادگیری زبان کودکان ارائه میکنند و نشان میدهند که یادگیری تداعی ممکن است نقش مهمتری نسبت به آنچه قبلا تصور میشد بازی کند.
حقایق کلیدی
سیستم هوش مصنوعی که بر روی فیلم دوربین سر از یک کودک مجرد آموزش دیده بود، توانست تعداد قابل توجهی از کلمات و مفاهیم را بیاموزد، علیرغم اینکه ویدیو تنها حدود 1٪ از ساعات بیداری کودک را ضبط می کرد.
این مطالعه از یک شبکه عصبی چندوجهی استفاده کرد که دادههای بصری و زبانی را از طریق یادگیری متضاد ترکیب میکند تا از روشی که کودکان کلمات را با زمینههای بصری پیوند میدهند، تقلید کند.
این تحقیق باورهای سنتی در مورد یادگیری زبان را به چالش میکشد و نشان میدهد که یادگیری تداعی با حداقل ورودی میتواند به فراگیری زبان قابل توجهی مانند کودکان انسان منجر شود.
منبع: NYU
سیستمهای هوش مصنوعی، مانند GPT-4، اکنون میتوانند زبان انسانی را یاد بگیرند و از آن استفاده کنند، اما از مقادیر نجومی ورودی زبان یاد میگیرند – بسیار بیشتر از آنچه کودکان هنگام یادگیری نحوه درک و صحبت کردن یک زبان دریافت میکنند. بهترین سیستمهای هوش مصنوعی بر روی متن با تعداد تریلیونها کلمه تمرین میکنند، در حالی که کودکان فقط میلیونها در سال دریافت میکنند.
با توجه به این شکاف عظیم داده ها، محققان نسبت به این که پیشرفت های اخیر هوش مصنوعی می تواند چیزهای زیادی در مورد یادگیری و توسعه انسان به ما بگوید، تردید دارند. یک آزمایش ایده آل برای نشان دادن یک اتصال شامل آموزش یک مدل هوش مصنوعی است، نه بر روی داده های عظیم از وب، بلکه فقط بر روی ورودی هایی که یک کودک دریافت می کند. در آن صورت مدل می تواند چه چیزی را یاد بگیرد؟
اعتبار: NYU
تیمی از محققان دانشگاه نیویورک دقیقا این آزمایش را انجام دادند. آنها یک سیستم هوش مصنوعی چندوجهی را از طریق چشم و گوش یک کودک آموزش دادند و با استفاده از فیلم های ضبط شده با دوربین سر از زمانی که کودک شش ماهه بود و تا تولد دومش بود. آنها بررسی کردند که آیا مدل هوش مصنوعی می تواند کلمات و مفاهیم موجود در تجربه روزمره کودک را بیاموزد یا خیر.
یافتههای آنها که در آخرین شماره مجله Science گزارش شد، نشان داد که این مدل یا شبکه عصبی، در واقع میتواند تعداد قابل توجهی از کلمات و مفاهیم را با استفاده از بخشهای محدودی از آنچه کودک تجربه کرده است، بیاموزد. به این معنا که این ویدئو تنها حدود 1 درصد از ساعات بیداری کودک را ضبط کرد، اما برای یادگیری واقعی زبان کافی بود.
وای کین وونگ، دانشمند پژوهشی در مرکز علوم داده دانشگاه نیویورک میگوید: ما برای اولین بار نشان میدهیم که یک شبکه عصبی که بر اساس این ورودی واقعگرایانه رشدی یک کودک آموزش دیده است، میتواند یاد بگیرد که کلمات را به همتایان بصری خود پیوند دهد. اولین نویسنده مقاله
نتایج ما نشان میدهد که چگونه پیشرفتهای الگوریتمی اخیر همراه با تجربه طبیعتگرایانه یک کودک، این پتانسیل را دارد که درک ما از زبان اولیه و اکتساب مفاهیم را تغییر دهد.»
با استفاده از مدلهای هوش مصنوعی برای مطالعه مشکل واقعی یادگیری زبان که کودکان با آن مواجه هستند، میتوانیم به بحثهای کلاسیک درباره اینکه کودکان برای یادگیری لغات به چه عناصری نیاز دارند، بپردازیم – اینکه آیا آنها برای ادامه کار به تعصبات خاص زبان، دانش ذاتی یا فقط یادگیری تداعی نیاز دارند. برندن لیک، استادیار مرکز علوم داده و گروه روانشناسی دانشگاه نیویورک و نویسنده ارشد مقاله میافزاید. به نظر می رسد که ما می توانیم با یادگیری بیشتر از آنچه که معمولاً تصور می شود به دست آوریم.”
وونگ، لیک و همکارانشان در دانشگاه نیویورک، ونتائو وانگ و امین اورهان، فرآیند یادگیری کودک را که در ویدئوی اول شخص گرفته شده بود – از طریق یک دوربین سبک و سر، به صورت هفتگی، از شش ماهگی و تا ۲۵ ماهگی، تجزیه و تحلیل کردند. بیش از 60 ساعت فیلم
این فیلم حاوی تقریباً یک چهارم میلیون نمونه کلمه (یعنی تعداد کلمات ارسال شده، بسیاری از آنها به طور مکرر) بود که با فریمهای ویدیویی از آنچه کودک در هنگام گفتن آن کلمات دید، مرتبط است و شامل طیف گستردهای از فعالیتهای مختلف میشود. رشد، از جمله زمان صرف غذا، خواندن کتاب و بازی کودک.
سپس محققان دانشگاه نیویورک یک شبکه عصبی چندوجهی را با دو ماژول مجزا آموزش دادند: یکی که فریمهای ویدئویی را میگیرد (رمزگذار بینایی) و دیگری که گفتار رونویسی شده توسط کودک (رمزگذار زبان) را میگیرد.
این دو رمزگذار با استفاده از الگوریتمی به نام یادگیری متضاد ترکیب و آموزش داده شدند که هدف آن یادگیری ویژگیهای ورودی مفید و ارتباطات متقابل آنهاست. به عنوان مثال، هنگامی که والدین چیزی را در نظر کودک می گویند، احتمالاً برخی از کلمات استفاده شده به چیزی اشاره دارد که کودک می تواند ببیند، به این معنی که درک با پیوند دادن نشانه های بصری و زبانی القا می شود. وونگ توضیح میدهد: «این سرنخی به مدل ارائه میکند که کدام کلمات باید با کدام اشیا مرتبط شوند.
“ترکیب این نشانهها چیزی است که یادگیری متضاد را قادر میسازد تا به تدریج تعیین کند که کدام کلمات متعلق به کدام تصویر هستند و یادگیری اولین کلمات کودک را به تصویر بکشد.”
پس از آموزش مدل، محققان آن را با استفاده از همان نوع ارزیابیهایی که برای اندازهگیری یادگیری کلمات در نوزادان مورد استفاده قرار میگرفت، آزمایش کردند – مدل را با کلمه هدف و آرایهای از چهار گزینه تصویر مختلف ارائه کردند و از آن خواستند تصویری را انتخاب کند که با کلمه هدف مطابقت دارد. .
نتایج آنها نشان داد که مدل قادر است تعداد قابل توجهی از کلمات و مفاهیم موجود در تجربه روزمره کودک را بیاموزد. علاوه بر این، برای برخی از کلماتی که مدل یاد گرفت، میتواند آنها را به نمونههای بصری بسیار متفاوتی نسبت به مواردی که در آموزش دیده میشود تعمیم دهد، که بازتاب جنبهای از تعمیم در کودکان هنگام آزمایش در آزمایشگاه است.
لیک میگوید: «این یافتهها نشان میدهد که این جنبه از یادگیری کلمات از نوع دادههای طبیعتگرایانهای که کودکان در حین استفاده از مکانیسمهای یادگیری نسبتاً عمومی مانند آنهایی که در شبکههای عصبی یافت میشوند، امکانپذیر است».
ودجه: این کار توسط آژانس پروژه های تحقیقاتی پیشرفته دفاعی وزارت دفاع ایالات متحده (N6600119C4030) و بنیاد ملی علوم (1922658) حمایت شد. مشارکت کودک توسط والدین تایید شد و روش شناسی توسط هیئت بررسی نهادی دانشگاه نیویورک تایید شد.
درباره این خبر تحقیق هوش مصنوعی
یادگیری زبان پایه از طریق چشم و گوش یک کودک مجرد
از حدود 6 تا 9 ماهگی، کودکان شروع به یادگیری اولین کلمات خود می کنند و کلمات گفتاری را به همتایان بصری خود پیوند می دهند. چه مقدار از این دانش از ورودی حسی با مکانیسم های یادگیری نسبتاً عمومی قابل یادگیری است و چه مقدار به سوگیری های استقرایی قوی تری نیاز دارد؟
با استفاده از ضبطهای طولی دوربین روی سر از یک کودک 6 تا 25 ماهه، ما یک شبکه عصبی نسبتاً عمومی را بر روی 61 ساعت جریان دادههای دیداری-زبانی مرتبط، یادگیری بازنماییهای مبتنی بر ویژگی و تداعیهای متقابل آموزش دادیم.
مدل ما بسیاری از نگاشتهای مرجع کلمه را در تجربه روزمره کودک به دست می آورد، تعمیم صفر شات را به مراجع بصری جدید امکان پذیر می کند و سیستم های مفهومی بصری و زبانی خود را همسو می کند.
این نتایج نشان میدهد که چگونه جنبههای حیاتی معنای واژههای پایه از طریق بازنمایی مشترک و یادگیری تداعی از ورودی یک کودک قابل یادگیری است.