به گزارش پایگاه خبری پهنه پرواز به نقل از شخر سخت افزار ، در روزهای اخیر، خبری جنجالی از چین دنیای فناوری را تکان داده است؛ استارتاپ چینی دیپسیک مدعی شده که موفق به توسعه مدلی پیشرفته از هوش مصنوعی شده که نهتنها با مدلهای معروف آمریکایی رقابت میکند، بلکه با هزینهای بهمراتب کمتر از رقبای غربی به این دستاورد رسیده است. این خبر باعث سقوط ارزش سهام شرکتهای بزرگ فناوری در والاستریت شد و فضایی از نگرانی را در سیلیکونولی ایجاد کرد اما واقعاً این مدل جدید چیست و چرا اینقدر مهم است؟
دیپسیک یا DeepSeek، استارتاپ چینی که تنها یک سال از تأسیس آن میگذرد، توانسته با هزینهای حدود ۶ میلیون دلار مدل هوش مصنوعی R1 را توسعه دهد. این در حالی است که به گفته سم آلتمن، مدیرعامل OpenAI، هزینه آموزش مدل GPT-4 بیش از ۱۰۰ میلیون دلار بوده است. حتی برخی مدیران دیگر، از جمله داریو آمودی، مدیرعامل شرکت Anthropic، پیشبینی کردهاند که هزینه توسعه مدلهای آینده ممکن است به میلیاردها دلار برسد. این اختلاف در هزینه، معادلات صنعت هوش مصنوعی را بهکلی دگرگون کرده است
دیپ سیک (DeepSeek) چیست؟
DeepSeek یک استارتاپ هوش مصنوعی چینی است که در سال ۲۰۲۳ توسط لیانگ ونفنگ، مدیر صندوق تامینی High-Flyer، تأسیس شد. این شرکت مدلهای هوش مصنوعی منبعباز توسعه میدهد که جامعه توسعهدهندگان میتوانند آنها را بررسی و بهبود بخشند دفتر مرکزی DeepSeek در هانگژو، چین واقع شده است.
لیانگ ونفنگ، بنیانگذار و مدیرعامل DeepSeek، در سال ۱۹۸۵ در گوانگدونگ چین متولد شد او در دانشگاه ژجیانگ در رشته الکترونیک تحصیل کرد و در سال ۲۰۱۵ صندوق تامینی High-Flyer را تأسیس کرد این صندوق بر توسعه هوش مصنوعی متمرکز است و در سال ۲۰۲۳ با تأسیس DeepSeek، گامی مهم در تحقیقات هوش مصنوعی برداشت.
DeepSeek با توسعه مدلهای هوش مصنوعی منبعباز، به جامعه توسعهدهندگان این امکان را میدهد که نرمافزار را بررسی و بهبود بخشند برنامه موبایل DeepSeek پس از انتشار در اوایل ژانویه ۲۰۲۵، به سرعت به صدر جدول دانلودهای آیفون در آمریکا رسید.
تأثیر DeepSeek بر بازار: وحشت در والاستریت
اما چه چیزی باعث شده این مدل، که در یک سال اخیر توسعه یافته، صنعت را تا این حد تحت تأثیر قرار دهد؟ در عرصهای که توسعه مدلهای پیشرفته هوش مصنوعی مستلزم میلیاردها دلار هزینه و استفاده از چیپهای فوقالعاده پیشرفته است، استارتاپ چینی دیپسیک با معرفی مدل R1، معادلات موجود را بهطور بنیادین تغییر داده است این مدل که با هزینهای نزدیک به ۵۶ میلیون دلار توسعه یافته، بهطور جدی عملکرد مدلهای قدرتمندی همچون GPT-4 از OpenAI و LLaMA از متا را به چالش کشیده است.
دیپسیک اعلام کرده که با استفاده از چیپهای نیمهپیشرفته و ارزانتر، توانسته مدل خود را توسعه دهد؛ امری که در شرایط تحریمهای شدید آمریکا علیه چین در حوزه فناوری، بهویژه در زمینه تأمین چیپهای پیشرفته، غیرمنتظره به نظر میرسد.
روز دوشنبه 8 بهمن ماه 1403، ارزش سهام انویدیا، یکی از بزرگترین تولیدکنندگان چیپهای هوش مصنوعی، بهدلیل نگرانیها درباره تأثیر دیپسیک، ۱۷ درصد کاهش یافت. همچنین ارزش بازار این شرکت بیش از ۶۰۰ میلیارد دلار کاهش پیدا کرد. شرکتهای دیگری مانند متا، آلفابت (شرکت مادر گوگل)، و اوراکل نیز از این ماجرا تأثیر پذیرفتند.
البته برخی تحلیلگران معتقدند که موفقیت دیپسیک بهمعنای از بین رفتن برتری آمریکا نیست شرکتهای آمریکایی همچنان منابع عظیمی برای تحقیقات و توسعه در اختیار دارند و سرمایهگذاریهای میلیارد دلاری در این حوزه، نویدبخش پیشرفتهای چشمگیر در آینده نزدیک است.
برای مثال، مارک آندرسن، سرمایهگذار مشهور حوزه فناوری، این دستاورد را «لحظه اسپوتنیک در هوش مصنوعی» نامیده و آن را با آغاز مسابقه فضایی میان آمریکا و شوروی مقایسه کرده است.
تحلیل فنی دیپسیک: چگونه مدل R1 با منابع محدود ساخته شد؟
طبق اعلام شرکت دیپ سیک، این شرکت از مدل R1 (صفحه گیت هاب مدل R1) برای طراحی و ساخت ابزار هوش مصنوعی خود استفاده کرده است مدل R1 دیپسیک مبتنی بر یک معماری مدرن یادگیری عمیق (Deep Learning) است که بهینهسازی الگوریتمها و استفاده از منابع سختافزاری کمهزینه را به حداکثر رسانده است.
در این مدل متن باز، برخلاف مدلهای آمریکایی مانند GPT-4 که از چیپهای بسیار پیشرفتهای همچون A100 یا H100 انویدیا برای آموزش استفاده میکنند، دیپسیک ظاهراً از چیپهای با توان پردازشی پایینتر (احتمالاً سریهای قدیمیتر از GPUهای انویدیا) بهره برده است.
این موضوع از دو جنبه حائز اهمیت است:
هزینههای پردازشی: هزینه تخمینی برای آموزش GPT-4، بر اساس اطلاعات منتشرشده توسط سم آلتمن، بیش از ۱۰۰ میلیون دلار بوده است. از سوی دیگر، داریو آمودی از شرکت Anthropic پیشبینی کرده که هزینه آموزش مدلهای آینده ممکن است به ۱ میلیارد دلار برسد اما دیپسیک این عدد را بهطرز چشمگیری کاهش داده است.
تحریمهای فناوری: در حالی که ایالات متحده از سال ۲۰۲۰ با وضع تحریمهایی صادرات چیپهای پیشرفته به چین را محدود کرده، دیپسیک نشان داده که حتی با سختافزار محدودتر نیز میتوان مدلهای پیشرفته تولید کرد. این موفقیت احتمالاً با تکیه بر الگوریتمهای بهینهسازی جدید و معماریهای فشردهسازی مدل ممکن شده است.
معماری مدل R1: نگاه تخصصی
بر اساس مقاله منتشرشده توسط دیپسیک، مدل R1 از یک ساختار Transformer استفاده میکند که شباهت زیادی به معماری مدلهای معروف LLM (مدلهای زبانی بزرگ) دارد. این مدل از تکنیکهای کاهش حجم پارامترها و بهینهسازی مصرف حافظه استفاده کرده میکند تا عملکردی مشابه مدلهای پیشرفته غربی را با توان سختافزاری پایینتر ارائه دهد.
به گفته دیپسیک، مدل R1 قادر است مسائل پیچیدهای در زمینه درک زبان طبیعی (Natural Language Understanding)، تولید زبان طبیعی (Natural Language Generation) و حتی استدلال (Reasoning) را با دقت بالا حل کند یکی از ویژگیهای متمایز این مدل، استفاده از پیشپردازش دادهها و فشردهسازی دانش (Knowledge Compression) است که به کاهش نیاز به منابع پردازشی کمک میکند.
اجرای DeepSeek با سختافزار ساده به جای شتابدهندههای گران
مدل هوش مصنوعی DeepSeek با معرفی معماری متنباز خود، امکان استفاده گسترده و مقرونبهصرفه از فناوریهای پیشرفته هوش مصنوعی را فراهم کرده است. یکی از جنبههای مهم این مدل، توانایی اجرای آن روی پردازندههای شخصی مانند Apple M2 Ultra و Snapdragon X Elite به جای استفاده از شتابدهندههای گرافیکی گرانقیمت مانند NVIDIA H100 است.
هوش مصنوعی DeepSeek برای کاربرانی طراحی شده است که به زیرساختهای پیچیده یا بودجههای بالا دسترسی ندارند. در حال حاضر، استفاده از شتابدهندههای گرافیکی قدرتمند مانند NVIDIA H100 و AMD MI300X، نیازمند هزینههای بالایی است. به عنوان مثال، یک NVIDIA H100 با قیمتی بالغ بر 30,000 دلار عرضه میشود که همراه با مصرف برق بالا و نیاز به خنککنندههای صنعتی است.