أصدرت شركة “DeepSeek” الصينية نموذجًا جديدًا مفتوح المصدر يعرف باسم “DeepSeek V3”. الذي يتفوق على النماذج مفتوحة المصدر الرائدة الحالية والنماذج المغلقة، مثل: OpenAI’s GPT-4o في العديد من المعايير.
ومع 671 مليار معلمة، يكون نموذج الذكاء الاصطناعي قادرًا على إنشاء نص وترميز وأداء مهام ذات صلة.
كما قد استخدم الفريق مزيجًا من الخبراء أو بنية MoE، التي تتألف من شبكات عصبية متعددة. حيث تم تحسين كل منها لأنواع مختلفة من المهام. تقلل هذه الطريقة من تكاليف الأجهزة؛ لأنه في كل مرة يدخل فيها مطالبة. فإنه ينشط الشبكة العصبية ذات الصلة فقط، وليس نموذج اللغة الكبير بالكامل. تتألف كل شبكة عصبية من 34 مليار معلمة.
نموذج DeepSeek V3
الجدير بالذكر أن “DeepSeek” قالت: “إن تدريب نموذج الذكاء الاصطناعي تم في نحو 2788 ألف ساعة GPU H800 أو ما يقدر بنحو 5.57 مليون دولار”. إذا كان سعر الإيجار 2 دولار لكل ساعة GPU. كما أن هذا مبلغ أصغر بكثير من ملايين الدولارات التي تنفقها شركات التكنولوجيا الكبرى في الولايات المتحدة على تدريب LLMs.
كما صرحت الشركة بأن نموذج DeepSeek V3 تجاوز النماذج مفتوحة المصدر بما في ذلك Llama-3.1-405B و Qwen 2.5-72B في معظم المعايير. كذلك تفوق على GPT-4o في معظم المعايير باستثناء SimpleQA. الذي يركز على اللغة الإنجليزية و FRAMES.
بينما كان Claude 3.5 Sonnet من Anthropic هو الوحيد الذي تمكن من التغلب على DeepSeek V3 في معظم المعايير، بما في ذلك MMLU-Pro وIF-Eval و GPQA-Diamond وSWE-Verified وAider-Edit.
مصدر البيانات
لم تكشف DeepSeek الكثير عن مصدر بيانات تدريب DeepSeek V3. ولكن لا يوجد نقص في مجموعات البيانات العامة التي تحتوي على نص أنشئ بواسطة GPT-4 عبر ChatGPT. إذا تدرب DeepSeek V3 على هذه البيانات، فقد يكون النموذج قد حفظ بعض مخرجات GPT-4، ويعيد الآن إنتاجها حرفيًا.
كما قال مايك كوك؛ زميل الأبحاث في King’s College London المتخصص بالذكاء الاصطناعي: “من الواضح أن النموذج يرى استجابات خام من ChatGPT في مرحلة ما. ولكن ليس من الواضح أين ذلك”. قد يكون ذلك عرضيًا، ولكن لسوء الحظ، رأينا حالات لأشخاص يدربون نماذجهم مباشرة على مخرجات نماذج أخرى لمحاولة الاستفادة من معرفتهم”.
كذلك أشار “كوك” إلى أن ممارسة تدريب النماذج على مخرجات من أنظمة الذكاء الاصطناعي المنافسة يمكن أن تكون سيئة للغاية لجودة النموذج. لأنها قد تؤدي إلى الهلوسة والإجابات المضللة. كما لو أخذنا نسخة طبق الأصل من نسخة طبق الأصل، فإننا نفقد المزيد من المعلومات والاتصال بالواقع.
معركة على الطريق
كما تحظر شروط “OpenAI” على مستخدمي منتجاتها. بما في ذلك عملاء ChatGPT، استخدام المخرجات لتطوير نماذج تنافس نماذج “OpenAI”.
وقد نشر سام ألتمان؛ الرئيس التنفيذي لشركة “OpenAI”، ما بدا كأنه انتقاد لـ DeepSeek ومنافسين آخرين في X Friday.
كتب “ألتمان”: “من السهل نسبيًا نسخ شيء تعرف أنه يعمل. ومن الصعب فعل شيء جديد ومحفوف بالمخاطر، وصعب عندما لا تعرف ما إذا كان سيعمل أم لا”.
من المؤكد أن DeepSeek V3 ليس أول نموذج يخطئ في تحديد هويته. تدعي Gemini التابعة لشركة Google وغيرها أحيانًا أنها نماذج منافسة. على سبيل المثال، تقول Gemini باللغة المندرينية إنها روبوت الدردشة Wenxinyiyan التابع لشركة Baidu الصينية.
وهذا لأن شبكة الإنترنت، التي تستمد منها شركات الذكاء الاصطناعي الجزء الأكبر من بيانات التدريب الخاصة بها. أصبحت مليئة بنفايات الذكاء الاصطناعي. وتستخدم مزارع المحتوى الذكاء الاصطناعي لإنشاء طعم النقر.
كما تغمر الروبوتات Reddit وX. ووفقًا لتقدير واحد، يمكن أن يتولد 90% من الويب بواسطة الذكاء الاصطناعي بحلول عام 2026.
لقد جعل هذا التلوث، إذا صح التعبير، من الصعب جدًا تصفية مخرجات الذكاء الاصطناعي من مجموعات بيانات التدريب بالكامل.
من المؤكد أنه قد تكون DeepSeek قد درب DeepSeek V3 مباشرة على نص أنشأه ChatGPT. لقد اتهمت Google ذات يوم بفعل الشيء نفسه.
كما قالت هايدي خلاف؛ كبيرة علماء الذكاء الاصطناعي في معهد AI Now غير الربحي: “إن وفورات التكلفة من تقطير معرفة نموذج موجود قد تكون جذابة للمطورين، بغض النظر عن المخاطر”.
كذلك أضافت: “حتى مع امتلاء بيانات الإنترنت الآن بمخرجات الذكاء الاصطناعي، فإن النماذج الأخرى التي قد تتدرب عن طريق الخطأ على مخرجات ChatGPT أو GPT-4 لن تظهر بالضرورة مخرجات تذكرنا برسائل OpenAI المخصصة”.
بينما تابعت قائلة: “إذا كانت الحالة هي أن DeepSeek نفذت التقطير جزئيًا باستخدام نماذج OpenAI، فلن يكون ذلك مفاجئًا”.
ومع ذلك، فمن المرجح أن الكثير من بيانات ChatGPT/GPT-4 شقت طريقها إلى مجموعة تدريب DeepSeek V3. وهذا يعني أنه لا يمكن الوثوق في النموذج لتحديد هويته الذاتية، على سبيل المثال. ولكن الأمر الأكثر إثارة للقلق احتمال أن يؤدي DeepSeek V3، من خلال الامتصاص والتكرار غير النقدي لمخرجات GPT-4، إلى تفاقم بعض تحيزات النموذج وعيوبه.
المقال الأصلي (هنــــــا) و(هنــــــــــــــا).