أصدر مختبر DeepSeek الصيني، خلال الأسبوع الماضي، نسخة محدثة من نموذج الذكاء الاصطناعي R1 الخاص به. والذي أبلى بلاء حسن في عدد من المعادلات الرياضية والترميز.
وعلى الرغم من أن الشركة لم تكشف عن مصدر البيانات التي استخدمتها لتدريب النموذج. فإن بعض المحللين توصلوا إلى أن عائلة Gemini للذكاء الاصطناعي من Google. زودت التطبيق بهذه البيانات.
قال سام بايش؛ وهو مطور وخبير في تقييمات ”الذكاء العاطفي“ للذكاء الاصطناعي”: إن نموذج DeepSeek، المسمى R1-0528، يفضل الكلمات والتعبيرات المشابهة لتلك التي يفضلها Gemini 2.5 Pro من جوجل”، وذلك في منشور له على موقع X.
وأضاف “بايتش” أنه دليل على أن أحدث نموذج لـ DeepSeek تم تدريبه على مخرجات من جيميني.
كما أشار المطور SpeechMap إلى أن آثار نموذج DeepSeek – ”الأفكار“ التي يولدها النموذج أثناء عمله نحو استنتاج ما – ”تقرأ مثل آثار الجوزاء“.
ففي ديسمبر الماضي، لاحظ المطورون أن نموذج V3 الخاص بـ DeepSeek غالبًا ما عرف نفسه على أنه ChatGPT، منصة الدردشة الآلية المدعومة بالذكاء الاصطناعي الخاصة بـ OpenAI. ما يشير إلى أنه ربما تم تدريبه على سجلات دردشة ChatGPT. وبالتالي اتهم DeepSeek بالتدريب على بيانات من نماذج ذكاء اصطناعي منافسة من قبل.
علاوة على ذلك، أخبرت OpenAI صحيفة فاينانشيال تايمز أنها وجدت أدلة تربط بين DeepSeek واستخدام التقطير، وهي تقنية لتدريب نماذج الذكاء الاصطناعي عن طريق استخراج البيانات من نماذج أكبر وأكثر قدرة.
إستراتيجيات التعاون بين نماذج الذكاء الاصطناعي
وبحسب بلومبرج، اكتشفت مايكروسوفت، وهي أحد المتعاونين والمستثمرين المقربين من OpenAI، أن كميات كبيرة من البيانات كانت تستخرج من خلال حسابات مطوري OpenAI في أواخر عام 2024. وهي حسابات تعتقد OpenAI أنها تابعة لشركة DeepSeek.
وجدير بالذكر أن التقطير ليس ممارسة غير مألوفة، ولكن شروط خدمة OpenAI تحظر على العملاء استخدام مخرجات نماذج الشركة لبناء ذكاء اصطناعي منافس.
تضارب التوقعات حول التعاون بين ديب سيك وجيميناي
فإن العديد من النماذج تخطئ في تعريف نفسها وتتقارب على نفس الكلمات والعبارات. حيث إن لويب المفتوح، وهو المكان الذي تحصل فيه شركات الذكاء الاصطناعي على الجزء الأكبر من بيانات التدريب الخاصة بها، أصبح مليئًا بمخلفات الذكاء الاصطناعي. كما تستخدم مزارع المحتوى الذكاء الاصطناعي لإنشاء طعم النقر، وتغمر الروبوتات موقع Reddit وX.
وقد جعل هذا ”التلوث“، إذا صح التعبير، من الصعب جدًا تصفية مخرجات الذكاء الاصطناعي بدقة من مجموعات بيانات التدريب.
ومع ذلك، لا يعتقد خبراء الذكاء الاصطناعي مثل ناثان لامبرت، الباحث في معهد أبحاث الذكاء الاصطناعي غير الربحي AI2، أنه من غير الوارد أن يكون DeepSeek قد تدرب على بيانات من Gemini من Google.
”وكتب لامبرت في منشور على موقع X: ”لو كنت مكان DeepSeek، لكنت بالتأكيد سأقوم بإنشاء الكثير من البيانات الاصطناعية من أفضل نموذج لواجهة برمجة التطبيقات. إنها حرفيًا حوسبة أكثر فعالية بالنسبة لهم“.
في محاولة جزئية لمنع التقطير، تعمل شركات الذكاء الاصطناعي على تكثيف الإجراءات الأمنية.
في أبريل، بدأت OpenAI في مطالبة المؤسسات بإكمال عملية التحقق من الهوية من أجل الوصول إلى بعض النماذج المتقدمة.
ولكن هذه العملية تتطلب بطاقة هوية صادرة عن الحكومة من إحدى الدول التي تدعمها واجهة برمجة تطبيقات OpenAI. والصين ليست على القائمة.
في مكان آخر، بدأت جوجل مؤخرًا في ”تلخيص“ الآثار التي تم إنشاؤها بواسطة النماذج المتاحة من خلال منصة مطوري استوديو الذكاء الاصطناعي الخاصة بها. وهي خطوة تجعل من الصعب تدريب نماذج منافسة ذات أداء عالٍ على آثار جيميني.
قالت أنثروبيك في مايو أنها ستبدأ في تلخيص آثار نماذجها الخاصة. مشيرة إلى الحاجة إلى حماية ”مزاياها التنافسية“.
وأضاف “لقد تواصلنا مع جوجل للتعليق وسنقوم بتحديث هذه المقالة إذا تلقينا ردًا”.
انطلاق منصة DeepSeek
أثارت شركة DeepSeek الصينية للذكاء الاصطناعي جدلًا واسعًا في وادي السيليكون من خلال إصدار نماذج ذكاء اصطناعي مطورة بثمن زهيد تنافس العروض الرائدة من OpenAI. ولكن شركة ChatGPT تشتبه في أنها بنيت على بيانات OpenAI.
وتحقق “أوبن إيه آي” و”مايكروسوفت” فيما إذا كان المنافس الصيني قد استخدم واجهة برمجة التطبيقات الخاصة بـ”OpenAI” لدمج نماذج الذكاء الاصطناعي الخاصة بـ”OpenAI” في نماذج “DeepSeek” الخاصة. وفقًا لـ”بلومبرج”.
وأكدت مصادر أن باحثي الأمن في مايكروسوفت اكتشفوا أن كميات كبيرة من البيانات كانت تخترق من خلال حسابات مطوري OpenAI في أواخر عام 2024. والتي تعتقد الشركة أنها تابعة لشركة “DeepSeek”.
وقالت “OpenAI” لصحيفة “فاينانشيال تايمز” إنها وجدت أدلة تربط بين “DeepSeek” واستخدام تقنية التقطير. وهي تقنية شائعة يستخدمها المطورون لتدريب نماذج الذكاء الاصطناعي عن طريق استخراج البيانات من نماذج أكبر وأكثر قدرة.
أيضًا إنها طريقة فعالة لتدريب النماذج الأصغر بجزء بسيط من أكثر من 100 مليون دولار أنفقتها “OpenAI” لتدريب GPT-4.
ويمكن للمطورين استخدام واجهة برمجة التطبيقات الخاصة بـ”OpenAI” لدمج الذكاء الاصطناعي الخاص بها مع تطبيقاتهم الخاصة. إلا أن استخلاص المخرجات لبناء نماذج منافسة يعد انتهاكًا لشروط خدمة OpenAI. لم تقدم “OpenAI” تفاصيل عن الأدلة التي عثرت عليها.