أصدرت ميتا نموذجًا جديدًا للذكاء الاصطناعي يُسمى V-JEPA، ويعمل هذا النموذج على تحسين فهم الآلات للعالم من خلال تحليل التفاعلات بين الأشياء في مقاطع الفيديو.
ويواصل هذا النموذج رؤية (يان ليكون)، نائب الرئيس ورئيس علماء الذكاء الاصطناعي في الشركة، لإنشاء ذكاء آلي يتعلم بطريقة مشابهة للبشر.
وشهد الإصدار الخامس من نموذج I-JEPA الذي أصدرته ميتا في منتصف العام الماضي تطورات فيما يتعلق بمقارنة التمثيلات المجردة للصور بدلًا من وحدات البكسل نفسها وتوسيعها لتشمل مقاطع الفيديو.
نموذج ميتا يتنبأ ويحلل التفاعلات
كما يعمل V-JEPA على تطوير النهج التنبؤي للتعلم من الصور عبر الانتقال إلى التعلم من خلال مقاطع الفيديو، مما يقدم تعقيد الديناميكيات الزمنية المعتمدة على الوقت بالإضافة إلى المعلومات المكانية.
وتأتي ضمن أبرز المميزات تنبأ V-JEPA بالأجزاء المفقودة من مقاطع الفيديو دون الحاجة إلى إعادة إنشاء كل التفاصيل، إذ إنه يتعلم من مقاطع فيديو غير مصنفة، مما يعني أنه لا يتطلب بيانات صنفها البشر لبدء التعلم.
كما تعمل هذه الطريقة على زيادة كفاءة V-JEPA مع استخدام موارد قليلة للتدريب. يتميز هذا النموذج بالقدرة على التعلم من كميات صغيرة من المعلومات مما يجعله سريعًا وكفء في استخدام الموارد بالمقارنة مع النماذج السابقة.
كذلك جاء تطوير النموذج يشمل إخفاء أجزاء كبيرة من مقاطع الفيديو، مما يجبر V-JEPA على إجراء تخمينات استنادًا إلى سياق محدود، وهذا يساعده في فهم السيناريوهات المعقدة دون الحاجة إلى بيانات مفصلة.
حيث يتمحور V-JEPA حول الفكرة العامة للأحداث في الفيديو بدلاً من التفاصيل المحددة مثل حركة الأوراق الفردية على الشجرة.
وأظهر V-JEPA نتائج واعدة في الاختبارات، إذ تفوق على نماذج تحليل الفيديو الأخرى باستخدام جزء صغير من البيانات المطلوبة عادةً.
ويتاح V-JEPA بموجب ترخيص المشاع الإبداعي غير التجاري، مما يسمح للباحثين في جميع أنحاء العالم باستكشاف هذه التكنولوجيا والبناء عليها.
ويأتي هذا التطور داعماً هدف ميتا الكبير المتمثل في تطوير الذكاء الآلي من أجل أداء مهام معقدة مثل البشر.