يقول الباحثون الذين ساعدوا في اختبار النموذج اللغوي الكبير الجديد نموذج ChatGPT o1، إنه يمثل خطوة كبيرة من حيث فائدة روبوتات الدردشة الآلية في مجال العلوم.
ويقول ماريو كرين، قائد مختبر العلماء الاصطناعي في معهد ماكس بلانك لعلوم الضوء في إرلانجن بألمانيا: “في مجال الفيزياء الكمية، يعطي الروبوت استجابات أكثر تفصيلًا وتماسكًا”؛ ما كان يقدمه النموذج الأخير للشركة GPT-4o.
كان كرين واحدًا من حفنة من العلماء في “الفريق الأحمر” الذي اختبر نسخة المعاينة من نموذج o1 لصالح شركة OpenAI. وهي شركة تكنولوجيا تقع في سان فرانسيسكو، كاليفورنيا. من خلال وضع الروبوت في خطواته والتحقق من مخاوف السلامة.

منذ الإطلاق العام لـChatGPT في عام 2022، أصبحت النماذج اللغوية الكبيرة التي تقود روبوتات الدردشة هذه، في المتوسط، أكبر وأفضل، مع المزيد من المعلمات، أو عقد اتخاذ القرار؛ ومجموعات بيانات تدريب أكبر؛ وقدرات أقوى عبر مجموعة متنوعة من الاختبارات الموحدة، أو المعايير.
بينما تقول شركة OpenAI أن سلسلة o1 الخاصة بها تمثل خطوة تغيير في نهج الشركة. وأضاف المراقبون إن السمة المميزة لنموذج الذكاء الاصطناعي هذا هو أنه قضى وقتاً أطول في مراحل معينة من التعلم. كما “يفكر” في إجاباته لفترة أطول؛ ما يجعله أبطأ. ولكنه أكثر قدرة – خاصة في المجالات التي يمكن فيها تحديد الإجابات الصحيحة والخاطئة بوضوح.
وتضيف الشركة أن o1 “يمكنه التفكير في المهام المعقدة وحل المشكلات الأصعب من النماذج السابقة في العلوم والترميز والرياضيات”.
في الوقت الحالي، يتوفر o1-preview و o1-mini – وهو إصدار أصغر حجمًا وأكثر فعالية من حيث التكلفة ومناسب للبرمجة – للعملاء الذين يدفعون وبعض المطورين على أساس تجريبي. لم تصدر الشركة تفاصيل حول عدد المعلمات أو مقدار قوة الحوسبة الكامنة وراء نماذج o1.
نموذج ChatGPT o1 والتفوق على العنصر البشري
من اللافت للنظر أن o1 أصبح أول نموذج لغوي كبير يتغلب على علماء مستوى الدكتوراه في أصعب سلسلة من الأسئلة – مجموعة “الماسة” – في اختبار يسمى معيار الأسئلة والأجوبة على مستوى الدراسات العليا من Google (GPQA)1.
وأفادت OpenAI أن علماءها سجلوا أقل بقليل من 70% في اختبار GPQA Diamond، وسجلت o1 نسبة 78% بشكل عام. مع درجة عالية بشكل خاص بلغت 93% في الفيزياء (انظر ”المستوى التالي“).
ويقول ديفيد رين، الذي كان جزءًا من الفريق الذي طوّر اختبار GPQA، إن هذا أعلى بكثير من ثاني أفضل أداء [روبوت الدردشة الآلية] الذي تم الإبلاغ عنه.
ويذكر أن رين الآن في منظمة غير ربحية تدعى “تقييم النماذج وأبحاث التهديدات”، ومقرها في بيركلي بكاليفورنيا، والتي تعمل على تقييم مخاطر الذكاء الاصطناعي.
كما يضيف: “يبدو من المعقول بالنسبة لي أن هذا يمثل تحسنًا كبيرًا وأساسيًا في قدرات التفكير الأساسية للنموذج”.
أيضا اختبرت OpenAI نموذج o1 في اختبار تأهيلي لأولمبياد الرياضيات الدولي. وكان أفضل نموذج سابق له، وهو GPT-4o، قد حل 13% فقط من المسائل بشكل صحيح. في حين أن نموذج o1 سجل 83 %.
خطوات التفكير المتتالية
لقد قرر OpenAI إبقاء تفاصيل أي سلسلة أفكار معينة مخفية – جزئيًا؛ لأن السلسلة قد تحتوي على أخطاء أو “أفكار” غير مقبولة اجتماعيًا وجزئيًا. ذلك لحماية أسرار الشركة المتعلقة بكيفية عمل النموذج. بدلًا من ذلك، يوفر o1 ملخصًا معادًا لمنطقه للمستخدم إلى جانب إجاباته. ومن غير الواضح ما إذا كانت سلسلة الأفكار الكاملة، إذا تم الكشف عنها، ستبدو مشابهة للمنطق البشري.
وتأتي القدرات الجديدة مع مقايضات. على سبيل المثال، تشير تقارير OpenAI إلى أنها تلقت ردود فعل متناقلة تفيد بأن نماذج o1 تصدر أجابات مغلوطة – أي تختلق إجابات غير صحيحة – أكثر من سابقاتها “على الرغم من أن الاختبارات الداخلية للشركة أظهرت معدلات هلوسة أقل قليلًا لـo1”.
وعلى الرغم من أن علماء الفريق الأحمر لاحظوا الكثير من الطرق التي كان فيها o1 مفيدًا في التوصل إلى بروتوكولات للتجارب العلمية. لكن OpenAI يقول إن المختبرين “سلطوا الضوء أيضًا على معلومات السلامة المفقودة المتعلقة بالخطوات الضارة. فعلى سبيل المثال عدم إبراز مخاطر المتفجرات أو اقتراح طرق احتواء كيميائية غير مناسبة؛ ما يشير إلى عدم ملاءمة النموذج للاعتماد عليه في مهام السلامة المادية عالية الخطورة”.
ويقول وايت: “إنه لا يزال غير مثالي أو موثوق به بما فيه الكفاية بحيث لا ترغب حقًا في التحقق منه عن كثب”. ويضيف أن o1 مناسب أكثر لتوجيه الخبراء أكثر من المبتدئين.
أيضا يقول: بالنسبة إلى المبتدئين. فإن الأمر يتجاوز قدرتهم على الفحص الفوري. للنظر إلى بروتوكول تم إنشاؤه بواسطة o1 ورؤية أنه “غير صحيح”.
يعتقد كرين أن o1 سيساعد على تسريع العلوم. ذلك من خلال المساعدة في مسح الأدبيات. ورؤية ما هو مفقود واقتراح طرق مثيرة للاهتمام للبحث المستقبلي. وقد حقق نجاحًا في ربط o1 بأداة شارك في تطويرها تقوم بذلك، وتسمى SciMuse2.
ويقول كرين: “إنها تخلق أفكارًا أكثر إثارة للاهتمام من GPT-4 أو GPT-4o”.
الحلول العلمية
استخدم كايل كاباساريس. وهو عالم بيانات في معهد أبحاث البيئة. أداة o1 لتكرار بعض الترميز من مشروع الدكتوراه الذي قام به لحساب كتلة الثقوب السوداء.
ويقول: “لقد كنت في حالة من الرهبة”. كما أشار إلى أن الأمر استغرق من o1 نحو ساعة لإنجاز ما استغرق منه عدة أشهر.
وتقول كاثرين براونشتاين، أخصائية علم الوراثة في ماساتشوستس: “إن المستشفى يختبر حاليًا العديد من أنظمة الذكاء الاصطناعي”. بما في ذلك o1-preview، لتطبيقات؛ مثل: “ربط النقاط بين خصائص المريض والجينات الخاصة بالأمراض النادرة”.
وتقول أيضا: “إن نظام o1 أكثر دقة ويعطي خيارات لم أكن أعتقد أنها ممكنة من روبوت الدردشة”.
بقلم: Nicola Jones
المقال الأصلي: (من هنـا)


