نموذج DeepSeek.. كل ما تريد معرفته عن الأداة الصينية المنافسة لـChatGPT

أصدر مختبر الذكاء الاصطناعي الصيني DeepSeek عائلة نماذج R1 الجديدة بموجب ترخيص مفتوح من معهد ماساتشوستس للتكنولوجيا، حيث تحتوي أكبر نسخة منها على 671 مليار معلمة، وتزعم الشركة أن النموذج يعمل بمستويات مماثلة لنموذج محاكاة المنطق (SR) الخاص بـOpenAI o1، النموذج وراء روبوت الدردشة ChatGPT، في العديد من معايير الرياضيات والترميز.
كما أنه إلى جانب إصدار النماذج الرئيسية DeepSeek-R1-Zero وDeepSeek-R1، نشر DeepSeek ستة إصدارات أصغر من “DeepSeek-R1-Distill” تتراوح من 1.5 مليار إلى 70 مليار معلمة.
تستند هذه النماذج إلى بنيات مفتوحة المصدر موجودة مثل Qwen وLlama، مدربة باستخدام البيانات الناتجة عن نموذج R1 الكامل.
يمكن تشغيل أصغر إصدار على جهاز كمبيوتر محمول، بينما يتطلب النموذج الكامل موارد حوسبة أكبر بكثير.
قال الباحث المستقل في مجال الذكاء الاصطناعي سيمون ويليسون لآرس في رسالة نصية: “إن تشغيلها ممتع للغاية، ومشاهدتها تفكر أمر مضحك”.
اختبر ويليسون أحد النماذج الأصغر ووصف تجربته في منشور على مدونته: “تبدأ كل استجابة بعلامة تحتوي على سلسلة من الأفكار المستخدمة للمساعدة في توليد الاستجابة”، مشيرًا إلى أنه حتى بالنسبة للمطالبات البسيطة، ينتج النموذج تفكيرًا داخليًا مكثفًا قبل الإخراج.
يعمل نموذج R1 بشكل مختلف عن نماذج اللغة الكبيرة النموذجية (LLMs) من خلال دمج ما يسميه الناس في الصناعة نهج الاستدلال.
يحاولون محاكاة سلسلة من الأفكار تشبه الإنسان بينما يعمل النموذج من خلال حل للاستعلام.