مايكروسوفت تقدم نموذج لغويًا صغيرًا يحلل الصور

تعمل مايكروسوفت على توسيع نطاق نماذجها اللغوية الصغيرة Phi-3 من خلال إطلاق Phi-3-vision. هذا النموذج متعدد الوسائط يستطيع تحليل الصور وفهمها، ويتميز بـ 4.2 مليار معلمة، مما يجعله مناسبًا للأجهزة المحمولة وفعّالًا في التفكير البصري.

مايكروسوفت تقدم نموذج لغويًا صغيرًا يحلل الصور

على جانب آخر، قدمت جوجل نموذجًا متعدد الوسائط أيضًا، وهو PaliGemma، الذي يحتوي على حوالي 3 مليارات معلمة، أصغر قليلًا من نموذج مايكروسوفت. يُعد Phi-3-vision مثالًا لنموذج لغوي صغير متعدد الوسائط، وتُظهر المعلمات درجة تعقيد النموذج ومستوى التدريب الذي حصل عليه.

يُمكن للمستخدمين طرح أسئلتهم حول الصور والمخططات على Phi-3-vision، حيث يقدم النموذج إجابات دقيقة دون إنتاج الصور. يبرز Phi-3-vision في تحليل وفهم الصور رغم عدم قدرته على إنشائها، على عكس أدوات مثل DALL-E أو Stable Diffusion.

تأتي Phi-3-vision بعد Phi-3-mini، الذي يحتوي على 3.8 مليار معلمة، والآن تضم عائلة مايكروسوفت الكاملة من النماذج اللغوية الصغيرة Phi-3-mini و Phi-3-vision و Phi-3-small و Phi-3-medium. هذا التركيز على النماذج اللغوية الصغيرة يعكس اهتمامًا متزايدًا في تطوير الذكاء الاصطناعي.

النماذج اللغوية الصغيرة تستهلك طاقة معالجة وذاكرة أقل، مما يجعلها مناسبة للأجهزة المحمولة والبيئات ذات الموارد المحدودة. تُستخدم هذه النماذج لتشغيل خدمات الذكاء الاصطناعي بفعالية على مختلف الأجهزة دون استهلاك كبير للذاكرة.

نجحت مايكروسوفت في هذا المجال، حيث يُقال إن نموذجها Orca-Math يفوق المنافسين الأكبر حجمًا في حل المسائل الرياضية، مثل Gemini Pro من جوجل. يُمكن الآن للمستخدمين الوصول إلى Phi-3-vision من خلال المعاينة، بينما تتوفر بقية أفراد عائلة نماذج Phi-3 من خلال مكتبة نماذج Azure.

اظهر المزيد

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى