آبل تفتح الباب مجانًا أمام نموذجَي ذكاء اصطناعي قبيل مؤتمرها الكبير
أطلقت “آبل” مؤخراً نموذجين جديدين للذكاء الاصطناعي يقومان على خوارزمية التعلم الآلي مفتوحة المصدر الخاصة بها، مما يعزز مكانتها في مشهد الذكاء الاصطناعي المتطور. النموذجان، “فاست في إل إم” (FastVLM) و”موبايل كليب 2″ (MobileCLIP2)، يجمعان بين القدرات اللغوية والبصرية لتحليل الفيديوهات والصور بدقة وسرعة عالية، وهو ما يثير اهتمام المستخدمين المطّلعين على تقنيات الذكاء الاصطناعي الحديثة.
كيف يعزز نموذج FastVLM قدرات الذكاء الاصطناعي في تحليل الفيديو والصور
يُعد نموذج FastVLM من أحدث إصدارات “آبل” التي تستخدم فيها الشركة التعلم العميق المعتمد على دمج النماذج اللغوية مع القدرات البصرية، حيث يستطيع تفسير محتوى الفيديوهات والصور بدقة متناهية، بالإضافة إلى توليد ترجمات وشرح مفصل للمقاطع التي يتم إدخالها إليه. يعتمد هذا النموذج على إطار العمل مفتوح المصدر الذي طورته “آبل” خصيصاً، ويتميز بسرعة كبيرة تُسهل استخدامه في الوقت الحقيقي مما يجعله مناسباً للتطبيقات العملية التي تتطلب دقة وسرعة في تحليل المحتوى المرئي.
مميزات نموذج MobileCLIP2 وسرعته الفائقة مقارنة بالأجيال السابقة
يمثل نموذج “موبايل كليب 2” قفزة نوعية في مجال النماذج البصرية واللغوية معا، إذ أكد المطورون أن سرعته تفوق الأجيال السابقة بمقدار 85 ضعفاً، مع تقليل حجمه بنسبة 3.4 مرات مما يجعله الأكثر كفاءة في الأداء والاستهلاك. صُمم هذا النموذج للعمل بشكل مثالي مع معالجات “آبل” الخاصة، ما يوفر تجربة سلسة وقوية في التعامل مع مختلف أنواع الصور ومقاطع الفيديو، مع إمكانية توليد وصف دقيق للمحتوى في مدة قصيرة.
الاستخدامات العملية لنماذج الذكاء الاصطناعي من آبل على منصة “هاجينج فيس”
تم توفير هذه النماذج على منصة “هاجينج فيس” الشهيرة، التي تضم مكتبة واسعة من نماذج الذكاء الاصطناعي مفتوحة المصدر. وعلى الرغم من أنها غير موجهة لإنشاء مقاطع فيديو أو صور جديدة مباشرة، فإن نماذج “آبل” الجديدة تُستخدم لتعزيز فهم المحتوى المرئي عبر توليد ترجمات أو شرح دقيق للفيديوهات والصور التي تُزوّد بها، من خلال كاميرا الحاسوب أو ملفات الوسائط. هذا الاستخدام أتاح ترحيباً كبيراً من مجتمع المستخدمين، نظراً لدقتها وفعالية سرعتها في التعامل مع المحتوى المقدم.
النموذج | الميزة الرئيسية | السرعة مقارنة بالسابق | الحجم مقارنة بالسابق |
---|---|---|---|
FastVLM | دمج النماذج اللغوية والبصرية لتحليل الفيديو والصور | حتى 85 مرة أسرع | أصغر بمقدار 3.4 مرات |
MobileCLIP2 | قدرات بصرية ولغوية محسنة للعمل مع معالجات آبل | أسرع 85 مرة | أقل حجماً بنسبة 3.4 مرات |
تأتي هذه الإصدارات الجديدة كنماذج إثبات مفهوم بالدرجة الأولى، حيث تهدف “آبل” إلى إبراز قوتها في مجال الذكاء الاصطناعي، وقد تكون التمهيد لإطلاق مزايا أكثر تطوراً خلال مؤتمرها السنوي المقرر في التاسع من سبتمبر، حيث يتوقع أن تعلن عن تحسينات وتعزيزات جديدة تعتمد على هذه النماذج لتعزيز التجارب الذكية في منتجاتها. انتشار النماذج عبر منصة مفتوحة المصدر أيضاً يعكس التزام “آبل” بدعم مجتمع الذكاء الاصطناعي والمساهمة في تطوير أدوات تتيح الاستفادة من قدرات المعالجة البصرية واللغوية بشكل متكامل.