ليس عقلًا واحدًا، بل عقول كثيرة: كيف يجعل مزيج الخبراء (MoE) الذكاء الاصطناعي أذكى وأسرع

مع تزايد قوة نماذج الذكاء الاصطناعي، أصبحت أيضًا ضخمة الحجم. يتطلب تدريب وتشغيل هذه النماذج "المتجانسة" الضخمة كميات هائلة من طاقة الحوسبة، مما يجعلها باهظة الثمن وبطيئة بشكل لا يصدق. ولكن تصميمًا معماريًا لامعًا يسمى مزيج الخبراء (Mixture of Experts - MoE) يغير قواعد اللعبة.

بدلاً من عقل عملاق واحد عام يحاول معرفة كل شيء، يشبه نموذج MoE لجنة من الخبراء المتخصصين. عندما يأتي سؤال، يقوم النموذج بذكاء بتوجيهه فقط إلى الخبراء الأنسب للتعامل مع المهمة.

الطريقة القديمة: النموذج الكثيف والمتجانس

تقليديًا، كانت نماذج اللغة الكبيرة "كثيفة". هذا يعني أنه في كل مرة تطرح فيها سؤالاً على النموذج—بغض النظر عن مدى بساطته—يجب على الشبكة العصبية بأكملها، بمئات المليارات من الاتصالات، أن تعمل وتعالج المعلومات.

فكر في الأمر كأستاذ جامعي واحد واسع المعرفة أتقن كل موضوع. إذا سألته "ما هو 2+2؟"، فعليه أن يستخدم عقله بالكامل—الأجزاء التي تعرف فيزياء الكم، والأدب الشكسبيري، والتاريخ القديم—فقط ليعطيك الإجابة البسيطة. إنه قوي بشكل لا يصدق، ولكنه أيضًا غير فعال بشكل لا يصدق.

رسم توضيحي لدماغ شبكة عصبية كبيرة وكثيفة واحدة.

الطريقة الجديدة: لجنة مزيج الخبراء (MoE)

يتبع نموذج MoE نهج "فرق تسد". يتكون من جزأين رئيسيين:

الخبراء: بدلاً من شبكة عملاقة واحدة، يتم تقسيم النموذج إلى العديد من الشبكات العصبية الأصغر والمتخصصة تسمى "الخبراء". قد يطور كل خبير موهبة في موضوع معين، مثل الكتابة الإبداعية، أو البرمجة، أو التحليل التاريخي، أو الاستدلال المنطقي.
الموجه (Router): هذه شبكة عصبية صغيرة وفعالة تعمل كمدير مشروع أو موظف استقبال. وظيفتها الوحيدة هي النظر في استعلام وارد وتحديد بسرعة أي خبير أو خبيرين من اللجنة هما الأنسب للوظيفة.

كيف يعمل:

عندما تطرح سؤالاً على نموذج MoE مثل، "اكتب نصًا برمجيًا بلغة Python لتحليل بيانات الأسهم التاريخية،" يحدث ما يلي:

يقوم الموجه على الفور بتحليل الطلب.
يحدد أن هذه المهمة تتطلب معرفة بكل من البرمجة والتاريخ المالي.
ينشط فقط "خبير برمجة Python" و"خبير التاريخ المالي".
يظل الخبراء الآخرون—مثل "خبير الشعر" أو "خبير علم الأحياء"—خاملين، مما يوفر الطاقة.
يعمل الخبراء المختارون معًا على المشكلة ويولدون الإجابة النهائية.

رسم توضيحي لشبكة توجيه ترسل استعلامًا إلى خبراء محددين.

المزايا التي غيرت قواعد اللعبة في MoE

لهذا التصميم الذكي فوائد عميقة تدفع مجال الذكاء الاصطناعي بأكمله إلى الأمام:

كفاءة لا تصدق: نظرًا لأنه يتم استخدام جزء صغير فقط من النموذج لأي استعلام معين، فإن نماذج MoE أسرع وأرخص بكثير في التشغيل من النماذج الكثيفة ذات الحجم المماثل. هذه هي أكبر ميزة لها.
قابلية توسع هائلة: يمكن للباحثين بناء نماذج بكمية هائلة من المعرفة الإجمالية (عن طريق إضافة المزيد من الخبراء) دون أن يصبح النموذج أبطأ بشكل متناسب. يمكنك الحصول على نموذج بتريليون "معلمة" (الاتصالات التي تخزن المعرفة)، لكنه قد يستخدم 200 مليار فقط لأي مهمة واحدة، مما يجعله يبدو أسرع بكثير.
تخصص أفضل: من خلال السماح للخبراء بالتخصص، يمكن للنموذج تطوير معرفة أعمق في مجالات محددة، مما قد يؤدي إلى مخرجات عالية الجودة للأسئلة المعقدة ومتعددة الأوجه.

رسم توضيحي يظهر الخيارات والمسارات.

تم بناء نماذج مثل Mixtral 8x7B من Mistral و Grok من xAI على هذه البنية. إنها تمهد الطريق لمستقبل يمكن أن يكون فيه الذكاء الاصطناعي على حد سواء واسع المعرفة وسريعًا بشكل ملحوظ، مما يقربنا خطوة واحدة من الذكاء الاصطناعي القوي والمتاح حقًا.