من الضوضاء إلى التحفة الفنية: كيف تنشئ نماذج الانتشار (Diffusion Models) الصور

إذا سبق لك أن أُعجبت بصورة تم إنشاؤها بواسطة الذكاء الاصطناعي من خدمات مثل DALL-E أو Midjourney أو Stable Diffusion، فقد شهدت قوة نماذج الانتشار (Diffusion Models). لقد أحدثت هذه التقنية الرائدة في مجال الذكاء الاصطناعي ثورة في الفن الرقمي وتوليف الصور، لكن مفهومها الأساسي أنيق بشكل مدهش: إنها تنشئ صورًا معقدة من خلال البدء بالفوضى المطلقة.

على الرغم من أنها قد تبدو كالسحر، إلا أن العملية عبارة عن تحسين مدروس وخطوة بخطوة، حيث يتم تحويل الضوضاء العشوائية إلى صورة متماسكة ومفصلة بناءً على مطالبة المستخدم.

قبل الانتشار: نظرة سريعة إلى الوراء

لسنوات، كانت الطريقة الرائدة لتوليد الصور بواسطة الذكاء الاصطناعي هي الشبكات التوليدية التنافسية (GANs). في GAN، تتنافس شبكتان عصبيتان—"مولد" و "مميز"—ضد بعضهما البعض. يحاول المولد إنشاء صور مزيفة، ويحاول المميز تمييزها عن الصور الحقيقية. تدفع هذه المنافسة كليهما إلى التحسن.

على الرغم من قوتها، كانت GANs صعبة وغير مستقرة في التدريب بشكل سيء السمعة. غالبًا ما كانت تجد صعوبة في توليد مجموعة واسعة من الصور ويمكن أن تفشل بطرق غير متوقعة.

النموذج الجديد: عملية الانتشار

تتخذ نماذج الانتشار نهجًا مختلفًا تمامًا، مستوحى من مفاهيم في الديناميكا الحرارية. تنقسم العملية إلى مرحلتين رئيسيتين:

1. العملية الأمامية: إضافة الفوضى

أولاً، يتعلم الذكاء الاصطناعي ماهية الصورة عن طريق تدميرها. يأخذ صورة واضحة تمامًا ويضيف بشكل منهجي كمية صغيرة من "الضوضاء" (تشويش عشوائي) مرارًا وتكرارًا في سلسلة من الخطوات. يستمر في ذلك حتى تصبح الصورة الأصلية غير قابلة للتمييز تمامًا عن الضوضاء العشوائية.

يتتبع النموذج بعناية كيف تتدهور الصورة في كل خطوة. مرحلة "التدمير" هذه هي ساحة التدريب—إنها الطريقة التي يتعلم بها الذكاء الاصطناعي المسار من النظام إلى الفوضى.

شرح لعملية الانتشار الأمامية والعكسية.

2. العملية العكسية: إيجاد النظام

هذا هو المكان الذي يحدث فيه الخلق. يتعلم الذكاء الاصطناعي عكس العملية التي أتقنها للتو. يبدأ بحقل جديد وعشوائي تمامًا من الضوضاء، وبتوجيه من مطالبة نصية (على سبيل المثال، "قطة واقعية ترتدي قبعة صغيرة")، يبدأ في إزالة الضوضاء ببطء، خطوة بخطوة.

في كل خطوة، يستخدم ما تعلمه خلال العملية الأمامية لتخمين كيف يجب أن تبدو نسخة أقل ضوضاءً قليلاً من الصورة. تعمل المطالبة النصية كدليل قوي، حيث توجه عملية إزالة الضوضاء نحو النتيجة المرجوة. بعد مئات أو آلاف الخطوات الصغيرة من التحسين، تظهر صورة متماسكة ومفصلة من التشويش.

لماذا فازت نماذج الانتشار بالسباق الإبداعي؟

لهذه الطريقة العديد من المزايا الرئيسية التي سمحت لها بتجاوز التقنيات القديمة:

جودة وتنوع أعلى: نماذج الانتشار قادرة على إنتاج صور واقعية بشكل مذهل ومتنوعة فنيًا لم تكن ممكنة في السابق.
استقرار التدريب: إنها أكثر استقرارًا وموثوقية في التدريب بكثير مقارنة بالتوازن الدقيق المطلوب لـ GANs.
تحكم غير مسبوق: تتيح الطبيعة التدريجية للعملية تحكمًا لا يصدق عبر المطالبات النصية، مما يمكّن المستخدمين من تحديد الأسلوب والتكوين والمحتوى بتفاصيل دقيقة.

من خلال إتقان فن عكس الفوضى، تمثل نماذج الانتشار تحولًا أساسيًا في الذكاء الاصطناعي التوليدي، حيث تحول النص البسيط إلى فن بصري معقد وتفتح آفاقًا جديدة للإبداع الرقمي.