إنفيديا تكشف أول نموذج ذكاء اصطناعي بذاكرة تخدم 32 ضعف المستخدمين
نيسان ـ نشر في 2025-07-13 الساعة 12:42
x
نيسان ـ كشفت شركة إنفيديا عن تقنية جديدة وفعّالة يُمكن أن تُحسّن جذرياً كيفية عمل نماذج الذكاء الاصطناعي في سياقات ضخمة.
ويُطلق على هذه التقنية اسم "التوازي الحلزوني"، وهي تُتيح لبرامج الذكاء الاصطناعي معالجة ملايين الكلمات في آنٍ واحد، كالموسوعات، مع تقديم استجابات فائقة السرعة، وصُممت هذه الترقية بأحدث أنظمة وحدات معالجة الرسومات الذي يُوفر نطاق ترددي فائق للذاكرة وحوسبة FP4، حسب ما أفاد موقع "إنترستينغ إنجينيرينغ".
معالجة مشكلتين رئيسيتين
المشكلة الرئيسية في نماذج الذكاء الاصطناعي الكبيرة لا تكمن فقط في حجمها، بل فيما يحدث عندما تُحاول إنشاء محتوى جديد باستخدام تراكمات ضخمة من المدخلات السابقة، والتي تُسمى "السياق"، و كل كلمة ينتجها الذكاء الاصطناعي تتطلب مسح الرموز السابقة المخزنة فيما يُسمى ذاكرة التخزين المؤقت قراءة هذه الذاكرة المؤقتة مراراً وتكراراً ترهق نطاق تردد ذاكرة وحدة معالجة الرسومات.
في الوقت نفسه، يحتاج الذكاء الاصطناعي أيضاً إلى إعادة تحميل أوزان شبكة التغذية الأمامية الضخمة من الذاكرة لمعالجة كل كلمة جديدة، وتُبطئ هذه العملية الأمور، خاصةً أثناء حالات الاستخدام الآني مثل الدردشة.
وفي السابق، استخدم المطورون توازي الموتر لتوزيع هذا الحمل على وحدات معالجة الرسومات، لكن هذا يُساعد إلى حد ما فقط، بعد حجم مُعين، حيث تبدأ وحدات معالجة الرسومات بتكرار ذاكرة التخزين المؤقت KV، مما يؤدي إلى زيادة ضغط الذاكرة.
ما الذي يُميزه؟
وفي قفزة هائلة في الأداء تُظهر عمليات المحاكاة بنموذج ضخم بسياق مليون رمز.
ويُمكنه خدمة عدد من المستخدمين يصل إلى 32 ضعفاً في نفس وقت الاستجابة، مُقارنةً بالطرق القديمة.
ويحافظ على توازن استخدام الذاكرة وثبات الإنتاجية. يُرتب النظام تحديثات ذاكرة التخزين المؤقت KV بشكل دوري لتجنب ارتفاعات الذاكرة وزيادة تحميل وحدة معالجة الرسومات، وباختصار، يُتيح Helix لنماذج الذكاء الاصطناعي التوسع في الحجم والسرعة، دون التضحية بالأداء في الوقت الفعلي.
هذا يعني أن المساعدين الافتراضيين، والروبوتات القانونية، ومساعدي الذكاء الاصطناعي يمكنهم الآن إدارة أحمال عمل ضخمة مع الحفاظ على استجابتهم السريعة.
ويُطلق على هذه التقنية اسم "التوازي الحلزوني"، وهي تُتيح لبرامج الذكاء الاصطناعي معالجة ملايين الكلمات في آنٍ واحد، كالموسوعات، مع تقديم استجابات فائقة السرعة، وصُممت هذه الترقية بأحدث أنظمة وحدات معالجة الرسومات الذي يُوفر نطاق ترددي فائق للذاكرة وحوسبة FP4، حسب ما أفاد موقع "إنترستينغ إنجينيرينغ".
معالجة مشكلتين رئيسيتين
المشكلة الرئيسية في نماذج الذكاء الاصطناعي الكبيرة لا تكمن فقط في حجمها، بل فيما يحدث عندما تُحاول إنشاء محتوى جديد باستخدام تراكمات ضخمة من المدخلات السابقة، والتي تُسمى "السياق"، و كل كلمة ينتجها الذكاء الاصطناعي تتطلب مسح الرموز السابقة المخزنة فيما يُسمى ذاكرة التخزين المؤقت قراءة هذه الذاكرة المؤقتة مراراً وتكراراً ترهق نطاق تردد ذاكرة وحدة معالجة الرسومات.
في الوقت نفسه، يحتاج الذكاء الاصطناعي أيضاً إلى إعادة تحميل أوزان شبكة التغذية الأمامية الضخمة من الذاكرة لمعالجة كل كلمة جديدة، وتُبطئ هذه العملية الأمور، خاصةً أثناء حالات الاستخدام الآني مثل الدردشة.
وفي السابق، استخدم المطورون توازي الموتر لتوزيع هذا الحمل على وحدات معالجة الرسومات، لكن هذا يُساعد إلى حد ما فقط، بعد حجم مُعين، حيث تبدأ وحدات معالجة الرسومات بتكرار ذاكرة التخزين المؤقت KV، مما يؤدي إلى زيادة ضغط الذاكرة.
ما الذي يُميزه؟
وفي قفزة هائلة في الأداء تُظهر عمليات المحاكاة بنموذج ضخم بسياق مليون رمز.
ويُمكنه خدمة عدد من المستخدمين يصل إلى 32 ضعفاً في نفس وقت الاستجابة، مُقارنةً بالطرق القديمة.
ويحافظ على توازن استخدام الذاكرة وثبات الإنتاجية. يُرتب النظام تحديثات ذاكرة التخزين المؤقت KV بشكل دوري لتجنب ارتفاعات الذاكرة وزيادة تحميل وحدة معالجة الرسومات، وباختصار، يُتيح Helix لنماذج الذكاء الاصطناعي التوسع في الحجم والسرعة، دون التضحية بالأداء في الوقت الفعلي.
هذا يعني أن المساعدين الافتراضيين، والروبوتات القانونية، ومساعدي الذكاء الاصطناعي يمكنهم الآن إدارة أحمال عمل ضخمة مع الحفاظ على استجابتهم السريعة.