الحرب على الاستنتاج المحمول: الابتكار في تخفيض I/O وتوزيع القيمة

الحرب على الاستنتاج المحمول: الابتكار في تخفيض I/O وتوزيع القيمة

الاستخدام الفعّال للموارد بدلاً من زيادة حجم النماذج هو السبيل لتحقيق الابتكار في مجال الاستنتاج المحمول.

Martín SolerMartín Soler٤ مارس ٢٠٢٦6 دقيقة
مشاركة

الحرب على الاستنتاج المحمول: الابتكار في تخفيض I/O وتوزيع القيمة

لطالما واجهت وعود الذكاء الاصطناعي على الهواتف المحمولة حدودًا مقلقة: عدم توافق النموذج مع الذاكرة، نقص التخزين، وطاقة البطارية التي تؤثر سلبًا على تجربة المستخدم. لهذا، استمر الحديث عن الأداء المحلي باستخدام نماذج صغيرة مع العديد من التنازلات لسنوات عديدة.

إطلاق PowerInfer-2 يعدّ فاصلًا جديدًا، حيث يقدم اقتراحًا ملموسًا: تشغيل نماذج تتجاوز سعة ذاكرة الجهاز، من خلال تنسيق بين وحدة المعالجة المركزية (CPU) ووحدة المعالجة العصبية (NPU) والتخزين، مما يسهم في تخفيف الضغط عن الأداء. وفقًا للتقييمات، يحقق النظام سرعة تصل إلى 29.2x مقارنة ببدائل مثل llama.cpp وMLC-LLM، وبلغ معدل 11.68 توكن في الثانية لنموذج TurboSparse-Mixtral-47B على الهواتف المحمولة، وهو رقم كان حتى وقت قريب ينتمي إلى قطاع التسويق بدلًا من الهندسة القابلة للتحقق. ارتبطت القصة العامة بإطلاق النموذج كمصدر مفتوح في 11 يونيو 2024، والتكامل مع نماذج TurboSparse.

هذا الرقم وحده يعتبر انتصارًا تقنيًا، لكن المظهر الأهم بالنسبة للأعمال ليس أداء القياس، بل توزيع القيمة الذي يحفزه: عندما تنخفض التكلفة الهامشية للخدمة، يُعاد تحديد الأسعار والاعتماد على السحابة، مما يؤثر على السيطرة على المنتج وقوة التفاوض بين المصنعين ومطوري الأطر وأصحاب النماذج ومطوري التطبيقات.

الابتكار الحقيقي هو اللوجستيات: تقليل البيانات وزيادة قيمة التجربة

الأرقام الأكثر أهمية هنا هي تلك التي غالبًا ما تُخفى وراء كلمة "تحسين". يقدم PowerInfer-2 نظامًا قادرًا على خدمة النماذج الكبيرة التي تتجاوز قدرة ذاكرة الهواتف، من خلال فكرتين تشغيليتين: التكيّف الواعي للتناثر والتنسيق الذكي لتبادل البيانات (I/O). بدون مبالغات، يسعى النظام لتمكين الأجهزة من أداء أعمال مفيدة بينما يوفر التخزين ما تحتاجه، مما يقلل من كمية البيانات التي يجب استيرادها من التخزين في المقام الأول.

في الاختبارات المبلغ عنها، يظهر PowerInfer-2 في هاتف OnePlus 12 (بذاكرة DRAM 24GB ورقاقة Qualcomm XPU) متوسط سرعة 24.6x مقارنةً بـ llama.cpp، مع ذروة تصل إلى 27.8x، متفوقًا أيضاً على طريقة التحميل المنزلي مثل LLMFlash بمعدل 3.84x، وذروة تصل إلى 4.63x. بالنسبة للنماذج التي تصل سعتها إلى 7B، يؤكد النظام تقليص استخدام الذاكرة بنسبة تصل إلى 40% مع الحفاظ على سرعات مقارنة بـ llama.cpp وMLC-LLM. كل هذا يأتي في إطار هدف منتج: تحقيق استنتاجات في الوقت الحقيقي، محليًا، وبشكل خاص.

تضيف التكامل مع TurboSparse طبقة أخرى: لا يكفي وجود وقت تشغيل متقدم إذا لم يكن للنموذج هي structure predictableness. هنا، يعد TurboSparse بتوفير تناثر أكثر ملاءمة لتنفيذ فعّال، ويُعلن عنه كعامل تمكين لتحقيق سرعة تصل إلى 22x لموديل Mixtral مقارنة بـ llama.cpp ضمن PowerInfer-2، مع تدريب على تفريغ بيانات على 150 مليار توكن بتكلفة تُقدّر بـ 0.1 مليون دولار. هذه تفاصيل اقتصادية مهمة: يمكن أن تكون تكلفة "جعل نموذج كبير قابلاً للتشغيل" أقل من التكلفة السنوية لخدمته عبر السحابة على نطاق واسع، مما يغير حسابات الاستثمار لفريق المنتج.

فيما يتعلق بسلسلة القيمة، النقطة واضحة. الأداء لا يأتي من "معلمات أكبر"، بل من تقليل الحركة الداخلية وتحسين توزيع الأحمال بين الوحدات المتنوعة. إذا كان المنتج النهائي هو تجربة سلسة، فإن الشركة التي تلتقط القيمة هي تلك التي تحول هذه اللوجستيات إلى تكامل مستقر: أوقات استجابة متسقة، استهلاك أقل، حرارة أقل، وسلوك قابل للتنبؤ تحت أحمال متنوعة.

توزيع القيمة يتغير: سحابة، مصنعون، أطر، وتطبيقات تتنافس على الهامش

عندما يصبح الهاتف قادرًا على تحقيق معدلات توليد من رقمين في التوكنات في الثانية في نموذج 47B، تنتقل المحادثة من "هل هو ممكن" إلى "من يتقاضى الثمن ومتى". في عالم تهيمن فيه واجهات برمجة التطبيقات للذكاء الاصطناعي، يرتبط السعر النهائي للعديد من التطبيقات بتكلفة كل توكن والاعتماد التشغيلي: زمن الاستجابة، التوافر، والمخاطر التنظيمية بشأن البيانات الحساسة. لو انتقلت بعض هذه الطلبات إلى الأجهزة، فقد تنخفض التكلفة المتغيرة لكل توكن بشكل حاد لمزود التطبيق، لكن فقط إذا تم تكامل المكونات دون احتكاك.

هنا تنفتح أربع فرص لتق捕 القيمة:

1) تصنيع الأجهزة والرقائق. إذا استطاع PowerInfer-2 استغلال XPU المتنوع (CPU+NPU) وأظهر أن ذاكرة بين 16-24GB من DRAM تمكّن تجارب كانت محصورة سابقًا على السحابة، يمكنك تبرير سعر أعلى للجهاز أو تمييز خط الإنتاج. لكن تلك القيمة الزائدة تبقى مستدامة فقط إذا تم نقل الفائدة للمستخدم في شكل تجربة، لا في قائمة المواصفات.

2) إطار الاستنتاج. يصبح وقت تشغيل مفتوح المصدر قوي معيارًا فعليًا وينقل القوة لمن يتحكم في التوافق، أدوات تطوير المجتمع. قد لا يتم تحقيق تلك القوة بالضرورة من خلال التراخيص، ولكن من خلال التأثير على التكامل والدعم وتوزيع النماذج، وخصوصًا تقليل تكاليف التبني للجهات الخارجية.

3) أصحاب النماذج. يقترح TurboSparse مسارًا: أخذ الهياكل القائمة وجعلها أكثر قابلية للتشغيل على الهواتف المحمولة. إذا كانت تكلفة التفريغ منخفضة بالنسبة لقيمة التوزيع الشامل، فيمكن لصاحب النموذج توسيع نطاقه دون دفع فاتورة الاستنتاج عبر السحابة. ومع ذلك، فإن القيمة التي يمكن أن يحتفظ بها صاحب النموذج تتضاءل إذا أصبح النموذج سلعة محلية، يمكن تبادلها دون التزام.

4) التطبيق. هي الأقرب إلى المستخدم وقادرة على التحصيل مقابل النتائج. إذا تمكنت من تحويل الاستنتاج المحلي إلى ميزة ملحوظة (خصوصية، العمل في وضع عدم الاتصال، زمن استجابة سريع)، فإنها تزيد من هوامش ربحها لأنها تخفض التكاليف المتغيرة. لكن هذه الهوامش ستكون هشة إذا اعتمدت على تحسينات لا تستمر عبر تنوع الأجهزة.

يظهر خطر التوزيع عندما يحاول أحد الممثلين احتكار كل الفائدة. إذا أغلق الصانع أو قيد تكامل المكونات، فإن ذلك يرفع تكاليف الابتكار للتطبيقات. إذا كان الإطار مصممًا لتحسين مجموعة فرعية محدودة من الأجهزة، فإنه يستبعد المستخدمين ويقلل السوق. إذا حاول صاحب النموذج إغلاق الوصول أو فرض رسوم، فإنه يحفز الاستبدال بخيارات مفتوحة.

تتمثل الاستراتيجية المستدامة في ضمان وجود سبب اقتصادي واضح لكل ممثل للاستمرار: تقليل التكاليف للتطبيقات، التمييز للأجهزة، وتوزيع للنماذج.

من العرض التوضيحي إلى الأعمال: القيود المحمولة تتطلب تحالفات، لا استخلاص

تقدم PowerInfer-2 لا يحدث في مختبر مثالي، بل في بيئة قاسية: تخزين UFS بتأخيرات مؤذية، ذكرة محدودة، ووحدات معالجة ذات أنماط مختلفة. الاقتراح التقني المذكور سابقًا — تقسيم عمليات الحوسبة على مستوى "عناقيد الخلايا العصبية"، وتعيين الأحمال الشديدة لـ NPU والخفيفة لـ CPU، ودمج الحساب مع I/O— بأسس العملية لتوليد سلسلة لوجستية داخلية. هذا هو نوع الابتكار الذي يصبح بنية تحتية غير مرئية عندما ينجح.

لكن البنية التحتية غير المرئية لا تخلق أعمالًا إذا كان النظام يحتاج لإعادة كتابة المنتج. لذا، المتجه الاستراتيجي ليس فقط "أن تكون أسرع"، ولكن "أن تكون قابلاً للتكامل": استقرار السائقين، قابلية النقل بين النماذج، التوافق مع العمليات الحسابية، وأداء متسق في مجموعة متنوعة من الأجهزة.

في هذه المرحلة، تمثل الالتزام المعتاد للصناعة هو دفع التكاليف نحو الحلقة الأضعف. في مجال المحمول، غالبًا ما يكون ذلك مطور التطبيق: يُطلب منه تحسين الأداء لكل جهاز، والتعامل مع التنوع، وقبول أن الخبرة النهائية تتباين. هذه النمط يمثل ضريبة على الابتكار وينتهي به الأمر إلى تقليل حجم السوق.

النهج الذي يقترحه PowerInfer-2، بكونه منشورًا ومتاحًا كمصدر مفتوح، يهدف إلى توزيع أكثر براغماتية: تتركز تكاليف الهندسة الثقيلة في إطار زمني موحد وفي نماذج مُعدّة لأداء فعّال. إذا تمكن ذلك من الاستمرار، فإن المستفيدين لن يكونوا الهواتف الفاخرة فقط، بل أيضًا طبقة المنتجات التي يمكنها بناء تجارب دون دفع تكلفة سحابية افتراضية.

ومع ذلك، يبقى هناك نقطة عمياء: الاستدامة الاقتصادية للصيانة. إذا لم يمتص المجتمع هذه التكلفة، سيتحملها أحدهم مع شكل آخر من استحواذ القيمة: دعم شركات، أو اتفاقات مع المصنعين، أو تكامل تفضيلي. تعتمد استدامة التوزيع على توفير "التكلفة الثابتة" التمويل دون تحويل اللغة إلى رسوم.

القيمة تنتقل نحو من يتحكم بتجربة محلية دون كسر الحوافز

ما هو أكثر اضطرابًا من تقديم 47B عند 11.68 توكن/ثانية في هاتف محمول ليس الرقم، بل التحول في الهيكل التجاري. جزء من العمليات الحسابية التي كانت تتطلب الاعتماد على السحابة أصبحت قدرة موزعة على ملايين الأجهزة. ذلك لا يلغي السحابة، ولكن يعيد تموضعها: الاستنتاجات العُرضية تنقص بينما يصبح التدريب، التنسيق، التحديث والخدمات المرافقة أكثر أهمية.

بالنسبة للمديرين التنفيذيين، القراءة العملية هي إعادة تقييم "هامش التصميم". إذا تمكن تطبيق ما من تقليل فواتير التوكنات بنقل الاستنتاجات إلى الجهاز، يمكن إعادة استثمار هذا الهامش في الاكتساب، المحتوى، الدعم أو تخفيض سعر المستخدم. إذا تمكن مصنع من تحويل الاستنتاجات المحلية إلى سبب حقيقي للشراء، فإنه يلتقط جزءًا من القيمة في سعر البيع، لكن فقط إذا لم يعرقل أولئك الذين يخلقون التجارب. إذا أصبح الإطار هو القناة السائدة، يلتقط قيمة على شكل معيار وتدفق اعتمادي، لكن سلطته تستمر طالما يشجع التقليل من التكاليف لأطراف ثالثة.

يطرح تغطية TurboSparse Mobile أطروحة ضمنية: مع تشتت يمكن التنبؤ به و تنظيم دقيق بين NPU وCPU و التخزين، أصبحت حدود "نماذج صغيرة فقط على المحمول" ليست قانونًا فيزيائيًا. من هنا، تنتقل المنافسة الفعلية إلى تصميم المنتج وإدارة السلسلة التقنية.

تفرز القرار الاستراتيجي الذي يفصل بين الفائزين، الذين يقسمون فوائد الاستنتاج المحلي - خفض النفقات للتطبيقات، تحسين التجربة للمستخدمين، ميزات تمييز للأجهزة وقنوات لتوزيع النماذج - سيبنون استدامة؛ أما الذين يسعون للاستحواذ على الهامش بأكمله، فيحوّلون التحسينات التقنية إلى جولة أخرى من الاحتكاك، ونوع هذه الميزة يتلاشى حالما يظهر وقت تشغيل مفتوح آخر.

مشاركة
0 أصوات
صوت لهذا المقال!

التعليقات

...

قد يعجبك أيضاً