मोबाइल इनफेरेंस की युद्ध में बड़े मॉडल नहीं, कम I/O और बेहतर मूल्य श्रृंखला की जरूरत है
इंटरनेट कनेक्टेड दुनिया में, मोबाइल फोन पर एआई की आशा हमेशा किसी सीमा से टकराई है: मॉडल में समायोजन नहीं हो पाता, मेमोरी सीमित होती है, भंडारण धीमा होता है, और ऊर्जा की खपत अनुभव को प्रभावित करती है। इसलिए, वर्षों से, "ऑन-डिवाइस" वार्तालाप छोटे मॉडलों और कई समझौतों के साथ ही आगे बढ़ा।
PowerInfer-2 का लॉन्च इस सीमा को बदलता है, एक ठोस प्रस्ताव के साथ: ऐसे मॉडल चलाना जो उपकरण की मेमोरी से अधिक हो, CPU, NPU और भंडारण को समन्वयित करके ताकि न सिर्फ प्रदर्शन में सुधार हो सके। इसकी समीक्षाओं के अनुसार, यह प्रणाली 29.2x तक की तेजी प्रदान करती है और TurboSparse-Mixtral-47B पर 11.68 टोकन प्रति सेकंड तक पहुंच बनाती है, एक आंकड़ा जो हाल ही तक केवल विपणन का हिस्सा रहा करता था।
यह तकनीकी सफलता महान है, लेकिन इसका व्यावसायिक असर यह है कि जब टोकन की लागत गिरती है, तब मूल्य का पुनर्विभाजन होता है: कीमतें, क्लाउड पर निर्भरता, प्रोडक्ट नियंत्रण में परिवर्तन, और विनिर्माताओं, फ्रेमवर्क के डेवलपर्स, मॉडल के मालिकों, और ऐप निर्माता के बीच बातचीत की शक्ति बढ़ती है।
असली नवाचार लॉजिस्टिक्स है: कम डेटा स्थानांतरण करें, अनुभव के लिए अधिक चार्ज करें
यहाँ जो सबसे महत्वपूर्ण संख्या है वह वह है जो आमतौर पर "ऑप्टिमाइजेशन" के पीछे छिपी रहती है। PowerInfer-2 एक ऐसा फ्रेमवर्क है जो LLMs को सेवा देने में सक्षम है, जो फोन की मेमोरी की क्षमता से अधिक हैं, इसके दो ऑपरेशनल विचारों के माध्यम से: विज्ञानी रूप से व्यावस्थित बर्बादी और I/O का ठीक से समन्वय। सीधे शब्दों में, यह प्रणाली प्रयास करती है कि हार्डवेयर उपयोगी काम करे जबकि भंडारण वो मात्रा प्रदान करता है जो अपेक्षित होती है।
परीक्षणों में, PowerInfer-2 एक OnePlus 12 (24GB DRAM और Qualcomm XPU) पर llama.cpp की तुलना में 24.6x की औसत तेजी दिखाता है, जिसमें 27.8x तक के शिखर भी शामिल हैं। यदि 7B के मॉडल जो मेमोरी में समा सकते हैं, तो यह प्रणाली मेमोरी उपयोग को 40% तक कम करता है जबकि llama.cpp और MLC-LLM के समकक्ष गति बनाए रखता है।
TurboSparse के साथ एकीकरण एक और परत जोड़ता है: एक विकसित रUNTIME प्रतियोगिता को सिर्फ एक तरह की सक्रियता की आवश्यकता होती है ताकि प्रभावी कार्यान्वयन हो सके। यह सुनिश्चित करता है कि भंडारण में किए गए प्रशिक्षण के लिए 0.1 मिलियन डॉलर का खर्च होता है, जो इसे बड़े मॉडल को चलाने की तुलना में कम लागत पैदा करता है।
मूल्य का पुनर्विभाजन जब बदलता है: क्लाउड, निर्माण, फ्रेमवर्क और ऐप्स के बीच प्रतिस्पर्धा
जब एक फोन टोकन के लिए 47B मॉडल पर दो अंकों की दर में जनरेशन कर सकता है, तो सवाल यह नहीं रहेगा कि "क्या यह संभव है" बल्कि "कौन किससे चार्ज करेगा"। एआई API के द्वारा संचालित एक विश्व में, बहुत सी ऐप्स का अंतिम मूल्य टोकन लागत पर निर्भर करता है। यदि उस मांग का कुछ हिस्सा उपकरण पर स्थानांतरित होता है, तो तात्कालिक टोकन लागत में कमी हो सकती है, बशर्ते कि टेक्नोलॉजी के बीच घर्षण कम हो।
यहाँ चार स्थान हैं जहाँ मूल्य को कैप्चर किया जा सकता है:
1) उपकरण निर्माता और सिलिकॉन। यदि PowerInfer-2 एक XPU को बेहतर रूप से इस्तेमाल करता है और यह साबित करता है कि 16–24GB DRAM स्थानीय अनुभवों के लिए संभव बनाता है, तो निर्माता अपना हार्डवेयर मूल्य बढ़ा सकता है।
2) इनफेरेंस फ्रेमवर्क। एक मजबूत ओपन-सोर्स रनटाइम एक डिफ़ॉल्ट मानक बन सकता है और शक्ति को उस पर स्थानांतरित कर सकता है जो संगतता, टूलचेन और समुदाय को नियंत्रित करता है।
3) मॉडल के मालिक। TurboSparse बताता है कि मौजूदा आर्किटेक्चर को मोबाइल पर अधिक कार्यकारी बनाने के लिए एक मार्ग है। यदि स्पर्शता की लागत निम्न है, तो मालिक बड़े पैमाने पर पहुंच के लिए निवेश कर सकता है।
4) ऐप्लिकेशन। जब यह उपयोगकर्ताओं के नजदीक होती है, तो वह परिणाम के लिए चार्ज कर सकती है और स्थानीय इनफेरेंस को एक वास्तविक लाभ में परिवर्तित करने पर अपना मार्जिन बढ़ा सकती है।
डेमो से व्यवसाय की ओर: मोबाइल की सीमाएं गठजोड़ के लिए मजबूर करती हैं
पावरइनफर-2 की छलांग आदर्श प्रयोगशाला में नहीं होती है, बल्कि एक प्रतिकूल वातावरण में: उच्च मात्रा की भंडारण, सीमित मेमोरी, और विभिन्न प्रोफाइल वाली गणना इकाइयाँ।
हालांकि अंतर्निहित तकनीकी प्रस्ताव—नीरोन के क्लस्टर स्तर पर गणना का विभाजन, गहन NPU को और भिन्न CPU को सौंपना, और I/O के साथ जोड़ना—प्रक्रियागत श्रृंखला के प्रबंधन के लिए एक डिजाइन है।
यह दृष्टिकोण तभी पूंजीकरण करता है जब प्रणाली को फिर से उत्पादित नहीं करना हो।
पॉवरइनफर-2 का सुझाव दिया गया दृष्टिकोण ओपन-सोर्स है, और सार्वजनिक भंडार में मॉडल्स के साथ इसकी गुणवत्ता के लिए यह एक प्रैक्टिकल तरीका प्रस्तुत करता है: आवश्यक इंजीनीयरींग लागत को एक सामान्य रUNTIME में संकेंद्रित किया जाता है और प्रभावी चलाने के लिए बुनियादी मॉडल पर ध्यान केंद्रित किया जाता है।
मूल्य उस पर जा रहा है जो सुसंगत अनुभव को नियंत्रित करता है
47B को 11.68 टोकन/सेकंड पर स्मार्टफ़ोन में सेवा देने का सबसे विघटनकारी पहलू यह नहीं है। यह व्यापार के आर्किटेक्चर का परिवर्तन है: प्रदूषण/दृभीकरण की जगह दी गई शक्ति कई उपकरणों में वितरित होती है। यह क्लाउड को समाप्त नहीं करता, लेकिन इसे नए सिरे से स्थापित करता है: कार्रवाई का कम, अपग्रेड और सर्विस अधिक।
C-लेवल के लिए, व्यावहारिक मूल्यांकन का यह है कि यदि कोई ऐप अपने टोकन बिल का हिस्सा गिराकर संचालन को उपकरण पर स्थानांतरित करती है, तो यह अपनी बढ़ती हो सकती है।
TurboSparse Mobile इस विचार को प्रस्तुत करता है कि प्रीडिक्टेबल स्पार्सिटी और ध्यान से NPU, CPU और भंडारण के बीच समन्वय के साथ, "मोबाइल में केवल छोटे मॉडल" की सीमाएं भौतिक कानून बनना खत्म हो जाती हैं।
विजेताओं और अवसरवादी के बीच रणनीतिक निर्णय वितरणात्मक है: जो कोई भी स्थानीय इनफेरेंस के लाभ का बंटवारा करेगा—ऐप के लिए कम लागत, उपयोगकर्ताओं के लिए बेहतर अनुभव, हार्डवेयर के लिए विभेद, और मॉडल के लिए वितरण—स्थायी आधार पर निर्माण करेगा।











