PowerInfer-2とは何ですか？

PowerInfer-2は、スマートフォン上で大規模なモデルを実行するためのフレームワークです。

TurboSparseとの関係は？

TurboSparseは、モデルのスパース性を利用して効率的な実行を可能にします。

この技術はどのようにビジネスに影響を与えますか？

コスト構造を改善し、クラウドへの依存を減らすことで、企業の競争力を向上させます。

中小企業にとっての利点は？

コスト削減と効率的なAIインファレンスにより、競争力が高まります。

どのようにしてこの技術の利用を開始できますか？

オープンソースとして提供されているため、公式リポジトリからアプローチできます。

モバイルインファレンスの戦争と新たな価値

モバイルインファレンスの戦争：より小さなモデル、少ないI/O、分散型の価値チェーンの重要性

スマートフォンにおけるAIの約束は、常に平凡な限界に直面してきた。モデルが搭載できず、メモリが不足し、ストレージは遅く、電力消費が経験を打撃する。これにより、長年にわたって「デバイス上」での議論は小さなモデルと多くの妥協で成り立っていた。

PowerInfer-2の発表は、その境界を変え、具体的な提案をもたらした。デバイスのメモリを超えるモデルを実行し、CPU、NPU、ストレージを調整することで、ボトルネックが性能を支配しないようにする。このシステムは、29.2倍の加速を実現し、スマートフォンのTurboSparse-Mixtral-47Bで11.68トークン/秒に達する。これは、最近までマーケティングの領域に属していた数値だ。これは2024年6月11日のオープンソースリリースと、TurboSparseモデルとの統合と関連している。
[https://hackernoon.com/turbosparse-mobile-22x-faster-mixtral-inference-on-powerinfer-2]

この数値は、単なる技術的勝利であるが、ビジネスにおける重要な意味はベンチマークにあるのではなく、実現する価値の分配にある。トークンの供給コストがエッジで急落すると、価格設定、クラウドへの依存、製品管理、製造業者、フレームワーク開発者、モデル所有者、このアプリのクリエイター間の交渉力が再交渉される。

実際の革新はロジスティクス：データを減らし、経験に対してより多くを請求する

ここで最も重要なのは、通常「最適化」という言葉の裏に隠れている数字である。PowerInfer-2は、大きなメモリを超えるLLM（大規模言語モデル）を提供するためのフレームワークとして、二つの運用アイデアを提示する：スパースさへの意識的な適応とI/Oの意識的なオーケストレーション。簡潔に言えば、ハードウェアは有用な作業を行い、ストレージが不足している部分を提供し、元々ストレージから引き出す必要があるものを減らすことを目指す。

報告されたテストでは、PowerInfer-2はOnePlus 12（24GBのDRAMとQualcommのXPU）上で、24.6倍の平均加速を示し、ピークでは27.8倍で、オフローディングのアプローチであるLLMFlashを3.84倍の平均、さらには4.63倍で上回る。また、7Bのメモリに収まるモデルでは、メモリ使用量を約40%削減しつつ、llama.cppやMLC-LLMに匹敵するスピードを維持する。このすべては、リアルタイムのローカルかつプライベートなインファレンスを目指した製品目標の中に収まっている。
[https://hackernoon.com/turbosparse-mobile-22x-faster-mixtral-inference-on-powerinfer-2]

TurboSparseとの統合はもう一つの層を追加している。洗練された実行環境だけでは不十分で、モデルに予測可能な活性化構造がないと意味がない。ここで、TurboSparseは、効率的な実行に対して「フレンドリーな」スパースさを提供し、PowerInfer-2の下でllama.cppに対してMixtralの速度を最大22倍上げるともてはやされている。スパース化のためのトレーニングには1500億トークンが使用され、報告されているコストは100万ドルである。この経済的詳細は興味深い：大きなモデルを展開可能にするコストは、スケールでクラウドへの提供コストよりも低くなることもあり、食品チームの投資計算が変わる。

[https://hackernoon.com/turbosparse-mobile-22x-faster-mixtral-inference-on-powerinfer-2]

価値チェーンの観点から見ると、要点は単純である。性能は「より多くのパラメータ」からではなく、より少ない内部トラフィックと均等な負荷配分から生まれる。最終製品がスムーズな体験を提供する場合、価値を捕える企業は、そのロジスティクスを安定した統合に変える企業である：レスポンスタイムの一貫性、より少ない消費、過熱の防止、異なる負荷の下での予測可能な動作。

価値の分配が変わる：クラウド、製造業者、フレームワーク、アプリがマージンを巡って競争する

デバイスが47Bのモデルでトークン生成率が2桁に近づく可能性があるなら、談話は「可能か」という問いから「誰が何を請求するか」という問いに変わる。AIのAPIが支配する世界では、多くのアプリの最終価格はトークンあたりのコストとオペレーショナルな依存に縛られている：遅延、可用性、機密データに関する規制リスク。その一部がデバイスに移行すれば、アプリの提供者の変動コストは急激に下がるが、それはスタックが無摩擦に統合される場合のみだ。

ここでは、4つの価値捕獲ポジションが開かれる：

1) デバイスおよびシリコン製造業者。PowerInfer-2が異種XPU（CPU + NPU）を最適に利用し、16-24GBのDRAMが以前はクラウドに限定されていた体験を可能にすることを証明できれば、製造業者はハードウェアのプレミアムを正当化したり商品を差別化できる。しかし、そのプレミアムは、ユーザーに提供される利益が体験として転送される場合にのみ持続する。

2) インファレンスフレームワーク。強力なオープンソースランタイムは事実上の標準となり、互換性、ツールチェーン、コミュニティをコントロールする者に権力を移動させる。その権力は必ずしもライセンスで収益化されるわけではなく、統合、サポート、モデルの配布、特に第三者の採用コスト削減によって収益化される。

3) モデル所有者。TurboSparseは道を示唆する：既存のアーキテクチャを取り、モバイルで「実行可能に」する。スパース化のコストが大規模な配信の価値に対して低ければ、モデルの所有者はクラウドによるインファレンシングの請求なしで範囲を拡大できる。しかし、モデルがローカルで交換可能なコモディティ化されると、モデルの所有者が捕獲できる価値は減少する。

4) アプリケーション。ユーザーに最も近く、結果に対して請求できる。もしローカルでのインファレンスを実質的な利点（プライバシー、オフライン、遅延）に転換できれば、可変コストを削減することでマージンが向上する。しかし、そのマージンは、さまざまなデバイス間で維持できない最適化に依存している場合、脆弱である。

分配のリスクは、あるアクターがすべての利益を獲得しようとするときに現れる。製造業者がスタックを封じ込めると、アプリの革新が高くつく。フレームワークが、最小限のハードウェアサブセットのために最適化すると、ユーザーを排除し、市場を狭める。モデルの所有者がアクセスを閉じたり料金を課すと、オープンな代替品への置き換えを助長する。持続可能な戦略は、各アクターが留まる経済的理由を持つようにすることである：アプリには低コスト、ハードウェアの差別化、モデルの配布が必要だ。

デモからビジネスへ：モバイル制約が抽出主義ではなく、提携を促す

PowerInfer-2の飛躍は理想的なラボではなく、厳しい環境の中で起こる。レイテンシに厳しいUFSストレージ、限られたメモリ、異なるプロファイルのコンピューティングユニットが存在する。この技術提案は、演算を「神経群のクラスター」レベルで分割し、密度の高い処理をNPUに、スパースな処理をCPUに割り当て、処理とI/Oを重ね合わせて行うことが、本質的に内部の物流チェーンに対する運用設計となっている。こうした革新が機能した場合、目に見えないインフラストラクチャに進化する。

しかし、目に見えないインフラストラクチャは、システムが製品を再記述することなく採用できる場合にのみビジネスを生む。したがって、戦略的ベクトルは「単に速くなる」だけではなく、「統合可能になる」ことである：ドライバーの安定性、モデル間のポータビリティ、量子化およびパッケージングのパイプラインとの互換性、異なる基盤における一貫した性能。

ここで、業界の典型的な誘惑は、コストを最も弱い環に押しやることだ。モバイルの場合、それがしばしばアプリ開発者になる。すべてのデバイスに対して最適化するよう求められ、断片化に対処し、最終的な体験が変動することを受け入れなければならない。このパターンは、革新に対する税金であり、最終的に市場のサイズを縮小させる。

PowerInfer-2が提案するアプローチは、オープンソースとして発表され、モデルが公共リポジトリにあることを伴っている（報道による）。エンジニアリングコストが共通のランタイムと効率的な実行に準備されたモデルに集約されることを指向している。もしこれが守られれば、恩恵を受けるのはプレミアムな電話だけでなく、デフォルトでクラウドへのコストを払わずに体験を構築できる製品層にもなる。

それでもなお、盲点が存在する：維持の経済的持続可能性。コミュニティがそのコストを吸収しなければ、他の形での捕獲が現れることになる：企業のサポート、製造業者との契約、優先統合。分配の安定性は、その「固定コスト」がロードなしに資金を得ることで保たれる。

価値はインセンティブを壊さずにローカルな体験を管理する者に移る

ス마트フォン上で11.68トークン/秒で47Bを提供することの最も破壊的な点は、その数字ではない。ビジネスアーキテクチャの変化である：クラウド依存の要素の一部が、何百万ものデバイスに分散された能力に移行する。それはクラウドを排除するものではないが、再配置する：より少ないトランザクション的なインファレンスと、より多くのトレーニング、調整、更新、補完的サービス。

Cレベルにとって、実用的な読み取りは「設計マージン」の再評価である。アプリがインファレンスをデバイスに移行することによってトークンの請求書を減らすことができるなら、そのマージンは顧客獲得、コンテンツ、サポート、価格に再投資できる。製造業者がローカルインファレンスを実際の購入理由に変換すれば、ASPの一部を獲得できるが、体験を作成する者を圧迫しない場合だ。フレームワークが主流になると、標準と採用の流れの形で価値を捕えるが、第三者にコスト削減を訴える限りその力は持続する。

TurboSparse Mobileの提供は暗黙の命題を示唆する：予測可能なスパースさとNPU、CPU、ストレージ間の細やかなオーケストレーションによって、「モバイル上で小さなモデルだけ」という限界は物理法則ではなくなる。そこから競争は実際の製品デザインと技術チェーンのガバナンスに移る。
[https://hackernoon.com/turbosparse-mobile-22x-faster-mixtral-inference-on-powerinfer-2]

勝者と機会主義者を分ける戦略的決定は分配的である：ローカルインファレンスの利益を分配する者は—アプリへの低コスト、ユーザーへの良好な体験、ハードウェアの差別化、およびモデルへの流通—持続性を持つでしょう。一方、すべてのマージンを捕らえようとする者は、技術的な向上を他の摩擦に変え、その種のアドバンテージは、次のオープンランタイムが現れたときに蒸発してしまいます。