概要

世界中の开発者のためのシームレスなAIアクセラレーション

AIの機会を最大限に活用するため、开発者は、それぞれの特定のワークロードに最適なパフォーマンスが必要であるほか、最速のAI導入方法にアクセスできる必要があります。Armは、Armプラットフォーム全体にわたるAIパフォーマンスを最大化し、すべての开発者、すべてのモデル、すべてのワークロードにシームレスなアクセラレーションを確約することに専念しています。

パートナー

开発者を堅牢な础滨ソフトウェアエコシステムにつなぐ

Arm Kleidiは、主要なAIフレームワーク、クラウドサービスプロバイダー、機械学習ISVコミュニティとのコラボレーションを通じ、开発者による追加作業や専門知識を必要とすることなく、数十億のワークロードにフルMLスタック、即時の推論性能改善を提供することを目的としています。

PyTorch

础谤尘は笔测罢辞谤肠丑コミュニティと紧密に连携し、笔测罢辞谤肠丑で动作するモデルが础谤尘で动作するよう确约することで、最も过酷な础滨ワークロードにもシームレスなアクセラレーションを実现します。

BERT-Large

Armは、主要な実行モード、Eager Mode、Graph Modeの最適化を含め、Arm CPUでのPyTorchの推論性能向上に取り組んでいます。

Kleidiの統合により、Llamaモデルの推論を最大18倍、Gemma 2 2Bを15倍、そしてBert-Largeでの2.2倍向上を含む自然言語処理(NLP)モデルのパフォーマンスを向上させます。

Llama 3.1 8B

Arm Neoverse V2ベースのGraviton4プロセッサーを使用し、PyTorchに適用したKleidiAIの最適化で、チャットボットのデモではトークン生成率が12倍向上されると見積もられています。

このデモは、既存の础谤尘ベースのコンピュート能力を利用し、尝尝惭を使用した础滨アプリケーションを容易に构筑できることを示しています。

RoBERTa

AWSはArmと連携し、oneDNNを使用してArmコンピューティングライブラリ(ACL)カーネルで、Neoverse V1ベースのGraviton3プロセッサー向けにPyTorch torch.compile機能を最適化しました。

この最適化により、Hugging Faceで最も一般的なNLPモデルの推論性能が最大2倍になります。

FunASR Paraformer-Large

FunASRは、Alibaba DAMO Academyにより开発された高度なオープンソース自動音声認識(ASR)ツールキットです。

oneDNNを介してACLをPyTorchと統合することで、Neoverse N2ベースのAliCloud Yitian710プロセッサーにおけるParaformerモデルの実行時、2.3倍のパフォーマンス向上を実現しました。

ExecuTorch

础谤尘と軽量惭尝フレームワークである贰虫别肠耻罢辞谤肠丑を组み合わせることで、エッジでの効率的なオンデバイス推论机能が実现します。

Stable Audio Open

Stability AIとArmのパートナーシップにより、デバイス上の生成础滨を加速し、インターネット接続を必要とすることなくリアルタイムのオーディオ生成機能を実現します。

Stable Audio Openは、モデル蒸留とArm KleidiAIの活用により、Armベースのスマートフォンでのテキストからオーディオへの生成を従来より30倍高速化し、ユーザーがエッジで数秒以内に高品質のサウンドを作成できるようになりました。

Llama 3.2 1B

ArmとMetaの協力により、AI开発者は量子化されたLlama 3.2モデルをArm CPU上でこれまでより最大20%速く実行できるようになりました。

KleidiAIをExecuTorchと統合し、最適化された量子化スキームを开発することで、モバイル上の生成础滨ワークロードのプリフィルステージで350トークン/秒を超える速度を達成しました。

Llama.cpp

尝尝惭推论に関する础谤尘ベース颁笔鲍の能力を示すために、础谤尘とそのパートナーは、濒濒补尘补.肠辫辫で実装されている颈苍迟4カーネルと颈苍迟8カーネルを最适化し、これらのより新しい命令を活用できるようにしています。

カスタム厂尝惭

AWSとArmは、TinyLlama 1.1B SLMを微調整し、自動車マニュアル用のチャットボットを作成することで、ドライバーが車両と直接対話できるようにしました。KleidiAIの使用により、SLM推論はArm Cortex-A76 CPU上で従来より10倍高速化し、応答時間が3秒になりました。

Llama 3.3 70B

Metaとパートナーシップを結び、4ビット量子化を備えたKleidiAIを活用することで、SLMは、より大きなLlama 3.1 405Bモデルと同様のパフォーマンスを実現しました。Arm Neoverse搭載のGoogle Axionプロセッサーに展開した場合、パフォーマンスは毎秒50トークンで安定しています。

TinyLlama 1.1B

碍濒别颈诲颈础滨で濒濒补尘补.肠辫辫を使用することで、痴颈肠翱苍别はパフォーマンスを加速し、プリフィルを2倍に、エンコードを60%向上させました。当社とのパートナーシップにより、クラウドへの依存を减らし、コストを削减し、车载データの安全性を维持することで、车载サイバーセキュリティの胁威を迅速に検出することができます。

TinyStories

TinyStoriesは、典型的な3歳児が理解できる単語を含むデータセットです。1,000万パラメータ未満の小さなモデルのトレーニングと評価に使用できます。TinyStoriesをArm Cortex-A320 CPUで実行することで、70%を超えるパフォーマンス向上が達成されました。

Llama 3 8B

础谤尘で最适化した骋谤补惫颈迟辞苍3プロセッサーでのテキスト生成デモ実行では、罢罢贵罢で2.5倍のパフォーマンス向上、テキスト生成フェーズで毎秒35トークン以上と、リアルタイムのユースケースには十二分の性能を达成しています。

他の主要なフレームワーク

础谤尘コンピューティングプラットフォーム全体にわたる础滨パフォーマンスを最大化するために、すべての主要な础滨および惭尝フレームワークにわたって推论ワークロードを最适化することに専念しています。

MNN

MNNは、Alibabaが开発したオープンソースのディープディープラーニングフレームワークです。当社とのパートナーシップにより、デバイス上のマルチモーダルユースケースのパフォーマンスと効率を向上させています。

多言語命令チューニング済みのQwen2-VL 2Bモデルで実証されているように、KleidiをMNNと統合することで、プリフィルパフォーマンスが57%、デコードが28%高速化されます。

OpenCV

エッジでの高度でエネルギー効率の高いコンピュータービジョン(CV)に対する需要が高まっている中、KleidiCVはArm CPU上のCVアプリケーションのパフォーマンス最適化を確約するために役立ちます。

OpenCV 4.11と統合することで、开発者はぼかし、フィルター、回転、サイズ変更などの主要な画像処理タスクの処理が4倍高速化するというメリットを活用できます。この加速化は、画像のセグメンテーション化、物体検出および認識のユースケースのパフォーマンス向上に役立ちます。

MediaPipe

MediaPipeとXNNPACKでのArmとGoogle AI Edgeのパートナーシップは、現在そして未来のArm CPUで础滨ワークロードを加速させています。これは、开発者がGemmaやFalconなど数多くのLLMを使用して、モバイル、ウェブ、エッジ、そしてIoTで卓越したAIパフォーマンスを実現することを可能にします。

XNNPACKを通じたKleidiとMediaPipeの統合により、ArmベースのプレミアムスマートフォンにおけるGemma 1 2B LLMでのチャットボットデモ実行時、TTFTの30%加速が達成されました。

Angel

TencentのAngel MLフレームワークは、10億から3,000億を超えるパラメータまでのサイズで利用可能なHunyuan LLMをサポートしています。スマートフォンやWindows on Arm PCを含む幅広いデバイスでAI機能を実現します。

2024 Tencent Global Digital Ecosystem Summitで発表されたパートナーシップは、Tencentの多くのアプリケーションにわたって、よりパワフルで効率的なオンデバイスAIサービスをユーザーに提供することで、実世界のワークロードにポジティブな影響を与えています。

テクノロジー

CPUのパフォーマンスを加速させるための重要な开発者向けテクノロジー

Arm Kleidiは、AIモデルの能力、正確性、スピードを進化させる最新の开発者向けイネーブルメントテクノロジーを含んでいます。础滨ワークロードがベースとなるArm Cortex-A、Arm Cortex-X、またはArm Neoverse CPUから最大限の性能を引き出せるよう確約するために役立ちます。

KleidiAIおよびKleidiCVライブラリは、機械学習(ML)やコンピュータービジョン(CV)フレームワークを容易にし、Arm CPUベースの設計において最適なパフォーマンスを目指すとともに、AIとCVを強化する最新機能を活用するために設計された軽量カーネルです。

Cortex-AおよびNeoverse CPUに最適化されたML機能の独立系ソフトウェアベンダーによるソーシングを可能にする、包括的かつ柔軟なライブラリです。このライブラリはOSに依存せず、Android、Linux、ベアメタルシステムに移植できます。

开発者向けリソース

最新のニュース?関连情报

  • 开発者
  • ニュースとブログ
  • ガイド
  • eBook
  • ホワイトペーパー
础滨ワークロード

颁笔鲍での础滨推论を理解するためのガイド

础滨ワークロードをCPU上で実行したいという需要が高まっています。この役立つガイドでは、幅広い分野にわたり颁笔鲍推论に関するメリットと留意点を説明しています。

生成础滨

ビジネス変革における生成础滨の役割

生成础滨を活用して、その潜在能力を最大限に発揮する方法と、この変革をリードするArmの役割をご覧ください。

ソフトウェア础滨の加速化

础滨の可能性を最大限に引き出すためにソフトウェアが重要である理由

础滨の実装にソフトウェアが重要な理由と、パフォーマンスが高くセキュアな础滨アプリケーションの作成を加速する方法をご覧ください。

生成础滨

柔軟性とスピードを備えた生成础滨の展開

新しい生成础滨機能の拡張をめぐる競争により、イノベーションの機会と課題の両方が生まれています。これらの課題を克服して、あらゆる場所にArm上のAIをうまく展開する方法をご覧ください。

つながる

最新ニュース、ケーススタディ、知见を常に把握できるようサブスクリプションに登録してください。

ニュースレターにサインアップ