協助任何地方的开发人员順利加速人工智慧

若要擴大人工智慧商機,开发人员需要取得最快速的人工智慧部署方法,以及最適合特定工作負載的最佳效能。Arm 致力於在整個 Arm 平台達到最高的人工智慧效能,協助確保每位开发人员、每個模型及每項工作負載都能順暢加速。

Arm Kleidi 讓人工智慧在 CPU 達到無可比擬的效能

Arm CPU 是所有 Arm 平台的核心,以其普及性為眾多人工智慧推論工作負載提供彈性節能的目標,包括深度學習及生成式人工智慧。Arm Kleidi 的靈感來自希臘文的「key」,旨在確保前述工作負載能在基礎的 Arm Cortex-A 或 Arm Neoverse CPU 達到最高效益。

?

?

Arm Kleidi 的支柱

Arm Kleidi 函式庫支柱垂直資訊圖表

与关键伙伴合作在每一处加速人工智慧

Arm Kleidi 的使命是與頂尖人工智慧框架、雲端服務供应商及機器學習獨立軟體供应商社群合作,以提供完整的機器學習堆疊,並讓數十億計的工作負載能在開機後立即提升推論效能,無需額外的开发人员工作或專業知識。

PyTorch

Arm 與 PyTorch 社群密切合作,協助確保在 PyTorch 執行的模型能在 Arm 架构上順利運作,讓最繁重的人工智慧工作負載也能順暢加速。

language processing icon

BERT-Large

Arm 持續努力在 Arm CPU 提升 PyTorch 的推論效能,包括提供 Eager Mode 及 Graph Mode 等最佳化的主要執行模式。

整合 Kleidi 使得 Llama 模型推論效能提升 18 倍、Gemma 2 2B 提升 15 倍,而自然語言處理 (NLP) 模型也達到更高效能,包括 Bert-Large 提升 2.2 倍效能。

customer service icon

Llama 3.1 8B

在使用基於 Arm Neoverse V2 架构的 Graviton4 處理器時,於 PyTorch 套用 KleidiAI 最佳化,可讓示範的聊天機器人 token 產生速率如預期地提升 12 倍。

這項示範顯示在利用現有 Arm 架构運算能力的情況下,使用 LLM 建構人工智慧應用程式有多麼容易。

text summary icon

RoBERTa

AWS 與 Arm 合作最佳化 PyTorch 的 torch.compile 功能,用於搭載 Arm 運算函式庫 (ACL) 核心 (使用 oneDNN) 的 Neoverse V1 架构 Graviton3 處理器。

這項最佳化讓 Hugging Face 最熱門的 NLP 模型推論效能提升兩倍。

text transcription icon

FunASR Paraformer-Large

FunASR 是先進的開放原始碼自動語音辨識 (ASR) 工具套件,由阿里巴巴達摩院 (Alibaba DAMO Academy) 開發而成。

我們透過 oneDNN 將 ACL 與 PyTorch 整合,在基於 Neoverse N2 架构的 AliCloud Yitian710 處理器執行 Paraformer 模型時,發現效能提升了 2.3 倍。

ExecuTorch

Arm 和輕量級機器學習框架 ExecuTorch 共同在邊緣實現高效的裝置內介面功能。

Chat summary icon

Llama 3.2 1B

受惠於 Arm 和 Meta 的合作努力成果,人工智慧开发人员現可在 Arm CPU 上執行比以往快上 20% 的量化 Llama 3.2 模型。

透過 KleidiAI 與 ExecuTorch 整合並開發最加量化方案,我們在行動裝置上針對生成式人工智慧工作負載的預先填入階段已達到每秒超過 350 個 token 的速度。

Llama.cpp

為了展示 Arm 架构 CPU 處理 LLM 推論的能力,Arm 與合作伙伴正在 llama.cpp 實作最佳化的 int4 及 int8 核心,以運用各種更新型的指令。

virtual assistant icon

Phi 3 3.8B

我們的最佳化技術讓 Microsoft Phi 3 LLM 在高階智慧型手机使用的 Arm Cortex-X925 CPU 執行聊天機器人示範時,產生第一個 token 的時間 (TTFT) 大約加速了 190%。

text generation icon

Llama 3 8B

在我們最佳化的 Graviton3 處理器示範產生文字,可讓 TTFT 提升 2.5 倍效能,並在文之"a生階段達到每秒 35 個以上的 token,完全足以因應即時使用場景的需求。

MediaPipe

Arm 與 Google AI Edge 合作的 MediaPipe 及 XNNPACK,可在目前及未來的 Arm CPU 加速人工智慧工作負載,協助开发人员提供出色的人工智慧效能,適用於行動裝置、網際網路、邊緣及物联网。

education icon

Gemma 1 2B

Arm 與 Google AI Edge 合作將 KleidiAI 與 MediaPipe 框架整合,支援 Gemma 及 Falcon 等多種 LLM。

透過 XNNPACK 進行 KleidiAI 整合後,我們在 Arm 架构高階智慧型手机的 Gemma 2B LLM 執行聊天機器人示範時,發現 TTFT 加速 30%。

混元 (Hunyuan)

騰訊的混元人工智慧框架支援混元 LLM 通用模型,可在智慧型手机等各種裝置實現人工智慧功能。

chat box icon

混元

Arm 持續與騰訊合作,將 Kleidi 技術整合至包含 100B 以上參數的混元 LLM 之"中。

雙方於 2024 年騰訊全球數位生態大會宣布這項合作關係,預期對實際工作負載產生正面影響。

加速 CPU 效能的關鍵开发人员技術

Arm Kleidi 包含最新的开发人员支援技術,設計用意在於推展人工智慧的模型功能、準確度及速度。

KleidiAI 及 KleidiCV 函式庫為輕量型核心,可協助機器學習 (ML) 及電腦視覺 (CV) 框架輕鬆以最佳效能為目標,並運用最新功能在 Arm CPU 架构設計中強化人工智慧和電腦視覺。

完整齊全且具有彈性的函式庫,可協助獨立軟體供应商取得最適合 Cortex-A 及 Neoverse CPU 的機器學習功能。函式庫不受作業系統影響,並可移植至 Android、Linux 及裸機系統。

简化人工智慧部署

简化人工智慧部署

Arm 致力於盡可能協助开发人员簡化及加速人工智慧部署。Kleidi 只是我們讓數以百萬計的人都能接觸使用人工智慧最佳化的方式之"一。

探索人工智慧软体
Armv9 AI on CPU

大規模釋放 CPU 效能

Kleidi 可在全系列的 Arm Neoverse 及 Arm Cortex-A CPU 輕鬆實現最佳化。這些技術運用 Arm 架构的進階功能,例如 Arm 可擴展向量延伸指令集 (SVE) 及 Arm 可擴展矩陣延伸指令集 (SME),目標是加速人工智慧效能。

CPU 推論

訂閱即可掌握 Arm 人工智慧最新消息

电子报订阅