2025年5月に開催されたRed Hat Summit 2025でも大きく取り上げられた Red Hat AI において新たなソリューションがいくつか発表され、そこには新しい用語もいくつかでてきました。
本ブログにて重要な用語を中心にRed Hat AIにて使用される用語を解説していきます。
Agentic AI
Agentic AIは日本ではエージェントAIと呼ばれることもあります。AIエージェントと混同することがありますが、「単純な指示をこなすAI=AIエージェント」と「自ら目標達成のために動くAI=Agentic AI(エージェントAI)」という違いがあります。
これまでは、特定のトリガーに基づいて、予め定義された単純なタスクを実行するAIエージェントが中心でしたが、今後はAIに与えられた目的に対して自ら実行計画を立て、複数のタスク、ステップを実行し、能動的に目的を達成させることができる「Agentic AI」の普及が期待されています。
今回取り上げたワード「Llama Stack」「llm-d」についてもAgentic AIを構築していくうえで重要な役割を担います。
Llama Stack
Llama Stackは、Meta社により開発がスタートしたオープンソースプロジェクトです。Meta Connect 2024 にて公開され、現在ではRed Hat をはじめとして、NVIDIA、AWS、Fireworks、Ollamaなど多くのAI関連企業がプロジェクトに参画しています。
Meta社が開発した大規模言語モデル「Llama」シリーズを、標準化された方法でアプリケーションに組み込めるように開発したフレームワークです。AIアプリケーションに必要な推論、安全、外部ツール連携など複雑化しがちな構成要素をまとめて利用しやすくしたものが「Llama Stack」となります。
llm-d
llm-dは、Red Hat社が中心となり開発を進めているオープンソースの分散推論フレームワークです。2025年5月の「Red Hat Summit 2025」で発表されました。
従来の単一サーバーでの推論と異なり、Kubernetesの能力を最大限に活用するためにGPU処理を分散させることで、AIの推論をより高速かつ低コストで実現することを目指しています。
技術的には、業界標準のオープンテクノロジー (モデルサーバーおよびエンジンとしての vLLM、リクエストスケジューラおよびバランサとしての Inference Gateway、インフラストラクチャ オーケストレータおよびワークロード制御プレーンとしての Kubernetes) を統合することで、分散推論を加速します。

1. 推論プロセスの分離(Disaggregation)
llm-dは、LLMの推論プロセスをDisaggregationにというコンセプトに基づき「Prefill」と「Decode」の2つのフェーズに分離します。
- Prefill: ユーザーからの入力(プロンプト)や関連情報を読み込み、文脈を理解する最初のステップです。この処理は並列化しやすく、多くの計算リソースを一度に必要とします。
- Decode: 文脈を基に、単語を一つずつ生成していくステップです。こちらは逐次的な処理が求められます。
これらを分離し、それぞれに適したハードウェアに割り当てることで、リソースを無駄なく使い、システム全体のスループットを向上させます。
2. インテリジェントなルーティング(Inference Gateway)
llm-dは、Kubernetes Gateway APIを拡張した「Inference Gateway」を利用して、入ってきたリクエストの特性(プロンプトの長さなど)を判断します。そして、PrefillやDecodeの処理を、クラスター内で最も適切なサーバーやGPUにインテリジェントに振り分けます。
3. KVキャッシュの共有と再利用
LLMが一度計算した文脈情報(KVキャッシュ)を効率的に保存し、再利用する仕組みを備えています。これにより、複数回のやり取りがある対話型のAIアプリケーションや、同じ文脈を何度も参照するエージェントAIの応答速度を劇的に向上させます。
引用元:https://llm-d.ai/docs/architecture
引用元:https://github.com/llm-d/llm-d