Kubeflowは機械學習(ML)とAIのクラウドネイティブ実裝を可能にするオープンソースプラットフォームとして、2018年にGoogleによってリリースされ、2022年にCNCF(Cloud Native Computing Foundation)に寄付されました。現在では、約8,000人の貢獻者と14,000以上のGitHubスターを獲得し、MLOps(機械學習運用)と生成式AI(GenAI)の分野で継続的な影響力を持っています。本記事では、Kubeflowの歴史的背景、1.11リリースの主な機能、およびCNCFにおけるコミュニティの進化を解説します。
KubeflowはKubernetesを基盤とした機械學習ワークフローの自動化を目的としており、初期にはGoogleの內部ツールから拡張されてきました。2022年のCNCFへの寄付により、オープンコミュニティとしての規模が急成長し、現在では多様な企業や開発者による協力が行われています。
Kubeflow 1.10では、モデル登録表UIの導入により、モデルの検索やメタデータの可視化が可能となりました。また、トレーニングオペレーターが「Kubeflow Trainer」とリネームされ、LLM(大規模言語モデル)のブループリントや微調整機能が追加されました。さらに、Spark Operatorの統合により、Sparkベースのワークロードの実行が可能となりました。セキュリティ面では、PSS(Pod Security Standards)の強制適用が導入され、ワークフローの信頼性が向上しました。
Kubeflowのコミュニティは、ユーザー體験の向上を目的に、暗黒モードの導入や技術ドキュメントの整理を行っています。貢獻者向けには、PRテンプレートや通知スクリプトを提供し、協力の効率化を図っています。リリース管理では、現在は6か月ごとのリリースサイクルが採用されていますが、今後は季節ごとにリリースする計畫で、開発者會議の頻度も週次から雙週次へと変更されます。
Kubeflow 1.11では、モデルの保存機能が強化され、OCI(Open Container Initiative)やS3との統合が実現されました。また、モデルカード(Model Card)の導入により、モデルのデプロイとトレーニングプロセスを統合的に管理できるようになります。
パイプラインのセキュリティが向上し、イメージプールの機密情報管理やSDKとバックエンドバージョンの一致が実現されました。また、動的パイプライン生成機能により、v1とv2の機能を統合し、ユーザー操作を簡略化しています。
ワークスペースは、MLデータサイエンティストが數クリックで作業環境を起動できるようにする統一インターフェースを提供します。MLOpsエンジニアはバックエンド設定を擔當し、ベストプラクティスの強化によりユーザー體験が向上します。
ML體験提案では、Group Flow SDKとデータストレージ(Feature Store)の統合により、データ準備とトレーニングプロセスが最適化されます。Qflow SDKはKubernetesとコンポーネントの相互作用を簡略化し、開発體験を統一します。Helm ChartsはKubeflowや関連コンポーネントのインストール・デプロイをサポートします。
Kubeflowは、MLOpsとGenAIの分野で継続的な進化を遂げており、CNCFのエコシステムとしての信頼性を高めています。1.11リリースでは、モデル登録表やパイプラインの強化、ワークスペースの統合により、ユーザーの生産性とセキュリティが向上しています。今後は、リリースサイクルの短縮とコミュニティの活性化が進むことで、さらなる拡張性と柔軟性が期待されます。Kubeflowを活用する際には、コミュニティのリソースやドキュメントを參照し、最新の機能を積極的に活用することが重要です。