|
2月28日、DeepSeek オープンソース ウィークの 5 日目に、DeepSeek は Fire-Flyer ファイル システム (3FS) のオープンソース リリースを発表しました。 GitHubアドレス: https://github.com/deepseek-ai/3FS 報道によると、3FSはAIトレーニングと推論ワークロードの課題に対応できる高性能並列ファイルシステムです。最新のSSDとRDMAネットワークを活用して共有ストレージ層を提供し、分散アプリケーションの開発を簡素化します。 180 個のストレージ ノードで構成される大規模なテスト クラスターでは、3FS は合計読み取りスループットが約 6.6 TIB/秒を達成し、KVCache クエリはクライアント ノードあたり 40 GiB/秒を超えるピーク スループットを達成しました。 DeepSeek は、3FS の主な機能と利点を次のようにリストしています。 パフォーマンスと可用性 分解されたアーキテクチャは、数千の SSD のスループットと数百のストレージ ノードのネットワーク帯域幅を組み合わせ、アプリケーションが場所に依存しない方法でストレージ リソースにアクセスできるようにします。 強力な一貫性は、割り当てクエリ (CRAQ) を使用した連鎖レプリケーションを通じて実現され、アプリケーション コードが簡素化され、推論が容易になります。 * ファイルインターフェースにより、FoundationDBなどのトランザクション型キーバリューストアを活用したステートレスなメタデータサービスの開発が可能になります。ファイルインターフェースは広く知られており、広く普及しているため、新しいストレージAPIを学習する必要はありません。 多様な作業負荷 * データ準備では、データ分析パイプラインの出力を階層的なディレクトリ構造に整理し、多数の中間出力を効率的に管理します。 データ ローダーは、コンピューティング ノード間でトレーニング サンプルにランダムにアクセスすることで、データセットのプリフェッチやシャッフルを行う必要性を排除します。 * チェックポイントは、大規模なトレーニングのための高スループットの並列チェックポイントをサポートします。 推論用の KVCache は、DRAM ベースのキャッシュに代わるコスト効率の高い代替手段を提供し、高いスループットと大きな容量を実現します。 |