以下の内容はhttps://vengineer.hatenablog.com/entry/2023/10/23/080000より取得しました。


NVIDIA : TensorRT-LLM

はじめに

NVIDIA -san

推論用のTensorRTに、LLM専用のパッケージをリリースしました。

github.com

サポートデバイス

上記のgithub.comのREADME.mdによると、サポートデバイスは、

  • H100
  • L40S
  • A100/A30
  • V100 (experimental)

で、基本的にはお高いGPUのみです。

Precisionについては、

  • FP32
  • FP16
  • BF16 (Volta, Turingは除く)
  • FP8 (Volta, Turing, Amperaは除く)
  • INT8
  • INT4

をサポートしています。

あれ、Turing も入っていますね。。。

既に色々なモデルも用意されています。

Performance

github.com

H100/A100 での性能が載っています。

Windows もサポート

Windows もサポートしているようです。CUDA 12.2 Toolkit を使うようです。そして、Microsoft MPI も使うようです。

Open GPU

こちらが対応版です。

github.com

おわりに

NVIDIA -san も 推論用LLM対応をしてきましたね。

関連記事

pc.watch.impress.co.jp




以上の内容はhttps://vengineer.hatenablog.com/entry/2023/10/23/080000より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14