https://touch-sp.hatenablog.com/entry/2024/07/15/220603

はじめに

IPEX-LLM側の改善とOllama側の改善のどちらが影響しているのかわかりませんが処理速度は確かに向上しているようです。

古い環境を使っているなら新しくした方が良いと思います。

環境構築の方法と以前のベンチマーク結果はこちらです。
touch-sp.hatenablog.com
touch-sp.hatenablog.com

ベンチマーク結果

phi3:14b-medium-4k-instruct-q4_K_M (model size: 8.6GB)

旧環境

tokens per second: 19.83 tokens/second

新環境

tokens per second: 25.41 tokens/second

codellama:13b-python-q6_K (model size: 10GB)

このモデルでは新旧環境で処理速度に違いはありませんでした。

旧環境

tokens per second: 25.70 tokens/second

新環境

tokens per second: 25.34 tokens/second

aya:35b-23-q4_0 (model size: 20GB)

Intel Arc A770のVRAM 16GBを超えているモデルです。
「export OLLAMA_NUM_GPU=28」で実行しました。

旧環境

tokens per second: 3.42 tokens/second

新環境

tokens per second: 3.98 tokens/second

ランキング参加中

プログラミング