前回同様、SYCL backendでOllamaを実行した時のベンチマークを取ってみました。
touch-sp.hatenablog.com
結果
phi3:3.8b (model size: 2.4GB)
version 2024.1.0tokens per second: 37.73 tokens/second
version 2024.2.0
tokens per second: 37.31 tokens/second
codellama:13b-python-q6_K (model size: 10GB)
version 2024.1.0tokens per second: 15.80 tokens/second
version 2024.2.0
tokens per second: 14.19 tokens/second
aya:35b-23-q4_0 (model size: 20GB)
version 2024.1.0tokens per second: 2.84 tokens/second
version 2024.2.0
tokens per second: 3.12 tokens/second