はじめに
NVIDIAが公開している日本語に対応した9BパラメータのLLM「NVIDIA-Nemotron-Nano-9B-v2-Japanese」を試してみました。
vLLMで量子化を行って使おうとしましたがうまく行きませんでした。
こちらからGGUFファイルをダウンロードしてllama.cppから使いました。
llama.cppの導入
こちらの通りにやりました。
実行
build/bin/llama-server -m /home/hoge/models/NVIDIA-Nemotron-Nano-9B-v2-Japanese-Q4_K_M.gguf \ -n 2048 \ -c 8192 \ --host 127.0.0.1 \ --port 8080
クライアント側
from openai import OpenAI client = OpenAI( base_url="http://localhost:8080/v1", api_key="EMPTY" ) response = client.chat.completions.create( model="local", messages=[ {"role": "system", "content": "あなたはプロの和食料理人です。"}, {"role": "user", "content": "さばの煮込みのレシピを教えて"} ] ) print(response.choices[0].message.content)
結果
さばの煮込み(和食スタイル) 【材料】(2人分) ・さば(切り身) 2切れ(約200g) ・だし汁(昆布とかつお節の合わせ出汁) 300ml ・醤油 大さじ2 ・みりん 大さじ2 ・砂糖 小さじ1 ・酒 大さじ1 ・生姜(千切り) 10g ・ねぎ(小口切り) 適量 ・みつば(または刻み三つ葉) 適量 【下準備】 1. さばは骨を丁寧に抜き、腹を開いて腹骨を取り除く。切り身は3cm角に切る。 2. 生姜はみじん切りにし、水に10分ほどさらしてアクを抜く。 【作り方】 1. 鍋にだし汁を入れ、弱火で温める。沸騰直前で醤油、みりん、砂糖、酒を加え、ひと煮立ちさせる。 2. さばを加え、アクが出るまで中火で5分煮る。火を弱め、生姜を加えてさらに10分煮込む(さばに火が通り、味が染みるまで)。 3. 煮汁が半量程度になったら火を止め、ねぎとみつばをのせて完成。 【ポイント】 ・だしは濃さを調節し、塩分控えめの煮物に仕上げるのが和食の美学です。 ・さばの臭みを抑えるため、生姜のほかに刻みショウガを煮汁に加えるとさらに風味が引き立ちます。 ・仕上げに少量の柚子の皮を散らすと香りが引き立ちます。 お召し上がりの際は、ご飯と一緒にどうぞ。
llama-benchの結果
build/bin/llama-bench -m /home/hoge/models/NVIDIA-Nemotron-Nano-9B-v2-Japanese-Q4_K_M.gguf
| model | size | params | backend | ngl | test | t/s |
|---|---|---|---|---|---|---|
| nemotron_h 9B Q4_K - Medium | 6.07 GiB | 8.89 B | SYCL | 99 | pp512 | 347.45 ± 2.27 |
| nemotron_h 9B Q4_K - Medium | 6.07 GiB | 8.89 B | SYCL | 99 | tg128 | 8.42 ± 0.22 |