以下の内容はhttps://uepon.hatenadiary.com/entry/2026/02/03/234450より取得しました。


8GBメモリでOK!Raspberry Pi 5で使える日本語対応ローカルLLM一覧

以前のエントリなどでも触れていましたが、Raspberry Pi 5(8GB RAM)でリアルタイム対話可能な日本語LLMは実現可能となりつつあります。それも、特別なハードウェアを使用することなしにです。 これは、1B〜3Bパラメータのモデルでもかなり優秀になってきているからです。そのなかでもGemma3:1bTinySwallow-1.5B(日本語特化)、Qwen2.5:1.5b〜3bといったモデルが有力な候補となるでしょう。 (7Bクラスは動作はしますがかなり遅く実用性に難あり)

また、プラットフォーム的な話としては、llama.cppOllamaより10〜20%高速ですが、セットアップの容易さではOllamaが優れています。Ollamaで試してみて、更なる高速化が必要となればllama.cppに乗り換えるというのがいいかもしれません。


今回想定しているハードウェア・OSの要件


1. 推奨されそうなモデルの評価

日本語対応かつRaspberry Pi 5(8GB RAM)(以降RPi5)で快適に動作しそうなものは以下になるでしょう。

推奨されるモデル

モデル名 パラメータ 量子化 推論速度 RAM使用量
TinySwallow-1.5B 1.5B Q5_K_M 8-10 tok/s ~1.5GB
Gemma-2-2B-JPN-IT 2B Q4_K_M 10-15 tok/s ~1.5GB
LFM2.5-1.2B-JP 1.2B Q4_K_M 10-15 tok/s ~0.8GB
RakutenAI-2.0-mini 1.5B Q4_K_M 20-30 tok/s ~2GB
Sarashina-2.2 1B/3B Q4_K_M 10-15 tok/s 1.5-4GB
llm-jp-3-1.8b-instruct 1.8B Q4_K_M 12-20 tok/s ~2.5GB
plamo-2-1b 1B Q4_K_M 15-25 tok/s ~1.5GB
Qwen2.5:3b 3B Q4_K_M 4-6 tok/s ~3.0GB
Gemma3:1b 1B Q8_0 11-12 tok/s ~1.2GB
ELYZA-JP-8B 8B Q4_K_M 1-3 tok/s ~5.0GB
  • TinySwallow-1.5Bは、Sakana AIがQwen2.5-32Bから蒸留して作成した日本語特化モデルで、1.5Bという小さなサイズながら高い日本語品質となっています。
  • LFM2.5-1.2B-JPはLiquid AIが開発したエッジデバイス向けモデルの日本語特化版で、1.2Bパラメータながら日本語の知識と指示追従において高い性能があります。
  • Gemma-2-2B-JPN-ITGoogleが公式に日本語ファインチューニングしたモデルで、信頼性が高いです。
  • RakutenAI-2.0-mini楽天が開発した日本語最適化モデルで、1.5Bながら高速な推論が可能です。
  • Sarashina-2.2ソフトバンク(SB Intuitions)による日本語特化シリーズで、0.5B/1B/3Bの複数サイズが用意されています。
  • llm-jp-3-1.8b-instructはLLM-jpプロジェクトによる純国産モデルで、自然な日本語生成に優れています。
  • plamo-2-1bはPFN(Preferred Networks)の日本語特化モデルで、日本語imatrixを使用して最適化されています。

検討されそうな候補

モデル名 パラメータ 量子化 推論速度 RAM使用量 日本語性能 備考
Qwen2.5:1.5b 1.5B Q4_K_M 8-10 tok/s ~1.5GB ○ 良好 3b版がギリギリなら検討
Gemma3-1B 日本語FT 1B Q8_0 10-12 tok/s ~1.2GB ○ 良好 コミュニティ版、要実測
gemma2:2b 2B Q4_K_M 15-20 tok/s ~2.5GB ○ 良好 Gemma2の小型版、日本語流暢
  • DeepSeek-R1-Distill 1.5Bは英語寄りではありますが多言語対応で日本語もそこそこ扱えるため、推論速度を優先したい場合に使えるかもしれません。
  • Qwen2.5:1.5bは3b版よりコンパクトです。Gemma3-1B 日本語FTはコミュニティによる日本語ファインチューン版で、元になったGemma3:1bより日本語性能が向上している可能性があるとのことです(要検証)。
  • gemma2:2bGoogle Gemma2の小型版で、日本語も流暢に扱えます。
  • Llama 3.x系(3B/8B)は、英語中心のモデルであるため本記事では候補からはずしています。

2. Ollamaでの動作モデルと導入方法

Ollamaは最も簡単にLLMを導入できるツールで、RPi5のARM64アーキテクチャにも対応しています。 インストールは以下のように行います。

2.1 インストール手順

# Ollamaのインストール(ARM64を自動検出します)
$ curl -fsSL https://ollama.com/install.sh | sh

2.2 モデルインストール方法(2025年末時点)

先程のモデルの中でもOllamaで動作確認が取れているモデルのみをピックアップしています。

モデル ディスクサイズ RAM使用量 推論速度 コマンド
gemma3:270m ~300MB ~500MB 25-27 tok/s ollama run gemma3:270m
tinyllama 638MB 1.1GB 17 tok/s ollama run tinyllama
gemma3:1b 815MB 1.2GB 11-12 tok/s ollama run gemma3:1b
gemma2:2b ~1.6GB ~2.5GB 15-20 tok/s ollama run gemma2:2b
llama3.2:1b ~700MB 1.3GB 10-11 tok/s ollama run llama3.2:1b
qwen2.5:1.5b 988MB 1.5GB 8-10 tok/s ollama run qwen2.5:1.5b
llama3.2:3b 2.0GB 3.5GB 4-6 tok/s ollama run llama3.2:3b
qwen2.5:3b 1.9GB 2.9GB 4-5 tok/s ollama run qwen2.5:3b
mistral:7b 4.1GB 5-6GB 0.7-3 tok/s ollama run mistral:7b

動作例

gemma3:270m


gemma3:1b


llama3.2:1b


qwen2.5:1.5b


RakutenAI-2.0-miniSarashina-2.2llm-jp-3などは非公式/コミュニティ版のため、Ollama公式ライブラリには含まれていません。

2.3 WebUIの導入

ブラウザからChatGPTライクなUIでチャットしたい場合は、Open WebUIを導入できます。 WindowsMacではOllama導入とともにネイティブなWebUIが導入されるのですが、Linux版ではないようです。 そのため、以下のようにOpen WebUIを別途導入します。※Dockerでも導入できます。

# uvのインストール(未導入の場合)
$ curl -LsSf https://astral.sh/uv/install.sh | sh
$ source $HOME/.local/bin/env

# Open WebUIの起動
$ uvx --python 3.11 open-webui serve

ブラウザで http://localhost:8080 にアクセスすると、WebUI上でOllamaと対話が可能です。

⚠️初回起動時は依存関係のダウンロードに時間がかかります。また、Ollamaが起動している必要があります。

Python 3.13では依存関係の問題で動作しないため、今回は3.11を指定しています。 ※ 初回起動時は依存関係のダウンロードに時間がかかります。また、Ollamaが起動している必要があります。

ここでは扱いませんが、Open WebUIはDockerでも動作させることも可能です。

参考

# Open WebUIをDockerで起動する例
$ docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

3. llama.cppでの動作とGGUF量子化モデルの導入

llama.cppは先程のOllamaより10〜20%高速で、より細かなパラメータ制御が可能です。ただし、使用する前にビルド作業が必要となります。

3.1 ビルド手順(OpenBLAS利用)

# 依存パッケージのインストール
$ sudo apt update
$ sudo apt install -y git build-essential cmake libopenblas-dev

# llama.cppのクローンとビルド
$ git clone https://github.com/ggml-org/llama.cpp
$ cd llama.cpp
$ cmake -B build -DGGML_BLAS=ON -DGGML_BLAS_VENDOR=OpenBLAS
$ cmake --build build --config Release -j$(nproc)

※RPi5ではARM NEONによる最適化も自動で効くため、OpenBLASの効果は限定的かもしれません。

3.2 モデル実行コマンド例

# モデルダウンロード(汎用モデルの例)
$ wget https://huggingface.co/bartowski/Llama-3.2-3B-Instruct-GGUF/resolve/main/Llama-3.2-3B-Instruct-Q4_K_M.gguf

# 日本語モデルのダウンロード例
$ wget https://huggingface.co/LiquidAI/LFM2.5-1.2B-JP-GGUF/resolve/main/LFM2.5-1.2B-JP-Q4_K_M.gguf

# CLI対話モード
$ ./build/bin/llama-cli -m LFM2.5-1.2B-JP-Q4_K_M.gguf \
  -p "日本の首都について教えてください" \
  -n 256 --ctx-size 1024 --temp 0.7  -t 4 

[f:id:ueponx:20260203224704p:plain]

# APIサーバーモード
$ ./build/bin/llama-server -m LFM2.5-1.2B-JP-Q4_K_M.gguf --host 0.0.0.0 --port 8080 --ctx-size 1024 -t 4

LFM2.5-1.2B-JP-Q4_K_M.gguf

3.3 Hugging Face GGUFリポジトリ

モデル リポジトリ
LFM2.5-1.2B-JP LiquidAI/LFM2.5-1.2B-JP-GGUF
LFM2.5-1.2B-Instruct LiquidAI/LFM2.5-1.2B-Instruct-GGUF
TinySwallow-1.5B SakanaAI/TinySwallow-1.5B-Instruct-GGUF
Gemma-2-2B-JPN QuantFactory/gemma-2-2b-jpn-it-GGUF
Qwen2.5各サイズ Qwen/Qwen2.5-{size}-Instruct-GGUF
llm-jp-3-1.8b-instruct alfredplpl/llm-jp-3-1.8b-instruct-gguf

動作例

TinySwallow-1.5B


Gemma-2-2B-JPN


llm-jp-3-1.8b-instruct


※ RakutenAI-2.0-mini、Sarashina-2.2はHugging FaceでRakutenAI-2.0-mini GGUFSarashina GGUFなどで検索してください。


4. おわりに

調べても調べても新しい情報が出てくるAI分野ですが、Raspberry Pi 5 8GB RAMで動作する日本語対応軽量LLMの選択肢は着実に増えています。今回紹介したモデルやツールを活用して、ぜひ自分に合ったLLM環境を構築してみてください。




以上の内容はhttps://uepon.hatenadiary.com/entry/2026/02/03/234450より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14