ローカルLLM × RAG 徹底比較Llama 3種をIPA白書で検証してみた

blog
ローカルLLM RAG 比較|Llama3種をIPA白書で検証【AnythingLLM】
検証レポート

ローカルLLM RAG 比較の実録レポート。M4 Mac上でAnythingLLMを使い、Llama3 8B・Llama3.1 8B・Llama3.2 3Bの3モデルに情報セキュリティ白書2025をRAGとして読み込ませ、回答精度と応答時間を比較しました。

環境:Apple M4 Mac ツール:AnythingLLM 対象:IPA白書2025
スポンサーリンク
スポンサーリンク

先に結論

Llama3.1 8B 日本語で回答・不明なら正直に「わからない」と言う。一番誠実で精度が高い。
Llama3 8B 英語で回答・詳しいが遅い・ハルシネーションあり。旧世代の限界が出た。
Llama3.2 3B 日本語・速い・しかし自信満々に誤回答するので要注意。

本記事では ローカルLLM RAG 比較の検証結果考察 を詳しくまとめています。

01この記事を読む前に知っておきたい用語

LLM(大規模言語モデル)とは?

ChatGPTやClaudeのような「AIとの会話」を実現する技術の中身がLLMです。今回使うLlama(ラマ)はMeta(Facebookの親会社)が開発した無料で誰でも使えるオープンソースのモデルです。

3B・8Bって何?

モデルの「パラメータ数」を表しています。3Bは30億、8Bは80億。数字が大きいほど賢くなる傾向がありますが、その分ファイルサイズも大きく処理も重くなります。

RAGとは?

RAG(Retrieval-Augmented Generation)とは、LLMに特定の文書を読み込ませて、その内容をもとに回答させる仕組みです。今回はIPA白書をRAGとして読み込ませました。

エンベディング(Embedding)とは?

文書をAIが検索・理解しやすい数値データに変換する処理です。エンベディングモデルが日本語に対応していないと、日本語文書の精度が落ちます。

PDFのフォント埋め込み問題とは?

PDFには「文字データが入っているテキストPDF」と「文字が画像になっているPDF」があります。マウスで文字を選択してコピーできればテキストPDF、できなければAIで読み取れない可能性があります。

ハルシネーションとは?

AIが存在しない情報を自信満々に答えてしまう現象です。RAGを使うことで抑制できますが、モデルによって発生しやすさが異なります。今回の検証でもはっきり差が出ました。

モデルパラメータ数ファイルサイズ
Llama3.2 3B30億2.0GB
Llama3.1 8B80億4.7GB
Llama3 8B80億(旧世代)4.7GB

02検証環境

項目内容
マシンApple M4 Mac
ソフトAnythingLLM(Built-in / Powered by Ollama)
Embeddingモデルmultilingual-e5-small(日本語対応)
ドキュメントIPA 情報セキュリティ白書2025(URLエンベディング)
モデルALlama3 8B(4.7GB)
モデルBLlama3.1 8B(4.7GB)
モデルCLlama3.2 3B(2.0GB)

03検証前のトラブルと学び

⚠ トラブル①:PDFが読めなかった問題

最初にIPAの白書PDFをそのままアップロードしたところ、全モデルが誤回答。原因はPDFの特殊なフォント埋め込み形式。人間が目で見るのは問題ないが、コンピューターがテキストとして抽出できない状態だった。

→ 解決策:URLでエンベディング(IPAの白書Webページを直接読み込み)
⚠ トラブル②:Embeddingモデルの言語問題

デフォルトの all-MiniLM-L6-v2 は英語特化モデル。日本語文書の読み取り精度が低かった。

→ 解決策:multilingual-e5-small に変更(日本語対応モデル)

これらのトラブル自体が、ローカルLLM RAG 比較を行う前に必ず直面する現実的な課題として、記事のネタになりました。

04ローカルLLM RAG 比較の検証結果(Q1〜Q10)

Q1 / 易しい
情報セキュリティ10大脅威(組織編)の1位は何ですか?
正解:ランサムウェアによる被害
モデル回答正確性応答時間言語
Llama3 8BRansomware / Targeted / DDoS(複数列挙)4.139s英語
Llama3.1 8B文書に記載なしで答えられない1.314s日本語
Llama3.2 3Bパブリック・クラウドの未authorizationアクセス993ms日本語
Q2 / 易しい
サプライチェーンの弱点を悪用した脅威は何位にランクされていますか?
正解:2位
モデル回答正確性応答時間言語
Llama3 8Bランキング不明・増加傾向とだけ答える4.358s英語
Llama3.1 8Bランキング不明・JC-STARの話をする6.171s日本語
Llama3.2 3B6位(誤り)1.347s日本語
Q3 / 易しい
ビジネスメール詐欺とはどのような攻撃ですか?白書の内容をもとに教えてください。
モデル回答概要正確性応答時間言語
Llama3 8BBEC攻撃を詳しく説明・経営者なりすまし等4項目11.399s英語
Llama3.1 8B「具体的に言及されていない」と正直に回答4.144s日本語
Llama3.2 3Bメールアドレス・パスワード漏洩の攻撃と誤説明2.764s日本語
Q4 / 普通
ランサムウェア攻撃の主な侵入経路と、推奨されている対策を教えてください。
モデル回答概要正確性応答時間
Llama3 8Bフィッシング・脆弱なソフト・弱いパスワードの3経路を列挙。対策も3点。詳しい12.002s
Llama3.1 8B「具体的な侵入経路や対策は記載なし」と回答6.059s
Llama3.2 3Bパッチ・ソフトウェアの脆弱性が経路と回答。対策も記述4.601s
Q5 / 普通
内部不正による情報漏えいが上位にランクされた背景と、具体的な事例を教えてください。
モデル回答概要正確性応答時間
Llama3 8B英語で事例2件を具体的に説明(内容はハルシネーション)11.692s
Llama3.1 8B「事例について具体的に触れられていない」と回答6.162s
Llama3.2 3B1位にランクと誤情報を含みながら説明5.125s
Q6 / 普通
ゼロデイ攻撃とNデイ攻撃の違いを、白書の内容をもとに説明してください。
モデル回答概要正確性応答時間
Llama3 8B両者の違いを日英混在で詳細に説明16.398s
Llama3.1 8B「具体的な情報が記載されていない」と回答931ms
Llama3.2 3B違いを説明するが英語混じりで不正確な部分あり5.497s
Q7 / 普通
組織が取るべきセキュリティ対策の基本として、白書が挙げている共通対策をまとめてください。
モデル回答概要正確性応答時間
Llama3 8B英語で7項目を詳細に列挙(内容は概ね妥当)13.817s
Llama3.1 8Bセキュア・バイ・デザイン、JC-STAR等3点を日本語で説明9.856s
Llama3.2 3B8項目を日本語で列挙(やや汎用的)5.363s
Q8 / 難しい
2025年版と前年で順位が大きく変動した脅威はどれで、その理由は何だと考えられますか?
モデル回答概要正確性応答時間
Llama3 8Bランサムウェアが変動と回答・理由はAI活用と説明(ハルシネーション)8.311s
Llama3.1 8B「具体的な情報はない」と回答5.947s
Llama3.2 3Bサプライチェーン脅威が低下と回答・理由も説明3.370s
Q9 / 難しい
10大脅威を「外部攻撃」と「内部・人的要因」に分類すると、それぞれどの脅威が該当しますか?
モデル回答概要正確性応答時間
Llama3 8B英日混在で分類・外部3件・内部3件を列挙9.492s
Llama3.1 8B「詳細な情報は記載なし」としつつランサムウェア等に言及3.695s
Llama3.2 3B外部:ランサムウェア・標的型・DDoS、内部:内部不正と分類2.634s
Q10 / 難しい
中小企業が限られたリソースで最優先すべきセキュリティ対策を、白書の内容をもとに3つ挙げてください。
モデル回答概要正確性応答時間
Llama3 8B英語で3点(パスワード・パッチ管理・インシデント対応)11.679s
Llama3.1 8Bセキュア・バイ・デザイン等3点を挙げつつ「明確な記載なし」と補足10.130s
Llama3.2 3Bセキュリティポリシー・データ保護・システム対策の3点2.950s

05総合評価

Llama3 8B
8
/ 20点
平均 10.9s
Llama3.1 8B ★
14
/ 20点
平均 5.5s
Llama3.2 3B
4
/ 20点
平均 3.2s

※ 正確性スコア:○=2点 △=1点 ✕=0点 で採点

06ローカルLLM RAG 比較の考察

Llama3 8B(旧世代)

詳細な回答を生成する能力は高いが、日本語で質問しても英語で答えるという大きな問題がある。ハルシネーション(存在しない事例の捏造)も多く、RAGとして使う場合は注意が必要。応答速度も最も遅い。

Llama3.1 8B ← 今回のMVP

「わからないことはわからないと言う」という誠実な挙動が最大の特徴。ハルシネーションが少なく、白書に記載のない情報を作り上げることをしない。RAGとして最も信頼性が高い。ただし、URLエンベディングでは情報が十分に取れないケースもあり、回答が薄くなることがある。

Llama3.2 3B

速度は最速(平均3.2秒)で日本語回答も安定しているが、自信満々に誤った情報を答える傾向が強い。ランクを間違えても「〇位です」と断言するため、事実確認なしに使うのは危険。

07まとめ

用途おすすめモデル
精度重視・RAGで使うLlama3.1 8B
とにかく速さが欲しいLlama3.2 3B(ただし要検証)
日本語で使いたいLlama3.1 8B または Llama3.2 3B
Llama3 8B(旧世代)特別な理由がなければ使わない

ローカルLLM RAG 比較から得た教訓

  • PDFの品質がRAGの精度を左右する。テキスト抽出できないPDFはそのままでは使えない。
  • Embeddingモデルの言語対応を確認する。英語特化モデルで日本語を読ませると精度が落ちる。
  • モデルサイズ=精度ではない。3Bより8Bの方が誠実だったが、旧世代8Bより新世代8Bの方が優秀。

08参考

コメント

タイトルとURLをコピーしました