https://tech.kickflow.co.jp/entry/2026/03/18/131229

「なんとなく」でリリースしない。kickflowが定めたAI機能の品質基準と評価プロセス

こんにちは、kickflow QAチームのmakiです。

kickflowでは現在、複数のAI機能を提供しています。
以前、AI申請前レビュー機能の品質評価プロセスをご紹介しましたが、そのとき評価の進め方を手探りで組み立てた経験から、ひとつの課題が見えてきました。

tech.kickflow.co.jp

「この精度なら出していいのか？」「どこまでテストすればリリースできるのか？」
機能ごとに判断基準がバラバラだったことから、AI機能全体で統一した品質基準が必要だと感じました。

従来のソフトウェアであれば、テストがすべて通ればリリースできます。
しかしAI機能は、同じ入力でも毎回異なる結果が返ることがあり、「全部正解」を前提にできません。
だからこそ、「この状態ならリリースしてOK」という最低ラインを明文化する 必要がありました。

この記事では、kickflowが策定したAI機能の品質基準と、リリース判定までの評価プロセスをご紹介します。
AI機能のQAや品質基準づくりに取り組んでいる方の参考になれば幸いです。

なぜAI機能に品質基準が必要なのか

AI機能のテストには、従来のソフトウェアテストにはない難しさがあります。

出力が確率的：同じ入力でも、実行するたびに異なる結果が返ることがある
正解の定義が曖昧：「だいたい合っている」をどこまで許容するかが明確でない
リスクが見えにくい：精度が低いまま出してしまうと、ユーザーの信頼を損なう

こうした特性がある中で、品質基準がないと以下のような問題が起きます。

「なんとなく良さそう」という感覚でリリース判断をしてしまう
人によってOK/NGの基準が異なり、判断がブレる
「もう少しテストしたほうがいいかも」と不安が残り、リリースが遅れる

kickflowでは、これらの問題を解決するために品質基準を策定しました。
基準を明文化することで、リリース判断に迷いがなくなり、スピードと透明性の両方を確保 できるようになりました。

3つの評価軸

kickflowでは、AI機能をリリースして良いかを以下の3つの軸で総合的に判断しています。
すべての軸で 合格ライン をクリアしていることがリリースの条件です。

軸	観点	一言で言うと
A. 機能チェック	ユーザーの意図通りに正しく処理できているか	「正しく動くか」
B. パフォーマンスチェック	サービスとして快適に動くか	「速く動くか」
C. 安全と信頼性チェック	社会的に不適切な出力がないか	「安全に動くか」

ここからは、各軸の詳細を説明します。

軸 A. 機能チェック（精度）

最もボリュームが大きい軸です。
「ユーザーの意図通りに正しく、期待通りに処理できているか」を、複数の観点から評価します。

評価観点	合格ライン	テストの視点
目標の達成（定量）	PMが定義した目標値をクリアしていること	正解率またはF1スコアで算出
目標の達成（定性）	ユーザーの要望を定性的に満たしていること	正常値での確認
入力バリデーション	空欄・記号・絵文字・長文など、想定外の入力でもエラーにならないこと	異常値、境界値
公平性	AIオプションが有効な場合、すべてのユーザーが利用可能であること	管理者・非管理者での差異
わかりやすさ	AIの判断結果が、誰でも分かりやすい言葉や形式で提示されていること	UX視点
出力一貫性	同一入力に対して、概ね一貫した出力が得られること	同一入力での複数回試行

ポイントは、精度の数値だけでなく、入力バリデーション、公平性、わかりやすさ、出力一貫性 といった観点も含めて評価していることです。
精度が高くても、特定のユーザーだけ使えなかったり、出力がブレすぎたりする状態では、リリースできません。

精度指標の使い分け

精度をどの指標で測るかは、機能の性質によって使い分けています。

基本は正解率（Accuracy）で判定します。
全データのうち、AIが正しく処理できた割合をシンプルに算出する方法です。

一方、チェック系の機能（例：AI申請前レビュー）では、F1スコア を採用しています。
F1スコアは、適合率（Precision）と再現率（Recall）の調和平均です。

適合率（Precision）：AIが「不備あり」と指摘したうち、本当に不備だった割合。無駄な指摘の少なさを示します。
再現率（Recall）：本来見つけるべき不備のうち、AIが見つけられた割合。見落としの少なさを示します。

チェック系の機能では「見逃しが少ないこと」と「無駄な指摘が少ないこと」の両立が重要なため、どちらか一方だけでは判断できません。
F1スコアを使うことで、両方のバランスを1つの数値で評価できます。

入力パターンによる精度変動への対応

AI機能の精度は、入力情報の組み合わせによって変動することがあります。
例えば、すべての項目が入力されている場合と、任意項目が空欄の場合では、精度が異なるケースがありました。

そのため、精度評価は以下の2つのレベルで実施しています。

レベル	内容	判定基準
全体正解率	全パターン合算の正解率	PMが定義した目標値をクリアしていること
パターン別正解率	入力情報の組み合わせごとの正解率	特定パターンで著しく精度が低下していないこと

全体の正解率が目標値を超えていても、特定のパターンだけ極端に精度が低い場合は見過ごせません。
パターン別に精度を確認することで、こうした偏りを検知できます。

軸 B. パフォーマンスチェック（性能）

ユーザー体験に直結する指標です。
AI機能はAPIの呼び出しを伴うため、従来の機能と比べてレスポンスに時間がかかる傾向があります。

評価観点	合格ライン	テストの視点
応答時間	仕様で定義されている応答時間を超えていないこと	レスポンスの速さ

精度が高くても、結果が返ってくるまでに何十秒もかかるようでは、ユーザーにとって使いやすい機能とは言えません。

軸 C. 安全と信頼性チェック

AI特有のリスクに対する安全性を評価します。
ここは「合格ラインをクリアしているか」ではなく、「問題が一切検知されないこと」が条件 です。

評価観点	合格ライン	テストの視点
有害な出力	ハルシネーション（事実と異なる出力）や、差別的・不適切な出力が一切検知されないこと	不適切な言葉を含む入力に対する応答
プロンプトインジェクション	悪意のある入力によって、システムの指示が上書きされたり、機密情報が漏洩したりしないこと	指示の改ざん・制約回避の試行

特にプロンプトインジェクションは、ユーザーが悪意を持って入力した場合にAIの内部指示が暴露されたり、本来の役割を逸脱した応答をしたりするリスクです。
こうした攻撃に対して耐性があることを確認しています。

リリース判定フロー

品質基準を策定しても、それを正しく運用するプロセスがなければ意味がありません。
kickflowでは、4つのステップでリリース判定を行っています。

flowchart TD
    A[ステップ 1: 開発者・デザイナーによる確認] --> B[ステップ 2: QAによるテストと保証]
    B --> C[ステップ 3: 開発・PMによる確認]
    C --> D{3軸すべて合格?}
    D -->|Yes| E[ステップ 4: QAがGoサインを発出]
    D -->|No| F[不合格箇所の修正・再検証]
    F --> B

ステップ 1：開発者・デザイナーによる確認

まず、開発者が打鍵確認を実施し、基本動作に問題がないことを確認します。
デザイナーは、軸 Aの「わかりやすさ」がUX視点で適切であることを確認します。

ステップ 2：QAによるテストと保証

QAチームが、軸 A・B・Cの全項目 についてチェックを実施します。
精度の定量評価、パフォーマンス計測、安全性テストなど、すべての合格ラインの達成を保証するステップです。

ステップ 3：開発・PMによる確認

開発者およびPMが、以下の要件が達成されたことを確認します。

軸	確認内容
A（精度）	定量的な目標値をクリアし、実機確認による定性的な充足感も満たしている
B（性能）	応答時間の仕様を満たしている
C（安全性）	有害な出力やプロンプトインジェクションへの対策が完了している