
コンテンツフィルターは、LLMの入出力を検査し、有害なコンテンツを検知してブロックする仕組みです。
生成AIモデルを扱う際に、責任あるAIへの効果的なアプローチとして欠かせない機能です。
Microsoft Foundryでコンテンツフィルターを適用してみます。
プロジェクトにモデルをデプロイする
Microsoft Foundryのページを開き、画面下部でモデルの検索で「gpt-4o」を検索して選択します。

モデルの詳細が表示されるので、画面上部の「このモデルを使用する」をクリックします。

新しいプロジェクトを作成します。

プロジェクトが作成されたら続けてgpt-4oをデプロイします。

gpt-4oがデプロイされたプロジェクトが完成したので、プレイグラウンドで開きます。

デフォルトコンテンツフィルターを使用してチャットする
デプロイしたモデルには、デフォルトのコンテンツフィルターが適用されています。
試しに手を切った時の対処法を聞いてみると、軽度の傷と判定されて正常な応答が返されました。

一方で、銀行強盗の逃走計画を聞いてみると、コンテンツフィルターでブロックされました。

カスタムコンテンツフィルターを使用してチャットする
続いて、カスタムコンテンツフィルターを作成して挙動の変化を見てみます。
ナビゲーションウィンドウから「ガードレールとコントロール」を選択します。

コンテンツフィルタータブを選択し、コンテンツフィルターを作成します。

名前を付けます。

入力フィルターの設定を確認します。
Violence、Hate、Sexual、Self-Harmのカテゴリに対して、閾値が中程度になっています。

そこで、この閾値を上げてみます。

出力も同様に閾値を上げます。

フィルターの適用先のデプロイメントを選択します。

デフォルトのコンテンツフィルターから置き換えます。

設定内容を確認して、フィルターを作成します。

カスタムコンテンツフィルターが作成されました。

カスタムコンテンツフィルターをテストする
先ほどと同様に、手を切った時の対処法を聞いてみると、自傷行為と判断されてコンテンツフィルターでブロックされました。
銀行強盗の逃走計画を聞いてみると、変わらずコンテンツフィルターでブロックされました。

まとめ
Microsoft Foundryでコンテンツフィルターを適用してみて、安全性が標準機能として組み込まれていることで、より安心して生成AIアプリを開発できると実感しました。
ユーザー向けのチャットアプリでも、責任あるAIを実現しやすいため、ぜひ使いこなしていければと思います。