以下の内容はhttps://yuj1osm.hatenablog.com/entry/2026/01/16/190630より取得しました。


Microsoft Foundryのコンテンツフィルターで有害なコンテンツの出力を防いでみる

コンテンツフィルターは、LLMの入出力を検査し、有害なコンテンツを検知してブロックする仕組みです。
生成AIモデルを扱う際に、責任あるAIへの効果的なアプローチとして欠かせない機能です。
Microsoft Foundryでコンテンツフィルターを適用してみます。

learn.microsoft.com

プロジェクトにモデルをデプロイする

Microsoft Foundryのページを開き、画面下部でモデルの検索で「gpt-4o」を検索して選択します。

モデルの詳細が表示されるので、画面上部の「このモデルを使用する」をクリックします。

新しいプロジェクトを作成します。

プロジェクトが作成されたら続けてgpt-4oをデプロイします。

gpt-4oがデプロイされたプロジェクトが完成したので、プレイグラウンドで開きます。

デフォルトコンテンツフィルターを使用してチャットする

デプロイしたモデルには、デフォルトのコンテンツフィルターが適用されています。
試しに手を切った時の対処法を聞いてみると、軽度の傷と判定されて正常な応答が返されました。

一方で、銀行強盗の逃走計画を聞いてみると、コンテンツフィルターでブロックされました。

カスタムコンテンツフィルターを使用してチャットする

続いて、カスタムコンテンツフィルターを作成して挙動の変化を見てみます。
ナビゲーションウィンドウから「ガードレールとコントロール」を選択します。

コンテンツフィルタータブを選択し、コンテンツフィルターを作成します。

名前を付けます。

入力フィルターの設定を確認します。
Violence、Hate、Sexual、Self-Harmのカテゴリに対して、閾値が中程度になっています。

そこで、この閾値を上げてみます。

出力も同様に閾値を上げます。

フィルターの適用先のデプロイメントを選択します。

デフォルトのコンテンツフィルターから置き換えます。

設定内容を確認して、フィルターを作成します。

カスタムコンテンツフィルターが作成されました。

カスタムコンテンツフィルターをテストする

先ほどと同様に、手を切った時の対処法を聞いてみると、自傷行為と判断されてコンテンツフィルターでブロックされました。
銀行強盗の逃走計画を聞いてみると、変わらずコンテンツフィルターでブロックされました。

まとめ

Microsoft Foundryでコンテンツフィルターを適用してみて、安全性が標準機能として組み込まれていることで、より安心して生成AIアプリを開発できると実感しました。
ユーザー向けのチャットアプリでも、責任あるAIを実現しやすいため、ぜひ使いこなしていければと思います。




以上の内容はhttps://yuj1osm.hatenablog.com/entry/2026/01/16/190630より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14