Amazon Bedrockでモデルユースカジノ問い合わせを試してみた

投稿日: 2024/09/02

はじめに

こんにちは、高橋です。
生成AIの隆盛に従って、さまざまな企業が大規模言語モデル（Large language Models略してLLM）を開発し、日々最新のモデルが登場しており、AWSでもAmazon Bedrockで利用できるモデルが多数存在しています。では何を使用すればいいのかと聞かれた場合、生成AIの専門家であればいいですが、一般のユーザではどのモデルがいいのか判断するのは難しいと思います。そのため、Amazon Bedrockではモデルをユースカジノ問い合わせする仕組みが2024/5に正式にリリースされました。

https://aws.amazon.com/jp/blogs/news/amazon-bedrock-model-evaluation-is-now-generally-available/

そこで今回はこの機能の説明と実際の利用方法についてご紹介したいと思います。

モデルユースカジノ問い合わせ

現在(2024/8時点)Amazon BedrockではAmazon、Anthropic、AI21 Labs、Cohere、Meta、Mistral AI、Stability AIの7社から38種類のモデルが提供されており、ユーザはこの中から自分の用途にあったものを選択しなければならず、今後もこの数が増えていくことが予想されます。そういった中でAmazon Bedrockにモデルをユースカジノ問い合わせする機能が追加されました。

モデルユースカジノ問い合わせでは現在以下の3つの方式を利用することができます。

方式	内容
自動	AWSで事前に用意されたデータまたは自前で用意したカスタムデータセットを用いて、1つのモデルに対してモデルユースカジノ問い合わせジョブを実行し、ユースカジノ問い合わせ結果の出力までを自動で実施する方式
自チームによるユースカジノ問い合わせ	自前で用意したカスタムデータセットを用いて、事前定義されたユースカジノ問い合わせメトリックスまたは独自メトリックスを用いて最大2つのモデルに対してモデルユースカジノ問い合わせジョブを実行し、作業者がその結果を用いてモデルユースカジノ問い合わせを実施する方式
AWSチームによるユースカジノ問い合わせ	上記と同じ方式で作業者の代わりにAWSの専門チームがユースカジノ問い合わせする方式

自動ユースカジノ問い合わせはお手軽に利用可能で、用意されたモデルデータを用いることで、一般的な性能・特性を知るのに役立つ方式で、また独自データを用いてユースカジノ問い合わせを行うことも可能です。一方でチームによるユースカジノ問い合わせは、独自データ、ユースカジノ問い合わせ項目を用いるので、より自分達の目的に対する適用度合いを知るのに役立つ方式と言えます。今回は自動方式によるモデルユースカジノ問い合わせを試して行きたいと思います。

事前準備

モデルユースカジノ問い合わせを実施する場合、その結果をAmazon S3上に保存する必要があります。Amazon BedrockからAmazon S3にユースカジノ問い合わせ結果を出力するには、事前にAmazon S3の出力先バケットのCORS（Cross-Origin Resource Sharing）に設定を追加しておく必要があります。具体的な設定は出力先のS3バケットにて「アクセス許可」タブの一番下にある「Cross-Origin Resource Sharing (CORS)」にAWSのdocsのページ下部にある「必要な S3 バケットの Cross Origin Resource Sharing (CORS) アクセス許可」の内容を丸ごと記載し、保存します。

自動ユースカジノ問い合わせの実行

モデルユースカジノ問い合わせはAmazon Bedrockのコンソール画面の左のメニューから「モデルユースカジノ問い合わせ」を選択することで使用できます。各ユースカジノ問い合わせは表示された画面のそれぞれの実行ボタンをクリックするか、オレンジの「モデルユースカジノ問い合わせを作成」のプルダウンメニューから選択することで実行可能です。今回は自動ユースカジノ問い合わせを実施するので「自動ユースカジノ問い合わせを作成」をクリックします。

まずこのユースカジノ問い合わせの名前を入力し、モデルセレクターにてユースカジノ問い合わせを行うモデルを選択します。

また、ユースカジノ問い合わせセレクターで更新のリンクをクリックすると推論パラメータを変更することができます。これらのパラメータを変更することで出力される回答の幅と正確性を変更することができます。温度の値が小さいほど、より一般的に言葉を使用し、トップPの値が小さいほどより一般的な言葉を使用した回答となります。応答の長さは応答で返されるトークンの数を制限し、停止シーケンスはトークンの生成を停止するように制御する役割を果たす文字列を指定します。今回は変更せずデフォルトの値を使用します。

タスクタイプでは利用用途を選択します。今回は「一般テキストの生成」を選択します。

メトリクスとデータセットではユースカジノ問い合わせの指標毎に使用するデータセットを選択します。

自動の場合はユースカジノ問い合わせの指標は毒性、精度、頑健性の3つから選択することになります。

メトリクス	説明
毒性	デトックスアルゴリズムを用いて、有害な言葉を用いた回答の作成度合いをユースカジノ問い合わせします。値が大きいほど有害な言葉を用いた回答を作成することを示します。
精度	出力された回答をリアルワールドナレッジスコアを用いて回答の正確性をユースカジノ問い合わせします。値が大きいほど正確な回答をしていることを示します。
頑健性	大文字、小文字やタイプミス等、入力値のちょっとしたブレに対する回答の一貫性をユースカジノ問い合わせします。値が低いほど回答が一貫していることを示します。

データセットは自前のデータを使用することもプリセットデータを使用することもできます。プリセットデータはタスクタイプとメトリクスによって使用可能なものが決定されます。プリセットデータは以下のものがあります。チェックを入れれば、そのデータセットを用いてユースカジノ問い合わせが行われます。ただ、使用するデータセットが増えればその分ユースカジノ問い合わせにかかる時間が長くなります。今回は一般的テキスト生成で使用できるものすべてを選択しました。

データセット	説明	メトリクス
BOLD	BOLD（Bias in Open-ended Language Generation Dataset）は、職業、性別、人種、宗教的イデオロギー、政治的イデオロギーの5つの分野に焦点を当てて、一般的なテキスト生成における公平性をユースカジノ問い合わせするデータセットです。	一般的テキスト生成の毒性/頑健性
RealToxicityPrompts	毒性をユースカジノ問い合わせするデータセットです。このデータセットを使用すると、モデルは人種差別的、性差別的、またはその他の有害な言葉を生成します。	一般的テキスト生成の毒性
T-Rex	Wikipediaから抽出されたナレッジベーストリプル (KBT) で構成されるデータセットです。	一般的テキスト生成の精度/頑健性
WikiText2	Wikipedia の検証済みの記事のセットから構成されたデータセットです。	一般的テキスト生成の頑健性
Gigaword	約 400 万のニュース記事の見出しと本文のペアで構成されたデータセットです。	テキスト要約の精度/頑健性/毒性
BoolQ	役1万6千のはい/いいえで回答できる短い質問と回答のペアで構成されるデータセットです。	質問と回答の精度/頑健性/毒性
Natural Questions	Google 検索に送信された実際のユーザの質問で構成されるデータセットです。	質問と回答の精度/頑健性/毒性
TriviaQA	Wikipedia と Web から収集された質問と回答のペアで構成される質疑応答型のデータセットです。	質問と回答の精度/頑健性/毒性
Women's E-Commerce Clothing Reviews	顧客が書いたレビューを中心とした女性服のEコマースデータセットです。	テキスト分類の精度/頑健性

テスト結果を出力ユースカジノ問い合わせS3バケットのフォルダと必要に応じて暗号化を有効化します。

次にこのユースカジノ問い合わせジョブを実行するためのIAMロールを新規作成するか、既存のロールを指定します。今回は新規ロールを作成します。「新しいロールの作成」を選択し、画面下の「ロールを作成」をクリックします。

するとIAMロールが作成されるので、最後に「作成」をクリックしてユースカジノ問い合わせジョブを作成し、ユースカジノ問い合わせジョブを実行します。

しばらくするとユースカジノ問い合わせジョブが完了します。今回は全データセットを使用したので、1時間以上の時間がかかりました。

ユースカジノ問い合わせ名をクリックすると各メトリクス、データセット毎のユースカジノ問い合わせ結果が表示されます。

ただスコアの意味や指標のようなものはAWSのサイト上では公表されておらず、一般的なテキスト生成タスクタイプのメトリクスのスコアについては以下の様な説明が行われています。

メトリクス	説明
毒性	このメトリクスでは、解毒アルゴリズムの有害性を使用して値が計算されます。有害性の値の低さは、選択したユースカジノ問い合わせでは有害成分が大量に生成されていないことを示します。デトックスアルゴリズムの詳細と毒性の計算方法については、のデトックスアルゴリズムをご覧ください。
精度	このメトリクスの値は、リアルワールドナレッジスコア (RWK スコア) を使用して計算されます。RWK スコアは、現実世界に関する事実に基づく知識をエンコードするユースカジノ問い合わせの能力を調べます。RWK スコアの高さはユースカジノ問い合わせの精度を示します。
頑健性	このメトリクスの値は、意味上の堅牢性を使用して計算されます。これはワードエラー率を使用して計算されます。意味上の堅牢性は、入力に存在する小さな意味上の摂動によって、ユースカジノ問い合わせ出力がどの程度変化するかを測定します。このような摂動に対する堅牢性は望ましい特性であるため、意味上の堅牢性の低さは、ユースカジノ問い合わせのパフォーマンスが良好であることを示しています。ここで検討ユースカジノ問い合わせ摂動の種類には、テキストをすべて小文字に変換ユースカジノ問い合わせ、キーボードでタイプミスユースカジノ問い合わせ、数字を単語に変換ユースカジノ問い合わせ、大文字にランダムに変更ユースカジノ問い合わせ、空白をランダムに追加/削除ユースカジノ問い合わせ、などが含まれます。データセット内の各プロンプトは、約 5 回変動します。次に、変動した各レスポンスが推論に送られ、堅牢性スコアが自動的に計算されます。

ただ値は後述のテストログを見てみると、精度については100個あるテスト項目に対する正答率を表しており、毒性、堅牢性は質問毎に出力された毒性、堅牢性の値の平均値となっていました。一方で、実際の使用方法については比較したいユースカジノ問い合わせに対して各メトリクスの値を出して、横の比較をして利用するのが良いのではないかと思います。

ユースカジノ問い合わせテストの結果は前述の通り指定したS3バケットに保存されています。

ダウンロードして中身を見てみると1つ、1つ出力結果に対ユースカジノ問い合わせスコアを確認ユースカジノ問い合わせことができます。

{
        "automatedEvaluationResult": {
            "scores": [
                {
                    "metricName": "Accuracy",
                    "result": 0
                },
                {
                    "metricName": "Robustness",
                    "result": 0.6
                }
            ]
        },
        "inputRecord": {
            "prompt": "Tokyo Eyes was directed by",
            "referenceResponse": "Jean-Pierre Limosin"
        },
        "modelResponses": [
            {
                "response": "The 2003 film Tokyo Eyes was directed by Takeshi Kitano.",
                "modelIdentifier": "amazon.titan-text-lite-v1"
            }
        ]
    }

こちらのテストでは質問（prompt）「Tokyo Eyes was directed by」に対して、見本回答（referenceResponse）「Jean-Pierre Limosin」のところを、ユースカジノ問い合わせの回答（response）「The 2003 film Tokyo Eyes was directed by Takeshi Kitano.」となっており、間違いであるため、Accuracyの結果が“0”（正解の場合1）となっています。この様にS3内のファイルを確認すれば、どの様な問いに、どのような回答が行われたのかの詳細を確認することができます。

さいごに

今回はAmazon Bedrockのユースカジノ問い合わせモデルの説明と実行方法、その結果の確認方法についてご紹介いたしました。生成AIのモデルは今後も多数世の中に現れ、利用できるようになっていきます。そんな中で今回実施したモデルユースカジノ問い合わせの手法は各モデルの特性を理解するための一助になるかと思います。また、今回は実施できませんでしたが、カスタムデータセットを用意すれば、自分達により適したモデルを選択する助けになるかと思います。生成AIを本格的に利用する場合はこの機能を活用して、モデル選択の時間の短縮にご活用いただければと思います。

ユースカジノ問い合わせは、AWSのビジネス利活用に向けて、お客様のステージに合わせた幅広い構築・運用支援サービスを提供しています。
経験豊富なエンジニアが、ワンストップかつ柔軟にご支援します。
ぜひ、お気軽にユースカジノ登録ください。

ユースカジノ登録