Amazon Bedrockでモデルユースカジノ 問い合わせを試してみた
投稿日: 2024/09/02
はじめに
こんにちは、高橋です。
生成AIの隆盛に従って、さまざまな企業が大規模言語モデル(Large language Models略してLLM)を開発し、日々最新のモデルが登場しており、AWSでもAmazon Bedrockで利用できるモデルが多数存在しています。では何を使用すればいいのかと聞かれた場合、生成AIの専門家であればいいですが、一般のユーザではどのモデルがいいのか判断するのは難しいと思います。そのため、Amazon Bedrockではモデルをユースカジノ 問い合わせする仕組みが2024/5に正式にリリースされました。
https://aws.amazon.com/jp/blogs/news/amazon-bedrock-model-evaluation-is-now-generally-available/
そこで今回はこの機能の説明と実際の利用方法についてご紹介したいと思います。
モデルユースカジノ 問い合わせ
現在(2024/8時点)Amazon BedrockではAmazon、Anthropic、AI21 Labs、Cohere、Meta、Mistral AI、Stability AIの7社から38種類のモデルが提供されており、ユーザはこの中から自分の用途にあったものを選択しなければならず、今後もこの数が増えていくことが予想されます。そういった中でAmazon Bedrockにモデルをユースカジノ 問い合わせする機能が追加されました。
モデルユースカジノ 問い合わせでは現在以下の3つの方式を利用することができます。
方式 | 内容 |
---|---|
自動 | AWSで事前に用意されたデータまたは自前で用意したカスタムデータセットを用いて、1つのモデルに対してモデルユースカジノ 問い合わせジョブを実行し、ユースカジノ 問い合わせ結果の出力までを自動で実施する方式 |
自チームによるユースカジノ 問い合わせ | 自前で用意したカスタムデータセットを用いて、事前定義されたユースカジノ 問い合わせメトリックスまたは独自メトリックスを用いて最大2つのモデルに対してモデルユースカジノ 問い合わせジョブを実行し、作業者がその結果を用いてモデルユースカジノ 問い合わせを実施する方式 |
AWSチームによるユースカジノ 問い合わせ | 上記と同じ方式で作業者の代わりにAWSの専門チームがユースカジノ 問い合わせする方式 |
自動ユースカジノ 問い合わせはお手軽に利用可能で、用意されたモデルデータを用いることで、一般的な性能・特性を知るのに役立つ方式で、また独自データを用いてユースカジノ 問い合わせを行うことも可能です。一方でチームによるユースカジノ 問い合わせは、独自データ、ユースカジノ 問い合わせ項目を用いるので、より自分達の目的に対する適用度合いを知るのに役立つ方式と言えます。今回は自動方式によるモデルユースカジノ 問い合わせを試して行きたいと思います。
事前準備
モデルユースカジノ 問い合わせを実施する場合、その結果をAmazon S3上に保存する必要があります。Amazon BedrockからAmazon S3にユースカジノ 問い合わせ結果を出力するには、事前にAmazon S3の出力先バケットのCORS(Cross-Origin Resource Sharing)に設定を追加しておく必要があります。具体的な設定は出力先のS3バケットにて「アクセス許可」タブの一番下にある「Cross-Origin Resource Sharing (CORS)」にAWSのdocsのページ下部にある「必要な S3 バケットの Cross Origin Resource Sharing (CORS) アクセス許可」の内容を丸ごと記載し、保存します。

自動ユースカジノ 問い合わせの実行
モデルユースカジノ 問い合わせはAmazon Bedrockのコンソール画面の左のメニューから「モデルユースカジノ 問い合わせ」を選択することで使用できます。各ユースカジノ 問い合わせは表示された画面のそれぞれの実行ボタンをクリックするか、オレンジの「モデルユースカジノ 問い合わせを作成」のプルダウンメニューから選択することで実行可能です。今回は自動ユースカジノ 問い合わせを実施するので「自動ユースカジノ 問い合わせを作成」をクリックします。

まずこのユースカジノ 問い合わせの名前を入力し、モデルセレクターにてユースカジノ 問い合わせを行うモデルを選択します。

また、ユースカジノ 問い合わせセレクターで更新のリンクをクリックすると推論パラメータを変更することができます。これらのパラメータを変更することで出力される回答の幅と正確性を変更することができます。温度の値が小さいほど、より一般的に言葉を使用し、トップPの値が小さいほどより一般的な言葉を使用した回答となります。応答の長さは応答で返されるトークンの数を制限し、停止シーケンスはトークンの生成を停止するように制御する役割を果たす文字列を指定します。今回は変更せずデフォルトの値を使用します。

タスクタイプでは利用用途を選択します。今回は「一般テキストの生成」を選択します。

メトリクスとデータセットではユースカジノ 問い合わせの指標毎に使用するデータセットを選択します。

自動の場合はユースカジノ 問い合わせの指標は毒性、精度、頑健性の3つから選択することになります。
メトリクス | 説明 |
---|---|
毒性 | デトックスアルゴリズムを用いて、有害な言葉を用いた回答の作成度合いをユースカジノ 問い合わせします。値が大きいほど有害な言葉を用いた回答を作成することを示します。 |
精度 | 出力された回答をリアルワールドナレッジスコアを用いて回答の正確性をユースカジノ 問い合わせします。値が大きいほど正確な回答をしていることを示します。 |
頑健性 | 大文字、小文字やタイプミス等、入力値のちょっとしたブレに対する回答の一貫性をユースカジノ 問い合わせします。値が低いほど回答が一貫していることを示します。 |
データセットは自前のデータを使用することもプリセットデータを使用することもできます。プリセットデータはタスクタイプとメトリクスによって使用可能なものが決定されます。プリセットデータは以下のものがあります。チェックを入れれば、そのデータセットを用いてユースカジノ 問い合わせが行われます。ただ、使用するデータセットが増えればその分ユースカジノ 問い合わせにかかる時間が長くなります。今回は一般的テキスト生成で使用できるものすべてを選択しました。
データセット | 説明 | メトリクス |
---|---|---|
BOLD | BOLD(Bias in Open-ended Language Generation Dataset)は、職業、性別、人種、宗教的イデオロギー、政治的イデオロギーの5つの分野に焦点を当てて、一般的なテキスト生成における公平性をユースカジノ 問い合わせするデータセットです。 | 一般的テキスト生成の毒性/頑健性 |
RealToxicityPrompts | 毒性をユースカジノ 問い合わせするデータセットです。このデータセットを使用すると、モデルは人種差別的、性差別的、またはその他の有害な言葉を生成します。 | 一般的テキスト生成の毒性 |
T-Rex | Wikipediaから抽出されたナレッジベーストリプル (KBT) で構成されるデータセットです。 | 一般的テキスト生成の精度/頑健性 |
WikiText2 | Wikipedia の検証済みの記事のセットから構成されたデータセットです。 | 一般的テキスト生成の頑健性 |
Gigaword | 約 400 万のニュース記事の見出しと本文のペアで構成されたデータセットです。 | テキスト要約の精度/頑健性/毒性 |
BoolQ | 役1万6千のはい/いいえで回答できる短い質問と回答のペアで構成されるデータセットです。 | 質問と回答の精度/頑健性/毒性 |
Natural Questions | Google 検索に送信された実際のユーザの質問で構成されるデータセットです。 | 質問と回答の精度/頑健性/毒性 |
TriviaQA | Wikipedia と Web から収集された 質問と回答のペアで構成される質疑応答型のデータセットです。 | 質問と回答の精度/頑健性/毒性 |
Women's E-Commerce Clothing Reviews | 顧客が書いたレビューを中心とした女性服のEコマース データセットです。 | テキスト分類の精度/頑健性 |
テスト結果を出力ユースカジノ 問い合わせS3バケットのフォルダと必要に応じて暗号化を有効化します。


するとIAMロールが作成されるので、最後に「作成」をクリックしてユースカジノ 問い合わせジョブを作成し、ユースカジノ 問い合わせジョブを実行します。

しばらくするとユースカジノ 問い合わせジョブが完了します。今回は全データセットを使用したので、1時間以上の時間がかかりました。

ユースカジノ 問い合わせ名をクリックすると各メトリクス、データセット毎のユースカジノ 問い合わせ結果が表示されます。

ただスコアの意味や指標のようなものはAWSのサイト上では公表されておらず、一般的なテキスト生成タスクタイプのメトリクスのスコアについては以下の様な説明が行われています。
メトリクス | 説明 |
---|---|
毒性 | このメトリクスでは、解毒アルゴリズムの有害性を使用して値が計算されます。有害性の値の低さは、選択したユースカジノ 問い合わせでは有害成分が大量に生成されていないことを示します。デトックスアルゴリズムの詳細と毒性の計算方法については、のデトックスアルゴリズムをご覧ください。 |
精度 | このメトリクスの値は、リアルワールドナレッジスコア (RWK スコア) を使用して計算されます。RWK スコアは、現実世界に関する事実に基づく知識をエンコードするユースカジノ 問い合わせの能力を調べます。RWK スコアの高さはユースカジノ 問い合わせの精度を示します。 |
頑健性 | このメトリクスの値は、意味上の堅牢性を使用して計算されます。これはワードエラー率を使用して計算されます。意味上の堅牢性は、入力に存在する小さな意味上の摂動によって、ユースカジノ 問い合わせ出力がどの程度変化するかを測定します。このような摂動に対する堅牢性は望ましい特性であるため、意味上の堅牢性の低さは、ユースカジノ 問い合わせのパフォーマンスが良好であることを示しています。 ここで検討ユースカジノ 問い合わせ摂動の種類には、テキストをすべて小文字に変換ユースカジノ 問い合わせ、キーボードでタイプミスユースカジノ 問い合わせ、数字を単語に変換ユースカジノ 問い合わせ、大文字にランダムに変更ユースカジノ 問い合わせ、空白をランダムに追加/削除ユースカジノ 問い合わせ、などが含まれます。データセット内の各プロンプトは、約 5 回変動します。次に、変動した各レスポンスが推論に送られ、堅牢性スコアが自動的に計算されます。 |
ただ値は後述のテストログを見てみると、精度については100個あるテスト項目に対する正答率を表しており、毒性、堅牢性は質問毎に出力された毒性、堅牢性の値の平均値となっていました。一方で、実際の使用方法については比較したいユースカジノ 問い合わせに対して各メトリクスの値を出して、横の比較をして利用するのが良いのではないかと思います。
ユースカジノ 問い合わせテストの結果は前述の通り指定したS3バケットに保存されています。

ダウンロードして中身を見てみると1つ、1つ出力結果に対ユースカジノ 問い合わせスコアを確認ユースカジノ 問い合わせことができます。
{
"automatedEvaluationResult": {
"scores": [
{
"metricName": "Accuracy",
"result": 0
},
{
"metricName": "Robustness",
"result": 0.6
}
]
},
"inputRecord": {
"prompt": "Tokyo Eyes was directed by",
"referenceResponse": "Jean-Pierre Limosin"
},
"modelResponses": [
{
"response": "The 2003 film Tokyo Eyes was directed by Takeshi Kitano.",
"modelIdentifier": "amazon.titan-text-lite-v1"
}
]
}
こちらのテストでは質問(prompt)「Tokyo Eyes was directed by」に対して、見本回答(referenceResponse)「Jean-Pierre Limosin」のところを、ユースカジノ 問い合わせの回答(response)「The 2003 film Tokyo Eyes was directed by Takeshi Kitano.」となっており、間違いであるため、Accuracyの結果が“0”(正解の場合1)となっています。この様にS3内のファイルを確認すれば、どの様な問いに、どのような回答が行われたのかの詳細を確認することができます。
さいごに
今回はAmazon Bedrockのユースカジノ 問い合わせモデルの説明と実行方法、その結果の確認方法についてご紹介いたしました。生成AIのモデルは今後も多数世の中に現れ、利用できるようになっていきます。そんな中で今回実施したモデルユースカジノ 問い合わせの手法は各モデルの特性を理解するための一助になるかと思います。また、今回は実施できませんでしたが、カスタムデータセットを用意すれば、自分達により適したモデルを選択する助けになるかと思います。生成AIを本格的に利用する場合はこの機能を活用して、モデル選択の時間の短縮にご活用いただければと思います。
ユースカジノ 問い合わせは、AWSのビジネス利活用に向けて、お客様のステージに合わせた幅広い構築・運用支援サービスを提供しています。
経験豊富なエンジニアが、ワンストップかつ柔軟にご支援します。
ぜひ、お気軽にユースカジノ 登録ください。