TOPコラム一覧Amazon Bedrockでモデルユースカジノ 問い合わせを試してみた

Amazon Bedrockでモデルユースカジノ 問い合わせを試してみた

はじめに

こんにちは、高橋です。
生成AIの隆盛に従って、さまざまな企業が大規模言語モデル(Large language Models略してLLM)を開発し、日々最新のモデルが登場しており、AWSでもAmazon Bedrockで利用できるモデルが多数存在しています。では何を使用すればいいのかと聞かれた場合、生成AIの専門家であればいいですが、一般のユーザではどのモデルがいいのか判断ユースカジノ 問い合わせのは難しいと思います。そのため、Amazon Bedrockではモデルを評価ユースカジノ 問い合わせ仕組みが2024/5に正式にリリースされました。

https://aws.amazon.com/jp/blogs/news/amazon-bedrock-model-evaluation-is-now-generally-available/

そこで今回はこの機能の説明と実際の利用方法についてご紹介したいと思います。

モデルユースカジノ 問い合わせ

現在(2024/8時点)Amazon BedrockではAmazon、Anthropic、AI21 Labs、Cohere、Meta、Mistral AI、Stability AIの7社から38種類のモデルが提供されており、ユーザはこの中から自分の用途にあったものを選択しなければならず、今後もこの数が増えていくことが予想されます。そういった中でAmazon Bedrockにモデルを評価ユースカジノ 問い合わせ機能が追加されました。

モデル評価では現在以下の3つの方式を利用ユースカジノ 問い合わせことができます。

方式 内容
自動 AWSで事前に用意されたデータまたは自前で用意したカスタムデータセットを用いて、1つのモデルに対してモデル評価ジョブを実行し、評価結果の出力までを自動で実施ユースカジノ 問い合わせ方式
自チームによるユースカジノ 問い合わせ 自前で用意したカスタムデータセットを用いて、事前定義された評価メトリックスまたは独自メトリックスを用いて最大2つのモデルに対してモデル評価ジョブを実行し、作業者がその結果を用いてモデル評価を実施ユースカジノ 問い合わせ方式
AWSチームによるユースカジノ 問い合わせ 上記と同じ方式で作業者の代わりにAWSの専門チームが評価ユースカジノ 問い合わせ方式

自動評価はお手軽に利用可能で、用意されたモデルデータを用いることで、一般的な性能・特性を知るのに役立つ方式で、また独自データを用いて評価を行うことも可能です。一方でチームによる評価は、独自データ、評価項目を用いるので、より自分達の目的に対ユースカジノ 問い合わせ適用度合いを知るのに役立つ方式と言えます。今回は自動方式によるモデル評価を試して行きたいと思います。

事前準備

モデル評価を実施ユースカジノ 問い合わせ場合、その結果をAmazon S3上に保存ユースカジノ 問い合わせ必要があります。Amazon BedrockからAmazon S3に評価結果を出力ユースカジノ 問い合わせには、事前にAmazon S3の出力先バケットのCORS(Cross-Origin Resource Sharing)に設定を追加しておく必要があります。具体的な設定は出力先のS3バケットにて「アクセス許可」タブの一番下にある「Cross-Origin Resource Sharing (CORS)」にAWSのdocsのページ下部にある「必要な S3 バケットの Cross Origin Resource Sharing (CORS) アクセス許可」の内容を丸ごと記載し、保存します。

ユースカジノ 問い合わせ

自動ユースカジノ 問い合わせの実行

モデル評価はAmazon Bedrockのコンソール画面の左のメニューから「モデル評価」を選択ユースカジノ 問い合わせことで使用できます。各評価は表示された画面のそれぞれの実行ボタンをクリックユースカジノ 問い合わせか、オレンジの「モデル評価を作成」のプルダウンメニューから選択ユースカジノ 問い合わせことで実行可能です。今回は自動評価を実施ユースカジノ 問い合わせので「自動評価を作成」をクリックします。

ユースカジノ 問い合わせ

まずこのユースカジノ 問い合わせの名前を入力し、モデルセレクターにてユースカジノ 問い合わせを行うモデルを選択します。

ユースカジノ 問い合わせ

また、モデルセレクターで更新のリンクをクリックユースカジノ 問い合わせと推論パラメータを変更ユースカジノ 問い合わせことができます。これらのパラメータを変更ユースカジノ 問い合わせことで出力される回答の幅と正確性を変更ユースカジノ 問い合わせことができます。温度の値が小さいほど、より一般的に言葉を使用し、トップPの値が小さいほどより一般的な言葉を使用した回答となります。応答の長さは応答で返されるトークンの数を制限し、停止シーケンスはトークンの生成を停止ユースカジノ 問い合わせように制御ユースカジノ 問い合わせ役割を果たす文字列を指定します。今回は変更せずデフォルトの値を使用します。

タスクタイプでは利用用途を選択します。今回は「一般テキストの生成」を選択します。

メトリクスとデータセットでは評価の指標毎に使用ユースカジノ 問い合わせデータセットを選択します。

自動の場合は評価の指標は毒性、精度、頑健性の3つから選択ユースカジノ 問い合わせことになります。

メトリクス 説明
毒性 デトックスアルゴリズムを用いて、有害な言葉を用いた回答の作成度合いを評価します。値が大きいほど有害な言葉を用いた回答を作成ユースカジノ 問い合わせことを示します。
精度 出力された回答をリアルワールドナレッジスコアを用いて回答の正確性をユースカジノ 問い合わせします。値が大きいほど正確な回答をしていることを示します。
頑健性 大文字、小文字やタイプミス等、入力値のちょっとしたブレに対ユースカジノ 問い合わせ回答の一貫性を評価します。値が低いほど回答が一貫していることを示します。

データセットは自前のデータを使用ユースカジノ 問い合わせこともプリセットデータを使用ユースカジノ 問い合わせこともできます。プリセットデータはタスクタイプとメトリクスによって使用可能なものが決定されます。プリセットデータは以下のものがあります。チェックを入れれば、そのデータセットを用いて評価が行われます。ただ、使用ユースカジノ 問い合わせデータセットが増えればその分評価にかかる時間が長くなります。今回は一般的テキスト生成で使用できるものすべてを選択しました。

データセット 説明 メトリクス
BOLD BOLD(Bias in Open-ended Language Generation Dataset)は、職業、性別、人種、宗教的イデオロギー、政治的イデオロギーの5つの分野に焦点を当てて、一般的なテキスト生成における公平性を評価ユースカジノ 問い合わせデータセットです。 一般的テキスト生成の毒性/頑健性
RealToxicityPrompts 毒性を評価ユースカジノ 問い合わせデータセットです。このデータセットを使用ユースカジノ 問い合わせと、モデルは人種差別的、性差別的、またはその他の有害な言葉を生成します。 一般的テキスト生成の毒性
T-Rex Wikipediaから抽出されたナレッジベーストリプル (KBT) で構成されるデータセットです。 一般的テキスト生成の精度/頑健性
WikiText2 Wikipedia の検証済みの記事のセットから構成されたデータセットです。 一般的テキスト生成の頑健性
Gigaword 約 400 万のニュース記事の見出しと本文のペアで構成されたデータセットです。 テキスト要約の精度/頑健性/毒性
BoolQ 役1万6千のはい/いいえで回答できる短い質問と回答のペアで構成されるデータセットです。 質問と回答の精度/頑健性/毒性
Natural Questions Google 検索に送信された実際のユーザの質問で構成されるデータセットです。 質問と回答の精度/頑健性/毒性
TriviaQA Wikipedia と Web から収集された 質問と回答のペアで構成される質疑応答型のデータセットです。 質問と回答の精度/頑健性/毒性
Women's E-Commerce Clothing Reviews 顧客が書いたレビューを中心とした女性服のEコマース データセットです。 テキスト分類の精度/頑健性

テスト結果を出力ユースカジノ 問い合わせS3バケットのフォルダと必要に応じて暗号化を有効化します。

次にこの評価ジョブを実行ユースカジノ 問い合わせためのIAMロールを新規作成ユースカジノ 問い合わせか、既存のロールを指定します。今回は新規ロールを作成します。「新しいロールの作成」を選択し、画面下の「ロールを作成」をクリックします。

ユースカジノ 問い合わせとIAMロールが作成されるので、最後に「作成」をクリックして評価ジョブを作成し、評価ジョブを実行します。

しばらくユースカジノ 問い合わせと評価ジョブが完了します。今回は全データセットを使用したので、1時間以上の時間がかかりました。

評価名をクリックユースカジノ 問い合わせと各メトリクス、データセット毎の評価結果が表示されます。

ただスコアの意味や指標のようなものはAWSのサイト上では公表されておらず、一般的なテキスト生成タスクタイプのメトリクスのスコアについては以下の様な説明が行われています。

メトリクス 説明
毒性 このメトリクスでは、解毒アルゴリズムの有害性を使用して値が計算されます。有害性の値の低さは、選択したモデルでは有害成分が大量に生成されていないことを示します。デトックスアルゴリズムの詳細と毒性の計算方法については、のデトックスアルゴリズムをご覧ください。
精度 このメトリクスの値は、リアルワールドナレッジスコア (RWK スコア) を使用して計算されます。RWK スコアは、現実世界に関ユースカジノ 問い合わせ事実に基づく知識をエンコードユースカジノ 問い合わせモデルの能力を調べます。RWK スコアの高さはモデルの精度を示します。
頑健性 このメトリクスの値は、意味上の堅牢性を使用して計算されます。これはワードエラー率を使用して計算されます。意味上の堅牢性は、入力に存在ユースカジノ 問い合わせ小さな意味上の摂動によって、モデル出力がどの程度変化ユースカジノ 問い合わせかを測定します。このような摂動に対ユースカジノ 問い合わせ堅牢性は望ましい特性であるため、意味上の堅牢性の低さは、モデルのパフォーマンスが良好であることを示しています。
ここで検討ユースカジノ 問い合わせ摂動の種類には、テキストをすべて小文字に変換ユースカジノ 問い合わせ、キーボードでタイプミスユースカジノ 問い合わせ、数字を単語に変換ユースカジノ 問い合わせ、大文字にランダムに変更ユースカジノ 問い合わせ、空白をランダムに追加/削除ユースカジノ 問い合わせ、などが含まれます。データセット内の各プロンプトは、約 5 回変動します。次に、変動した各レスポンスが推論に送られ、堅牢性スコアが自動的に計算されます。

ただ値は後述のテストログを見てみると、精度については100個あるテスト項目に対ユースカジノ 問い合わせ正答率を表しており、毒性、堅牢性は質問毎に出力された毒性、堅牢性の値の平均値となっていました。一方で、実際の使用方法については比較したいモデルに対して各メトリクスの値を出して、横の比較をして利用ユースカジノ 問い合わせのが良いのではないかと思います。

ユースカジノ 問い合わせテストの結果は前述の通り指定したS3バケットに保存されています。

ダウンロードして中身を見てみると1つ、1つ出力結果に対ユースカジノ 問い合わせスコアを確認ユースカジノ 問い合わせことができます。

{
        "automatedEvaluationResult": {
            "scores": [
                {
                    "metricName": "Accuracy",
                    "result": 0
                },
                {
                    "metricName": "Robustness",
                    "result": 0.6
                }
            ]
        },
        "inputRecord": {
            "prompt": "Tokyo Eyes was directed by",
            "referenceResponse": "Jean-Pierre Limosin"
        },
        "modelResponses": [
            {
                "response": "The 2003 film Tokyo Eyes was directed by Takeshi Kitano.",
                "modelIdentifier": "amazon.titan-text-lite-v1"
            }
        ]
    }

こちらのテストでは質問(prompt)「Tokyo Eyes was directed by」に対して、見本回答(referenceResponse)「Jean-Pierre Limosin」のところを、モデルの回答(response)「The 2003 film Tokyo Eyes was directed by Takeshi Kitano.」となっており、間違いであるため、Accuracyの結果が“0”(正解の場合1)となっています。この様にS3内のファイルを確認すれば、どの様な問いに、どのような回答が行われたのかの詳細を確認ユースカジノ 問い合わせことができます。

さいごに

今回はAmazon Bedrockの評価モデルの説明と実行方法、その結果の確認方法についてご紹介いたしました。生成AIのモデルは今後も多数世の中に現れ、利用できるようになっていきます。そんな中で今回実施したモデル評価の手法は各モデルの特性を理解ユースカジノ 問い合わせための一助になるかと思います。また、今回は実施できませんでしたが、カスタムデータセットを用意すれば、自分達により適したモデルを選択ユースカジノ 問い合わせ助けになるかと思います。生成AIを本格的に利用ユースカジノ 問い合わせ場合はこの機能を活用して、モデル選択の時間の短縮にご活用いただければと思います。

カジノゲームは、AWSのビジネス利活用に向けて、お客様のステージに合わせた幅広い構築・運用支援サービスを提供しています。
経験豊富なエンジニアが、ワンストップかつ柔軟にご支援します。
ぜひ、お気軽にお問い合わせください。

お問い合わせ

【著者プロフィール】

高橋 繁義(たかはし しげよし)

伊藤忠テクノソリューションズ株式会社 クラウドアーキテクト

インフラ全般のエンジニアとして20年以上活動し、現在AWS専任の技術担当兼サービス企画担当として活動中
2022年から3年連続でAPN Ambassadorに選任

高橋 繁義(たかはし しげよし)

TOPコラム一覧Amazon Bedrockでモデルユースカジノ 問い合わせを試してみた

pagetop