TECHNOLOGY NLP AI

【日本語訳】Llama 3 Model Card【Meta(旧Facebook)】

悩んでいる人

Llama 3 Model Cardの日本語訳を教えて!

こういった悩みにお答えします.

本記事の信頼性

  • リアルタイムシステムの研究歴12年.
  • 東大教員の時に,英語でOS(Linuxカーネル)の授業.
  • 2012年9月~2013年8月にアメリカのノースカロライナ大学チャペルヒル校(UNC)コンピュータサイエンス学部で客員研究員として勤務.C言語でリアルタイムLinuxの研究開発.
  • プログラミング歴15年以上,習得している言語: C/C++PythonSolidity/Vyper,Java,Ruby,Go,Rust,D,HTML/CSS/JS/PHP,MATLAB,Assembler (x64,ARM).
  • 東大教員の時に,C++言語で開発した「LLVMコンパイラの拡張」,C言語で開発した独自のリアルタイムOS「Mcube Kernel」GitHubにオープンソースとして公開
  • 2020年1月~現在はアメリカのノースカロライナ州チャペルヒルにあるGuarantee Happiness LLCのCTOとしてECサイト開発やWeb/SNSマーケティングの業務.2022年6月~現在はアメリカのノースカロライナ州チャペルヒルにあるJapanese Tar Heel, Inc.のCEO兼CTO.
  • 最近は自然言語処理AIイーサリアムに関する有益な情報発信に従事.
    • (AI全般を含む)自然言語処理AIの論文の日本語訳や,AIチャットボット(ChatGPT,Auto-GPT,Gemini(旧Bard)など)の記事を50本以上執筆.アメリカのサンフランシスコ(広義のシリコンバレー)の会社でプロンプトエンジニア・マネージャー・Quality Assurance(QA)の業務委託の経験あり.
    • (スマートコントラクトのプログラミングを含む)イーサリアムや仮想通貨全般の記事を200本以上執筆.イギリスのロンドンの会社で仮想通貨の英語の記事を日本語に翻訳する業務委託の経験あり.

こういった私から学べます.

AIのプログラミング言語「C++/Python言語」を学べるおすすめのWebサイトを知りたいあなたはこちらからどうぞ.

独学が難しいあなたは,AIを学べるオンラインプログラミングスクール3社で自分に合うスクールを見つけましょう.後悔はさせません!

国内・海外のAIエンジニアのおすすめ求人サイトを知りたいあなたはこちらからどうぞ.

国内・海外のプロンプトエンジニアのおすすめ求人サイトを知りたいあなたはこちらからどうぞ.

Llama 3 Model Cardの日本語訳を紹介します.

Meta(旧Facebook)のLlama 3がわかります.

※図表を含む論文の著作権はLlama 3 Model Cardの著者に帰属します.

Llama 3 Model Cardの目次は以下になります.

  • 1章:Model Details
  • 2章:Intended Use
  • 3章:Hardware and Software
  • 4章:Training Data
  • 5章:Benchmarks
  • 6章:Ethical Considerations and Limitations
  • 7章:Citation instructions
  • 8章:Contributors

Llama 3 Model Cardを解説しつつ,私の考えも語ります.

※Llama 3 Model Cardの章番号はないので追加しました.また,概要はありません.

私の日本語訳の注意点は以下になります.

  • 概要は英語と日本語を両方掲載しましたが,本文は私の日本語訳のみを掲載していること(英語で読みたいあなたは原文を読みましょう!)
  • 基本的には原文の直訳ですが,わかりにくい箇所は意訳や説明を追加している箇所があること
  • 原文の「Citation instructions」(引用の指示)と「Contributors」(貢献者)は省略していること
  • 本文中に登場する表記「[10]」などは参考文献ですので,興味がある方は本記事の参考文献を参照されたいこと

それでは,Llama 3 Model Cardの本文を読みすすめましょう!

1章:Model Details(モデルの詳細)

Metaは大規模言語モデル(LLMs:Large Language Models)のMeta Llama 3ファミリーを開発し,リリースした.

Llama 3は8Bおよび70Bサイズの事前訓練済みおよび命令訓練済みの生成テキストモデルのコレクションである.

Llama 3命令チューニングモデルは対話のユースケースに最適化されており,一般的な業界ベンチマークにおいて,利用可能なオープンソースのチャットモデルの多くを凌駕している.

さらに,これらのモデルを開発する際には,有用性と安全性を最適化するために細心の注意を払った.

モデル開発者のMeta:

  • バリエーション:Llama 3には,8Bと70Bの2種類のパラメータがあり,訓練済みと命令チューニング済みのバリエーションがある.
  • 入力:モデルはテキストのみを入力する.
  • 出力:モデルはテキストとコードのみを生成する.
  • モデルアーキテクチャ:Llama 3は,最適化されたTransformerアーキテクチャを使用する自動回帰型言語モデルである.チューニングされたバージョンは,教師ありファインチューニング(SFT:Supervised Fine-Tuning)と人間フィードバック付き強化学習(RLHF:Reinforcement Learning with Human Feedback)を使用して,有用性と安全性に対する人間の嗜好に合わせる.

Training DataParamsContext lengthGQAToken countKnowledge cutoff
Llama 3A new mix of publicly available online data.8B8kYes15T+March, 2023
70B8kYesDecember, 2023

  • Llama 3ファミリーのモデル:トークン数は事前訓練データのみである.8と70Bの両バージョンは,推論のスケーラビリティを向上させるためにGrouped-Query Attention(GQA)を使用している.
  • モデルリリース日:2024年4月18日
  • ステータス:これはオフラインのデータセットで訓練された静的モデルである.コミュニティからのフィードバックでモデルの安全性を向上させながら,チューニングされたモデルの将来のバージョンがリリースされる予定である.
  • ライセンス:カスタムコマーシャルライセンスはhttps://llama.meta.com/llama3/licenseで入手可能である.

モデルに関するフィードバックやコメントの提供方法については,モデルのREADMEに記載されている.

Llama 3をアプリケーションで使用するための生成パラメータやレシピに関する技術的な情報については,こちらを参照されたい.

2章:Intended Use(意図した使用)

意図した使用例:

Llama 3は,英語での商用および研究用途を想定している.

命令チューニングモデルはアシスタントのようなチャットを想定しているが,事前訓練済みモデルは様々な自然言語生成タスクに適応できる.

対象外:

  • 適用される法律または規制(貿易コンプライアンス法を含む)に違反する方法での使用
  • Acceptable Use PolicyおよびLlama 3 Community Licenseで禁止されているその他の方法での使用
  • 英語以外の言語での使用(開発者は,Llama 3 Community LicenseAcceptable Use Policyを遵守する限り,英語以外の言語用にLlama 3モデルをファインチューニングすることができる.)

3章:Hardware and Software(ハードウェアとソフトウェア)

  • 訓練要因:事前訓練には,カスタムトレーニングライブラリ,Meta's Research SuperCluster,およびプロダクションクラスタを使用した.また,ファインチューニング,アノテーション,評価をサードパーティのクラウドコンピュータで実施した.
  • Carbon Footprint Pretraining:H100-80GBタイプ(TDP700W)のハードウェアを使用し,累積770万GPU時間の計算を行った.推定総排出量は2290 tCO2eqであり,その100%はMetaのサステナビリティプログラムによってオフセットされた.

Time (GPU hours)Power Consumption (W)Carbon Emitted(tCO2eq)
Llama 3 8B1.3M700390
Llama 3 70B6.4M7001900
Total7.7M2290

事前訓練時のCO2排出量:

  • 時間:各モデルの訓練に必要なGPU時間の合計.
  • 消費電力:使用したGPUのGPUデバイスあたりのピーク電力容量を電力使用効率で調整したもの.排出量の100%はMetaのサステナビリティプログラムによって直接相殺される.また,我々はこれらのモデルをオープンに公開しているため,事前訓練コストを他者が負担する必要はない.

4章:Training Data(訓練データ)

  • 概要:Llama 3は,一般に公開されているソースからの15兆トークンを超えるデータで事前訓練された.ファインチューニングデータには,一般に公開されている命令データセットと,1,000万以上の人間がアノテーションを付けた例が含まれる.事前訓練データセットにもファインチューニングデータセットにも,Metaユーザデータは含まれていない.
  • データの鮮度:事前訓練データは,8Bモデルは2023年3月,70Bモデルは2023年12月にカットオフされた.

5章:Benchmarks(ベンチマーク)

このセクションでは,標準的な自動ベンチマークにおけるLlama 3モデルの結果を報告する.

すべての評価には,我々の内部評価ライブラリを使用している.

手法の詳細については,こちらを参照されたい.

5.1節:Base pretrained models(ベース事前訓練済みモデル)

CategoryBenchmarkLlama 3 8BLlama2 7BLlama2 13BLlama 3 70BLlama2 70B
GeneralMMLU (5-shot)66.645.753.879.569.7
AGIEval English (3-5 shot)45.928.838.763.054.8
CommonSenseQA (7-shot)72.657.667.683.878.7
Winogrande (5-shot)76.173.375.483.181.8
BIG-Bench Hard (3-shot, CoT)61.138.147.081.365.7
ARC-Challenge (25-shot)78.653.767.693.085.3
Knowledge reasoningTriviaQA-Wiki (5-shot)78.572.179.689.787.5
Reading comprehensionSQuAD (1-shot)76.472.272.185.682.6
QuAC (1-shot, F1)44.439.644.951.149.4
BoolQ (0-shot)75.765.566.979.073.1
DROP (3-shot, F1)58.437.949.879.770.2

5.2節:Instruction tuned models(命令チューニングモデル)

BenchmarkLlama 3 8BLlama 2 7BLlama 2 13BLlama 3 70BLlama 2 70B
MMLU (5-shot)68.434.147.882.052.9
GPQA (0-shot)34.221.722.339.521.0
HumanEval (0-shot)62.27.914.081.725.6
GSM-8K (8-shot, CoT)79.625.777.493.057.5
MATH (4-shot, CoT)30.03.86.750.411.6

5.3節:Responsibility & Safety(責任と安全性)

我々は,AIへのオープンなアプローチが,より優れた安全な製品,より迅速なイノベーション,そして市場全体の拡大につながると信じている.

我々はResponsible AI開発にコミットしており,悪用や危害を制限し,オープンソースコミュニティをサポートするための一連のステップを踏んでいる.

Foundation Modelは,多様なアプリケーションに使用されることを前提に構築された,幅広く使用可能な技術である.

Foundation Modelは,その性質上,アプリケーションによって異なるため,すべてのユースケースにおける安全レベルについて,すぐにすべての開発者の好みを満たすように設計されているわけではない.

むしろ,責任あるLLMアプリケーションのデプロイは,そのようなアプリケーションの開発全体を通じて,モデルの事前訓練,ファインチューニング,セーフガードで構成されたシステムのデプロイから,ユースケースと利用者に特化した安全性のニーズの調整まで,一連の安全ベストプラクティスを実施することによって達成される.

Llama 3リリースの一環として,開発者がアプリケーションにモデルレベルとシステムレベルの安全性を実装するための手順とベストプラクティスの概要を説明するResponsible Use Guideを更新した.

また,Meta Llama Guard 2Code Shieldセーフガードを含む一連のリソースも提供している.

これらのツールは,高い有用性を維持しながら,LLMシステムの残留リスクを劇的に低減することが証明されている.

我々は,開発者がニーズに応じてこれらのセーフガードをチューニングし,導入することを推奨しており,そのためのリファレンス実装を提供している.

Llama 3-Instruct:

Responsible Use Guideに概説されているように,モデルの有用性とモデルの整合性のトレードオフは,おそらく避けられない.

開発者は,特定のユースケースや利用者にとって,整合性と有用性の利点をどのように天秤にかけるかについて,裁量を行使すべきである.

開発者は,Llamaのモデルを使用する際に残存するリスクに留意し,必要に応じて追加的な安全ツールを活用し,使用ケースに適した安全基準を達成する必要がある.

安全性:

命令チューニングモデルでは,レッドチームによる広範な演習を実施し,敵対的評価を行い,残留リスクを低減するための安全性緩和技術を実装した.

他の大規模言語モデルと同様に,残存リスクは残る可能性が高く,開発者はユースケースの文脈でこれらのリスクを評価することを推奨する.

これと並行して,我々はコミュニティと協力して,AIの安全性ベンチマーク基準を透明化し,厳密で解釈可能なものにしようとしている.

拒否:

残留リスクに加えて,我々は良性のプロンプトに対する拒否のモデルに大きな重点を置いている.

過剰な拒否は,ユーザエクスペリエンスに影響を与えるだけでなく,特定の文脈では有害になる可能性さえある.

我々は,開発者コミュニティからのフィードバックを聞き,Llama 3がLlama 2よりもプロンプトへの回答を誤って拒否する可能性が大幅に低くなるよう,ファインチューニングを改善した.

我々は内部ベンチマークを構築し,誤った拒否を制限するための緩和策を開発した.

責任あるリリース:

上記の責任ある使用に関する考慮事項に加え,我々は,リリースを決定する前に,誤用や重大なリスクに対する特別な対策を講じることを要求する厳格なプロセスに従った.

誤った使用:

Llama 3にアクセスする,またはLlama 3を使用する場合,Acceptable Use Policyに同意したものとみなされる.

このポリシーの最新版はhttps://llama.meta.com/llama3/use-policy/にある.

重大なリスク:

CBRNE(Chemical, Biological, Radiological, Nuclear, and high yield Explosives)

※それぞれ化学,生物,放射線,核,高収率爆発物のこと

我々は,この分野におけるモデルの安全性について2つの評価を行った.

  • CBRNEの脅威やその他の敵対的リスクに関連する対応の安全性を評価するためのモデル訓練中の反復テスト
  • 外部のCBRNE専門家を関与させ,(モデルなしで)ウェブ検索を使用して達成できることを参考に,専門家の知識を正確に提供し,潜在的なCBRNE誤用の障壁を低減するモデルの能力を評価するアップリフトテストを実施する.

5.4節:Cyber Security(サイバーセキュリティ)

Metaのサイバーセキュリティ安全性評価スイートであるCyberSecEvalでLlama 3を評価し,Llama 3がコーディングアシスタントとして使用されたときに安全でないコードを提案する傾向と,Llama 3がサイバー攻撃の実行を支援する要求に応じる傾向を測定した.

ここで,攻撃は業界標準の MITRE ATT&CK サイバー攻撃オントロジーによって定義される.

安全でないコーディングとサイバー攻撃者の役に立つテストにおいて,Llama 3は同等のコーディング能力を持つモデルと同じ範囲か,より安全な振る舞いをした.

5.5節:Child Safety(子供の安全性)

子どもの安全性リスクアセスメントは,専門家チームを用いて実施され,子どもの安全リスクをもたらす可能性のあるアウトプットを生成するモデルの能力を評価し,ファインチューニングを通じて必要かつ適切なリスク緩和について情報を提供した.

我々は,このような専門家のレッドチームセッションを活用し,Llama 3モデルの開発を通じて,評価ベンチマークの適用範囲を拡大した.

Llama 3では,複数の攻撃ベクターに沿ったモデルのリスクを評価するため,客観的な手法に基づく新たな詳細セッションを実施した.

また,コンテンツの専門家と協力して,市場特有のニュアンスや経験を考慮しながら,違反の可能性があるコンテンツを評価するレッドチーム演習を実施した.

5.6節:Community(コミュニティ)

Generative AIの安全性には専門知識とツールが必要であり,我々はその進歩を加速させるオープンコミュニティの力を信じている.

我々は,AI Alliance,Partnership in AI,MLCommonsなどのオープンコンソーシアムの積極的なメンバーであり,安全性の標準化と透明化に積極的に貢献している.

我々は,コミュニティがMLCommonsの概念実証(Proof of Concept)評価のような分類法を採用し,安全性とコンテンツ評価に関するコラボレーションと透明性を促進することを奨励している.

我々のPurple Llamaツールは,コミュニティが使用できるようにオープンソース化されており,クラウドサービスプロバイダを含むエコシステムパートナーに広く配布されている.

我々はGitHubリポジトリへのコミュニティの貢献を奨励している.

最後に,コミュニティの協力を得てLlama技術を継続的に改善するために,出力報告メカニズムバグ報奨金プログラムを含む一連のリソースを設置した.

6章:Ethical Considerations and Limitations(倫理的配慮と限界)

Llama 3のコアバリューは,開放性,包括性,有用性である.

すべての人に役立ち,さまざまな使用ケースに対応することを意図している.

そのため,さまざまな背景,経験,考え方を持つ人々がアクセスできるように設計されている.

Llama 3は,ある場合には問題があると思われる内容であっても,他の場合には価値ある目的を果たすことができるという理解を反映させながら,不必要な判断や規範性を挿入することなく,ユーザとそのニーズをありのままに取り上げる.

特に,革新と進歩の原動力となる自由な思想と表現の価値という観点から,すべてのユーザの尊厳と自律性を尊重する.

しかし,Llama 3は新技術であり,他の新技術と同様,その使用にはリスクが伴う.

これまでに実施されたテストは英語によるもので,すべてのシナリオをカバーしたわけではないし,カバーすることもできなかった.

このような理由から,すべてのLLMと同様に,Llama 3の潜在的な出力を事前に予測することはできない.

また,このモデルは,場合によっては,ユーザのプロンプトに対して不正確な,偏った,あるいはその他の好ましくない回答を出す可能性がある.

したがって,Llama 3モデルのアプリケーションをデプロイする前に,開発者は安全性テストを実施し,モデルの特定のアプリケーションに合わせたチューニングを行う必要がある.

Responsible Use Guideに概説されているように,Purple Llamaソリューションをワークフローに組み込むことをお勧めする.

特にLlama Guardは,モデルレベルの安全性の上にシステムレベルの安全性を重ねるために,入出力プロンプトをフィルタリングする基本モデルを提供する.

https://llama.meta.com/responsible-use-guideで入手可能なResponsible Use Guideを参照されたい.

参考:Llama 3 Model Cardの解説動画

Llama 3 Model Cardの解説動画です.

まとめ

Llama 3 Model Cardの日本語訳を紹介しました.

Meta(旧Facebook)のLlama 3がわかりました.

AIのプログラミング言語「C++/Python言語」を学べるおすすめのWebサイトを知りたいあなたはこちらからどうぞ.

独学が難しいあなたは,AIを学べるオンラインプログラミングスクール3社で自分に合うスクールを見つけましょう.後悔はさせません!

国内・海外のAIエンジニアのおすすめ求人サイトを知りたいあなたはこちらからどうぞ.

国内・海外のプロンプトエンジニアのおすすめ求人サイトを知りたいあなたはこちらからどうぞ.

-TECHNOLOGY, NLP AI
-, , , ,