02-生成AIパスポート試験対策：第2章「生成AI」

type

status

date

slug

summary

生成AIとは？

生成AI（Generative AI）は、新しいコンテンツを生成するAI技術で、テキスト、画像、音声、音楽などさまざまなメディアを作り出すことができます。これに対し、識別AIは既存のデータを分析して分類や認識を行います（例：顔認識、製品検査）。生成AIは、入力データを基にして新しい情報を生成するため、非常に幅広い分野で活用されています。

生成AIの応用分野と具体例

文章生成

ChatGPT（OpenAI）は、文章の生成、要約、翻訳、プログラミングコード作成などをサポート。例えば、顧客対応のチャットボットや企画書作成に利用されます。

画像生成

DALL-E（OpenAI）は、テキストから画像を生成。例えば、商品デザインや広告素材を自動生成できます。

Stable Diffusionは、高精度な画像生成が可能なオープンソースツールです。

音声・音楽生成

生成AIは、音声読み上げや音楽作成にも活用されます。例えば、ポッドキャストの音声や音楽アプリでの自動作曲が挙げられます。

ビジュアル生成

3D画像、アバター、動画、イラストなどの作成に利用され、ゲームや映画、バーチャルイベントで使用されます。

生成AIを支える技術

生成AIは、主にニューラルネットワーク（人工脳モデル）を使って動作しています。ここでは、代表的なモデルを紹介します。

(1) 決定的モデル

データの規則性を明確にモデル化する方法で、特に次のようなタイプが使われます。

前結合型ニューラルネットワーク（FNN）：分類タスクに使用（例：商品レビューの感情分析）。

畳み込みニューラルネットワーク（CNN）：画像認識で使用（例：顔認識、自動運転車の障害物検知）。

リカレントニューラルネットワーク（RNN）：時系列データの処理に特化（例：音声認識、株価予測）。

(2) 確率的モデル

確率に基づいたモデルで、複雑なパターン生成やモデリングを行います。

ボルツマンマシン（Boltzmann Machine）：確率的エネルギー最小化を行い、脳の「連想記憶」に近い構造を持ちます。

制約付きボルツマンマシン（RBM）：より効率的に動作し、画像生成に利用されます。

ホップフィールドネットワークとボルツマンマシンの違い：

ホップフィールドネットワークは決定論的モデルで、エネルギー最小化に基づき記憶や連想を扱います。

ボルツマンマシンは確率的にエネルギー最小化を行い、より複雑なパターン生成を可能にします。

(3) 自己回帰モデル

過去の情報に基づいて未来を予測するモデルで、時系列データや自然言語の処理に使用されます。

特徴: 過去のデータが未来の予測に影響を与える。

例: テキスト生成、音声合成、天気予測などで利用されます。

まとめ

生成AIは、テキスト、画像、音声、音楽などの新しいコンテンツを作り出す技術として、さまざまな分野で活用されています。これを支える技術は、決定的モデル、確率的モデル、自己回帰モデルの3つに分かれ、それぞれが特定のタスクやデータに最適化されています。今後も生成AIは、さらに多くの業界で活用されることが期待されています。

具体なモデル

CNNモデル

畳み込みニューラルネットワーク（CNN）についての説明を、

1. CNNの基本的な概念

CNN（畳み込みニューラルネットワーク）は、教師あり学習モデルで、主に画像認識に使用されるニューラルネットワークの一種です。生物の視覚的認識プロセスを模倣しており、特に画像の特徴を自動で抽出し、分類を行うことが得意です。これは、人間の目と脳が画像をどのように認識するかの仕組みを模倣していると言えます。

2. 生物学的背景

CNNは、生物の脳の視覚的認識機構を模倣しています。例えば、網膜からの入力信号が神経細胞によって処理されるように、CNNも画像を入力として処理します。畳み込み層は単純型細胞（例えばエッジや線を認識）を、最終的な出力ユニットは複雑型細胞（より高次の特徴を認識）を模倣します。

処理例:

1. 視覚情報の受け取り

目から入った情報は視神経を通じて脳の後部にある「視覚野」という部分に送られます。この視覚野は、物の形や色、動きなどを処理します。

2. 特徴の抽出

脳は、目の前の物体からさまざまな特徴（耳の形、ひげ、目の位置など）を抽出します。例えば、猫の耳の形やひげ、丸い目の位置など、特徴的な部分を見つけます。

3. カテゴリーに分類

脳は、これらの特徴を基に「これは猫だ」と認識します。例えば、「耳が尖っている」「ひげが長い」「毛がふわふわしている」など、過去の経験から猫に似た特徴を持つ物を「猫」としてカテゴリ分けします。

4. 記憶と照合

過去に猫を見たことがある場合、脳はその記憶と照らし合わせて、現在の物体が猫かどうかを判断します。記憶にある猫の特徴と今見ている猫を比較して、「これは猫だ！」と確信します。

まとめ

人間の脳は、目で見たものを視覚野で分析し、特徴を抽出して、過去の経験に基づいて「これは猫だ」と判断します。このプロセスは、猫を見たことがある人にとっては非常に速く、自動的に行われます。

3. CNNの層構造

用卷积实现对特征的提取，用神经网络实现在无数个角度上提取无数个特征

CNNは、以下の3つの主要な層を使って画像を処理します

畳み込み層（Convolutional Layer）

画像内の特徴（エッジ、線、形など）を検出する層です。

ここで使用されるのがフィルター（またはカーネル）という小さな行列で、画像全体にスライドさせながら相関（類似性）を調べ、画像内に特定の特徴がある場所を見つけます。

例: 右上がりの線や、色の変化のパターンなどを検出します。

プーリング層（Pooling Layer）

畳み込み層で得られた特徴を圧縮して、重要な情報を残しつつデータ量を減らします。

これにより計算量が削減され、モデルが効率的になります。

例: 最大プーリング（Max Pooling）では、特徴マップの中から最大値を取ります。

次元削除（次元削減） とは、高次元のデータを扱う際に、その情報をできるだけ損なわずに次元数を減らすプロセスのことです。

全結合層（Fully Connected Layer）

最終的に得られた特徴を元に、分類を行います。

畳み込み層やプーリング層で抽出された情報を、最終的なラベル（例えば「猫」や「犬」）に変換します。

4. CNNの応用

CNNは、以下のような実際の問題に応用されます。

画像分類: 画像が「猫」「犬」「車」など、どのクラスに属するかを判定します。

物体検出: 画像内の物体（例えば、人、車、動物など）を検出し、位置を特定します。

顔認識: 人物の顔を認識し、IDを確認したり、セキュリティチェックに使用したりします。

まとめ

CNNは、画像認識において画像の特徴を抽出し、分類するための非常に強力なモデルです。生物学的な視覚認識を模倣しており、畳み込み層、プーリング層、全結合層という3つの主要な層を使って、画像を処理し、最終的に有用な情報（例えば、「これは猫の画像です」）を出力します。

VAEモデル 2013年

Variational Autoencoder（VAE）は、機械学習の分野で使われる深層生成モデルの一種で、特に「教師なし学習」で注目されています。主な目的はデータを低次元の潜在空間に圧縮し、その潜在変数を基に新しいデータを生成することです。以下、初心者向けにVAEの仕組みをわかりやすく解説します。

基本的な仕組み

潜在変数:

VAEでは、入力データ（例: 画像やテキスト）を低次元の潜在空間にマッピングします。この潜在空間は通常、正規分布に従うように設計されています。

エンコーダとデコーダ:

エンコーダ: 入力データを潜在空間の変数に変換します。

デコーダ: 潜在変数から元のデータに近いものを再構築します。

2. GAN（生成対戦型ネットワーク）モデル　2014

GAN（Generative Adversarial Networks）は、2014年にイアン・グッドフェローらによって提唱された革新的なAI技術で、**「偽物を作る役」と「偽物を見破る役」**を持つ2つのネットワークが競い合うことで、本物そっくりのデータを生成する仕組みです。

GANの基本構造

GANを分解

反CNNで画像を生成、CNNで画像を判別、

GANの仕組み

GANは以下の2つのネットワークで構成されています：

ジェネレーター（Generator）

役割: 偽物（例：偽札や偽画像）を作る役。

目的: 本物に近い偽データを生成するように訓練される。

ディスクリミネーター（Discriminator）

役割: 入力されたデータが「本物」か「偽物」かを判定する。

目的: 偽物を見破る能力を向上させるように訓練される。

この2つのネットワークが競争し合うことで、ジェネレーターはますます本物に近いデータを生成するようになり、ディスクリミネーターはその偽物を見抜く力を強化します。

GANの学習の流れ：偽札と警察の例

GANの学習プロセスを理解するために、よく使われる比喩は「偽札作り屋」と「それを見破る警察」の競争です。

最初の状況

偽札作り屋（ジェネレーター）: 初めは粗末な偽札を作成。

警察（ディスクリミネーター）: 粗末な偽札を簡単に見破る。

学習の進行

偽札作り屋: 偽札作り屋は本物そっくりの偽札を作れるように工夫を繰り返す。

警察: 警察は見破る能力を高め、偽札をさらに見抜けるようになる。

結果的に

偽札作り屋: 最終的に、偽札作り屋は本物に非常に似た偽札を作成することができる。

警察: 警察は極めて高精度で偽札を見抜く能力を持つようになる。

この競争によって、ジェネレーターはどんどん本物に近いデータを生成するようになり、ディスクリミネーターはその偽物を高い精度で見抜けるようになります。

GANの応用例

GANの技術は、さまざまな分野で活用されています：

画像生成: リアルな人物写真や風景を生成する。例えば、架空の人物の顔や風景を作成する。

動画生成: 現実的な映像を生成する技術。映画の映像やアニメーションの作成に使われる。

画像変換: 写真を絵画風にしたり、昼間の景色を夜に変換するなど、異なるスタイルに変換する。

データ拡張: AIの学習データを増やすために新しいデータを生成する。少ないデータから多様なシナリオを作り出し、AIモデルの精度を向上させる。

このように、GANはその競争的な学習メカニズムによって、従来のAI技術では困難だった非常に高精度なデータ生成を可能にし、さまざまな創造的な分野で活用されています。

3.RNN（リカレントニューラルネットワーク）モデル

伝統的なニューラルネットワークの構造は比較的簡単で、入力層-隠れ層-出力層となっています。以下の図のように：

伝統的なニューラルネットワーク VS RNN

各階層のパーセプトロンは現在の時間ステップの入力だけでなく、記憶とも組み合わせて結果を生成します

RNN（リカレントニューラルネットワーク）の基本的な動作原理は以下の通りです：

入力 “What” のとき：

出力：質問

入力 “time” のとき：

出力：時間を尋ねる

入力 “is” のとき：

出力：特定の時間を尋ねる

入力 “it” のとき：

出力：現在の時間を尋ねる

RNNは各時点での入力に対して前の内容やコンテキストを考慮しながら次の出力を生成します。これにより、シーケンス全体の意味を段階的に理解していくことができます。

ネズミが猫に追われている、犬も加えた生成させたいイメージ図

ネズミが？

猫に？

追われている？

犬も

加えた

生成させたい画像とずれがあります。

RNNは多層パーセプトロン（MLP）とは異なり、単一のデータを処理するのではなく、時間的な順序や関係を持つデータを理解することができます。これにより、時間の流れに沿った情報を扱うことができます。

しかし、RNNには欠点もあります。それは、記憶を遡るほど、過去の情報が結果に与える影響が小さくなることです。例えば、「ネズミが」「猫に追われている」という情報に加えて、「犬も加わった」というシーンを生成したい場合、RNNではネズミの情報が後の生成結果に十分に反映されないことがあります。これが、長期間の依存関係をうまく処理できない理由です。

理由は時間情報により、記憶が近いほど、結果に影響を及ぼす割合が大きく、遠いほど、少ない

RNNの課題と進化

RNNは時間的なデータを扱うのに適していますが、長期的な依存関係（例：数十単語前の文脈）がある場合、情報を保持し続けるのが難しいという課題があります。これを解決するために登場したのが、LSTM（長短期記憶）GRU（ゲート付きリカレントユニット）です。

具体例：

前の例と同じく、記憶が薄れて、天気の話であることを忘れてしまいます。

LSTM（長短期記憶）とは？

LSTM（Long Short-Term Memory）は、RNN（循環神経ネットワーク）の一種で、長期的な依存関係を学習するために開発されました。RNNは時間的な情報を扱うことができる一方で、時間が長くなると「過去の情報を忘れてしまう」という欠点がありました。これを勾配消失問題と呼びます。LSTMはこの問題を解決するために、情報を長期間保持するための仕組みを導入しています。

LSTMの構造

LSTMは、以下の4つの「ゲート」を使って情報を制御します：

忘却ゲート：前の状態をどれだけ「忘れる」かを決めます。

入力ゲート：新しい情報をどれだけ「取り入れる」かを決めます。

セル状態：長期的な記憶を保持するための情報です。

出力ゲート：次の隠れ状態にどれだけ情報を「出力する」かを決めます。

これらのゲートにより、LSTMは重要な情報を長期間保持し、不要な情報を忘れることができます。これにより、長期的な依存関係をうまく学習することができます。

GRU（ゲート付き再帰ユニット）とは？

GRU（Gated Recurrent Unit）は、LSTMを簡略化したモデルです。LSTMと似たような目的で使われますが、構造が少し異なります。GRUは「リセットゲート」と「更新ゲート」という2つのゲートを使って、どの情報を保持し、どの情報を忘れるかを決めます。

GRUの特徴

シンプルな構造：LSTMよりも少ないゲートを使用しており、計算が簡単で、訓練が早いことがあります。

短期的な依存関係も学習可能：GRUは、LSTMに比べてより簡潔でありながら、同様に長期的な依存関係を学習できます。

GRUはLSTMに比べてパラメータが少ないため、計算資源を節約したい場合や、データセットが小さい場合には有利です。

LSTMとGRUの違い

LSTMは、4つのゲートを使って情報を制御する複雑な構造を持ちます。

GRUは、2つのゲートで構成されており、LSTMよりシンプルで計算が速いことがあります。

どちらも、RNNが苦手な長期依存の学習を得意とし、自然言語処理や音声認識などのタスクでよく使われます。

LSTMとGRUを使う場面

長期的な依存関係が重要なタスク（例：文章生成や翻訳など）では、LSTMやGRUを使用することが多いです。

シンプルなデータや短期的な依存関係の場合、GRUの方が計算が早く、効率的に学習できることがあります。

どちらを使うかは、タスクやデータに応じて選ばれますが、一般的にどちらも強力な性能を持っています。

まとめ

LSTMとGRUは、どちらもRNNの改善版であり、長期依存を学習できる能力を持っています。

LSTMは、4つのゲートを使って情報を制御する複雑なモデルであり、GRUは、シンプルで計算が速いモデルです。

両者は、自然言語処理や音声認識など、時間的な依存関係を学習するタスクで広く使用されています。

どちらを選ぶかは、タスクの性質や計算リソースに依存しますが、両者とも強力なモデルです。

4.Transformerモデル

Transformerモデルは、特に言語を扱うAI（人工知能）でよく使われている技術です。ここでは、複雑な数式や技術的な詳細は避け、直感的に理解できるように説明します。

1. Transformerモデルって何？

Transformerは、文章や音声、画像など、さまざまなデータを処理するためのAIモデルです。特に「自然言語処理」（例えば、文章の翻訳や要約、質問応答）に非常に優れています。

従来のAIモデルは、データを順番に処理する「逐次的な方法」を使っていましたが、Transformerは「一度に全体を見る」方法を採用しています。これにより、より効率的に、より正確に情報を処理できるようになりました。

2. Transformerモデルの特徴

a. 一度に全体を見る（Attention）

従来のモデルでは、文章を前から順番に読み解くことが多かったのですが、Transformerは「全体を同時に見る」ことができます。これにより、文の意味をより深く理解できるのです。

例えば、「彼は毎日公園に行くが、今日は雨が降っているので行けない。」という文章で、「今日は雨が降っている」という部分が「彼が行く」という部分に影響を与えることを理解します。このように、文章の中の関連する部分に注目することができるのです。

b. パラレル処理

Transformerは情報を並行して処理できるため、非常に高速です。これにより、大量のデータを短時間で扱うことが可能になっています。

4. Transformerモデルの仕組み

Transformerの基本的な構成は以下の2つの部分です：

エンコーダ（Encoder）

入力された文章を理解し、その意味を内部的に表現します。

文章の単語やフレーズ同士の関係を把握します。

デコーダ（Decoder）

エンコーダが出力した情報を元に、結果（例えば翻訳された文章）を生成します。

エンコーダとデコーダは、注意深く関連する部分を見つけ出して、適切な出力を生成する役割を担っています。

RNNを基にTransformerを理解する

TransformerモデルはRNNの順番依存のアーキテクチャを変えて、位置情報を使って並列的にデータを処理するというふうに理解してもいいです。このように、時間情報を位置情報に変換し、逐次処理を同時処理に変換することで、RNNの限界を克服しています。

5.Transformerモデルと人間の言語学習の共通点

まず、映画トランスフォーマーを想像してください

トランスフォーマーは「車を分解して変形ロボットを作る」プロセスと同じ

1. エンコーダー（車を分解し、関係を学ぶ）

エンコーダーは、車を部品ごとに分解するエンジニアのような役割です。

例えば、車のエンジン、車輪、ドアなどのモジュールを分けて、それぞれがどのように関係しているのかを解析します。

車輪と車軸はどう接続されているのか？

エンジンはどのように車輪を駆動するのか？

ドアはどの位置で車体と接続するのか？

エンコーダーは、各モジュールと他のモジュールとの関係性を「設計図」にまとめます。

2. デコーダー（設計図をもとに変形ロボットを組み立てる）

デコーダーは、エンコーダーが作成した「設計図」を受け取り、それをもとに新しい構造を考えます。

変形ロボットを作るには、どのモジュール間の関係を保つべきか？

モジュールの配置や接続方法をどのように変えるべきか？

こうして、デコーダーは設計図を参考にしながら部品を再構築し、最終的に「変形ロボット」を完成させます。

トランスフォーマーにおける実際の動作

エンコーダー：入力データ（例：文章）を基本単位（単語や単語片）に分解し、その間の関係（文脈での依存関係など）を学習します。

デコーダー：エンコーダーで学習した関係を活用し、情報を再構成して出力（例：翻訳された文章）を生成します。

このように、エンコーダーとデコーダーを「車を分解して変形ロボットを作る」という例えで説明すると、トランスフォーマーの仕組みをより直感的に理解できます！

Transformerモデルは、自然言語を処理する際の仕組みが、人間が新しい言語を学習し理解するプロセスと非常に似ています。以下にその共通点を整理して解説します。

1. 注意を割り振る仕組みが人間と類似している

Transformerモデルの重要な特徴である**注意機構（Attention）**は、人間が情報を理解する際のプロセスに近い働きをします。

例えば、人間が文章を読むとき、すべての単語を同じように重要視するわけではありません。

*主語、動詞、目的語（主述補）**のような重要な部分にまず注意を集中させます。

一方で、副詞や修飾語といった補助的な情報には注意を抑えます。

Transformerモデルも同様に、Self-Attentionによって、文章中の単語同士の関連性を動的に計算し、重要度を反映した重み付けを行います。

例文で考える：

「可愛い猫が可哀想なネズミを追いかけている。犬も彼を追っている。」

人間の理解プロセス：

主述補を最初に把握する

主文：「猫がネズミを追いかけている」という主要な意味を最初に理解します。

追加情報を処理する

副文：「犬も彼を追っている」が補足情報として読み取られます。

指示語の解釈

「彼」が何を指すのかを判断するため、文全体を参照します。ここでは「ネズミ」と判断するのが自然です。

Transformerの動作：

Self-Attentionで重要な単語を特定する

「猫」「ネズミ」「追う」の関連性に高い重みを割り当てます。

文脈を参照して曖昧性を解消

「彼」が指す対象を、文全体の情報を用いて「ネズミ」と判断します。

2. 言語学習プロセスとの共通点

(1) 単語学習と情報の分解

人間が言語を学ぶ際、最初に単語を覚えるプロセスは、Transformerが文章を解析する際の「分解」に似ています。

Transformerでは、単語をモデルが理解できる**埋め込みベクトル（Word Embedding）**に変換して処理を開始します。

(2) 文法学習と単語間の関係構築

次に、人間は文法を学び、単語同士の関係を理解します。

主述補のような骨格を先に把握し、修飾語や副詞を補足情報として取り扱います。

Transformerも、単語間の関係を把握するために位置情報（Positional Encoding）とSelf-Attentionを使用します。これにより、文全体の構造を正確に解析します。

3. Transformerと人間の文解析の流れの比較

例文：「可愛い猫が可哀想なネズミを追いかけている。犬も彼を追っている。」

人間の場合：

主述補を最初に把握

「猫がネズミを追いかけている」という主要な構造を理解。

補足情報を処理

「犬も彼を追っている」を補足情報として理解。

文脈で指示語を補完

「彼」が指す対象を文全体の意味から判断。「ネズミ」と解釈する。

Transformerの場合：

Self-Attentionで重要な単語を特定

各単語間の関連性を計算し、「猫」「ネズミ」「追う」を高い重要度として捉える。

文脈を活用して曖昧性を解消

Transformerモデルでは、位置情報(Positional Encoding）と単語の意味情報（Word Embedding）を統合することで、単語間の関連性を精密に計算し、文脈を理解します。

「彼」の指す対象を、「ネズミ」に関連性が高いと判断。

結果を再構成

適切な出力を生成。

まとめ：Transformerと人間の共通点

情報の分解と再構築

単語の学習は分解プロセス、文法の学習は単語間の関係を構築するプロセス。

注意を重点的に割り振る

主述補などの重要な部分に集中し、補助的な情報は二次的に処理する。

文脈の利用

文全体を通じて意味を補完し、曖昧な指示語などの解釈を行う。

これにより、Transformerはまるで人間のように文脈を理解し、正確な結果を生成することが可能です。

5. Transformerモデルの応用例

Google翻訳: 他言語に文章を翻訳するために使われています。

音声認識: 音声を文字に変換する技術にも活用されています。

チャットボット: 質問に答えるAIとして、GPT-3などのモデルが使われています。

6. トランスフォーマーの画像分野への応用

これまで画像認識分野では、CNN（畳み込みニューラルネットワーク）が主流でしたが、近年ではトランスフォーマーベースのアーキテクチャが注目を集めています。

特に、Googleが2020年に発表したビジョントランスフォーマー（ViT）は、トランスフォーマーを画像認識に応用したもので、認識精度でCNNを上回る成果を示しました。これは、トランスフォーマーが持つ高い汎用性と効率性を画像分野に展開した成功例として知られています。

7.GPT：自然言語処理の進化

トランスフォーマーモデルを基盤にした代表的な自然言語処理モデルが**GPT（Generative Pre-trained Transformer）**です。このモデルは、高性能かつ汎用性の高さで注目され、多くの分野で応用が進んでいます。

進化の歴史

GPTは、GPT-2、GPT-3と進化を続け、現在の最新バージョンはGPT-4です。GPT-4は、模擬司法試験において受験者の上位10%に入るスコアを達成するなど、前バージョンのGPT-3.5に比べて大幅な性能向上を果たしました。GPT-3.5では上位10%には達しておらず、この進化のスピードがGPTの高い技術力を物語っています。

性能向上の理由

GPT-4の開発には、敵対的テストプログラムやChatGPTからのフィードバックを活用した6カ月間の調整が行われました。このプロセスにより、モデルの精度と効率が大幅に向上しました。

8. BERT：双方向エンコーディングの革新

Googleが発表したBERT（Bidirectional Encoder Representations from Transformers）は、トランスフォーマーモデルに双方向のアテンション機構を導入したモデルです。

特徴文全体を双方向から理解する能力を持ち、自然言語処理において画期的な進化をもたらしました。

学習プロセス

事前学習：ラベルなしデータを用い、マスク付き言語モデル（MLM）や次文予測（NSP）といったタスクで基礎的な学習を行います。

ファインチューニング：事前学習の成果を元に、ラベル付きデータで特定のタスクに最適化します。

9. マスク付き言語モデル（MLM）と次文予測（NSP）

MLM（Masked Language Model）文章中の単語の一部を「マスク」として隠し、その部分に適切な単語を予測するタスクです。例えば、英語の穴埋め問題のように隠れた単語を推測します。

NSP（Next Sentence Prediction）ある文章に続く次の文章が意味的に関連しているかどうかを予測するタスクです。文全体の文脈的な依存関係を学ぶために活用されます。

6. まとめ

Transformerは、AIが文章を理解し、生成するための強力な技術です。文章の全体を一度に把握できるため、非常に効率的で高精度な結果を出すことができます。これにより、翻訳、質問応答、文章生成など、さまざまな分野で革新的な進展がありました。

言語に関連する作業が得意なTransformerは、今後も私たちの日常生活に深く関わってくるでしょう。

生成AIの出力に関するポイント

1. アラインメント

定義: モデルが人間の意図に沿った出力を生成すること。

目的: モデルが人間の求める具体的な振る舞いを実現するように学習。

具体的な手法:

人間のフィードバックによる強化学習（RLHF）

「RL（強化学習）」＋「HF（ヒューマンフィードバック）」を組み合わせた手法。

AIが生成した応答文に報酬を与え、学習を進める。

インストラクションチューニング

人間がモデルに具体的な指示を与えて振る舞いを修正する学習手法。

プロンプトチューニングとの違い:

インストラクションチューニング: モデル学習時の手法。
プロンプトチューニング: モデル利用時の手法。

2. ハルシネーション（虚偽や誤りの出力）

問題点:

AIは悪意なく、間違いや虚偽情報を出力する場合がある。
嘘や誤りが含まれると、偽ニュースや誤情報拡散の危険性が生じる。

原因:

学習データの誤り: 偏見やフィクション情報を学習する。

文脈重視の回答: 正確性よりも文脈に合う回答を優先。

情報の古さ: 最新情報が学習データに含まれていない。

情報の推測: 無理に回答を生成し、誤った内容を含む場合がある。

対策:

プロンプトで「自信のないことは出力しない」「出力の根拠も含める」ように指示。
最新情報を利用する場合は、学習データの更新や外部データの活用が必要。

3. 生成AIの動向

マルチモーダル化の進展

定義: テキスト、画像、音声など複数の形式（モーダル）を同時に扱うモデル。
例: テキストから画像を生成する「DALL-E」など。
進展理由:

データの多様性: デジタル化された情報が豊富。

自然な人間とのインタラクション: テキストだけでなく、画像や音声も含む複数モーダルでの情報伝達が自然。

4. 使用時の注意点

情報の時間的制約:

GPT-3.5: 2021年9月までの情報を学習。
GPT-4: 2023年4月までの情報を学習。

透明性の課題: 大規模なモデルでは、予測の根拠が不透明な場合がある。

以上のように、生成AIの活用における課題とその対策、そして最新動向を理解することが重要です。