佐山公一教授

社会情報学科

＜担当科目＞
認知科学Ⅰ、認知科学Ⅱ、応用情報論Ⅱ

佐山　公一教授
SAYAMA Kohichi

生成AIで初めてできるようになったこと，過去のAIにはできなかったこと

　授業では、生成AIのしくみをイメージできるようにすることを目的としています。生成AIについて、単に用語や機能を覚えるのではなく、生成AIがどのようなしくみで動いているのかを、自分の頭の中で思い描けるようになることを目指しています。認知科学の言葉でいうと、生成AIのメンタルモデルをつくることが授業の目標です。
　以下の文章の図解も作りました。画像で理解する方が得意という人は、図解を先に見てみてください。
　以下の文章のもっと詳しい説明を以下のホームページに載せる予定でいます。
https://kohichi.jimdofree.com 「生成AIは史上最強の占い師である」生成AIと推測統計学
https://kohichisayama.jimdofree.com 「人間の強みは生成AIの弱み」認知科学と脳科学
https://kohichi-sayama.jimdofree.comm インターネットメディアのリテラシー

記事のポイント

　このインタビュー記事は、生成AI（ChatGPTなど）のしくみを詳しく説明しています。以下のポイントを読むと分かりやすくなります。

■ポイント1：メンタルモデル

　生成AIを使うときは、「中でどう動いているか」をイメージすることが大切です。

■ポイント2：昔のAIとの違い

　昔のAIは、人がルールを決めていました。
　今の生成AIは、自分でパターンを学びます。

■ポイント3：生成AIのしくみ

　生成AIは、「次に来そうな言葉」を確率で予測しています。
　文の流れ（文脈）を見て、一番自然な言葉を選びます。

■ポイント4：生成AIでできること

　・メール作成
　・レポート採点
　・企画書作成
　人や会社に合わせてカスタマイズできます。

■ポイント5：生成AIの強み

　・個人に合わせられる
　・言葉と数字を同時に分析できる

■ポイント6：人間との違い

　人間：学びながら考える
　生成AI：学習と実行が分かれている

■教員からのメッセージ：インタビューで教員が言いたかったこと

　生成AIは「未来を予測する超優秀な占い師」のようなものです。
　しくみを理解すると、より上手に使えるようになります。

メンタルモデル
　ここでいうメンタルモデルとは、生成AIを使うときに、「このAIは内部でどのような処理をしているのか」「なぜこのような回答が返ってくるのか」「どのような場面で有効に使えるのか」を、おおまかにでも予想できるようになるための考え方です。生成AIのしくみを完全に数学的に理解することが目的ではなく、数学を使わないで、生成AIのソフト的なしくみを視覚化し、直感的に理解できるようにすることを重視しています。

従来のAI
　2000年代までの過去のAIと認知心理学は、共通の考え方をしていました。過去のAIでは、人間があらかじめルールやプログラムを書き、そのルールに従ってコンピュータが処理を行っていました。たとえば、「丸い形があり、目があり、耳があれば猫である」といった特徴を、人間が先に決めておきます。あるいは、「音の高さがこのように変化すれば母音である」といった特徴を、人間が定義します。このように、過去のAIでは、どの特徴に注目するかを人間が決めていました。
　現在の生成AIは、これまでのAIとは異なる特徴を持っています。以下、生成AIのしくみを視覚化して分かりやすく紹介します。
　生成AIと認知心理学・脳科学とは、出発点や発想は同じです。重要なのは、生成AIが人間の情報処理を単純に再現しているわけではなく、「同じ方向性から出発している」という点です。

生成AIがもたらす仕事の効率化：ホワイトカラー業務の変化
　事務職、いわゆるホワイトカラーの仕事の効率化の歴史を見ると、大きく三つの段階があります。第一段階はクラウドサービスです。クラウドサービスによって、どこでも作業ができるようになりました。たとえば、確定申告のような作業もクラウド上で完結できるようになりました。この段階では、すべての人に共通する仕事を効率化することが中心でした。

　第二段階は従来型AIです。従来型AIには、BIツールやRPAなどが含まれます。これらは、定型業務を自動化することを得意としています。たとえば、RPAやBIツールを使えば、データ入力や集計といった定型的な仕事を自動化し、時間を短縮できます。従来型AIは、複雑ではあるがプログラムに書ける定型業務を自動化するためのものです。

　第三段階が生成AIです。生成AIは、個人や組織に最適化することができます。たとえば、メール作成、企画書作成、採点の自動化などに使うことができます。従来のクラウドサービスや従来型AIが、共通の仕事を効率化するものであったのに対し、生成AIは個人ごとの仕事を効率化します。ここが大きな違いです。

生成AIの個別化能力
　生成AIと従来型AIの違いを整理すると、過去のAI、たとえばBIツールやRPAなどは、複雑だがプログラムに書ける定型業務を自動化し、時間を短縮するものでした。これに対して、現在の生成AI、たとえばGPTやGeminiなどは、「あなたっぽいメールを作る」「あなたの会社に合う企画書を書く」「あなたの視点基準でレポート評価する」といったことができます。つまり、生成AIは、組織の文化や個人の好みを反映し、個人の能力を最大化できます。
　生成AIが得意なことの一つは、個別化・個性化です。生成AIは、企業文化や個人の好みの情報が入った独自データベースを活用することによって、特定の組織や個人にしかできない仕事、あるいは正解が人によって違う仕事を効率化できます。たとえば、同じメールを書く場合でも、人によって文体や表現の好みは異なります。同じ企画書を作る場合でも、会社ごとの文化や判断基準によって、望ましい内容は変わります。生成AIは、このような違いに合わせて出力を変えることができます。

数値と言葉を同時に分析する
　もう一つ、生成AIが得意なことは、数値と言葉の同時分析です。生成AIは、数値データと言葉のデータを同時に分析し、より正確な未来予測を行うことができます。Web上の膨大な言葉から（重みを）学習したLLM、大規模言語モデルを使うからこそ、言葉を扱う精度を高くできるようになっています。従来のAIでは、数値データの分析と言葉の分析が分かれていることが多かったですが、生成AIでは、両者を結びつけて処理できます。

生成AIの強み：個別化
　過去のAIは、共通のルールで動き、個人の違いを反映することが困難でした。生成AIは、個人ごとに最適化するAIです。組織のルールや個人の好みを学習し、あなたに合わせたAIになります。たとえば、自分らしいメールを書く、会社独自の企画書を作る、自分の採点基準でレポート評価を行う、といった使い方ができます。

生成AIの応用例：レポート採点
　　生成AIの活用で広がる可能性の例として、レポート採点があります。従来の採点では、教員がレポートを一つずつ読んで点数をつける必要がありました。そのため、時間がかかり、採点基準がぶれる可能性もありました。
　　生成AIを使った採点では、ワンクリックでAIが採点し、結果をExcelに出力することができます。教員は、AIが出した成績を確認する役割になります。これによって採点が効率化され、採点基準も一定になりやすくなります。

生成AIの基本原理：次に来そうな単語を予測する
　生成AIの基本的なしくみは、「次に来そうな単語」を予測することにあります。たとえば、「昨日、図書館で本を〇〇。」という文があったとき、人間は文脈から「借りた」だろうと予想します。この場合、「借りた」は高い確率で次に来る単語であり、「返した」や「読んだ」はやや低い確率、「失くした」は低い確率になります。生成AIも同じように、次に来る可能性のある単語を確率的に予測しています。

　別の例として、「昨日、コンビニで弁当を〇〇。」という文を考えてみましょう。この場合、人間は「買った」だろうと予想します。「買った」は高い確率で次に来る単語であり、「食べた」はやや低い確率、「落とした」は低い確率になります。このように、生成AIは、文脈の中で次に来そうな単語の確率を計算しています。

文脈依存の出力
　ただし、「次に来そうな単語」は、その場の状況によって決まります。たとえば、ユーザーが「明日の天気は？」と聞いたとき、生成AIは「晴れ」「曇り」「雨」といった候補を出す可能性があります。どれを出すかは、ユーザーの状況や文脈によって決まります。生成AIは、単語を機械的につなげているだけではなく、その場で与えられた文脈をもとに、次に来る言葉を選んでいます。

認知科学との関係
　生成AIを理解するためには、過去のAIの歴史と、認知科学、つまり人間の情報処理の考え方との関係を理解することが重要です。この二つの関係を理解すると、生成AIの技術的な背景が分かります。過去のAIの歴史を知ることと、人間がどのように情報を処理しているのかを知ることが、生成AIの理解につながります。

人間の知覚処理
　人は、ものを見るとき、部分に分けて見ています。「知覚的群化」と呼ばれる認知心理学の研究があります。たとえば、たくさんの線や図形が並んでいるとき、人間はどこに境界があるかを自然に見分けることできます。

脳と情報処理
　視覚イメージは、後頭部の第一次視覚野、V1に行き、そこからV2、V3へと運ばれます。人間の視覚情報は、脳の中で段階的に処理されています。

　人の視覚情報は、大脳で処理されます。旧脳ではなく、大脳にあります。直感的な判断で使う情報は膨大であるため、進化の過程で大脳に移されたのです。人間がものを見て判断するとき、その背後では非常に多くの情報が処理されています。情報の全体像はまだよく分かっていませんが、それでも生成AIは人間と同じような出力を出します。

学習と推論の違い
　ここで重要なのは、人間の脳と生成AIでは、学習と推論のあり方が違うという点です。人の脳では、学習と推論が混ざっています。人間は、学びながら考え、考えながら学んでいます。これに対して、生成AIでは、学習と推論が明確に分かれています。生成AIには、学習フェーズと推論フェーズがあります。学習フェーズには、事前学習や追加学習が含まれます。推論フェーズは、実際にユーザーの入力に対して回答を生成する段階です。

過去のAIも先行文脈を研究していた：積み木世界
　1960年代のAI研究では、Terry Winogradがスタンフォード大学で行った積み木世界のプログラムが知られています。この時代のAIでは、世界を限定し、知識源を区別するという考え方がありました。そうすることによって、積み木のような限られた世界の中であれば、AIが対象を理解し、ユーザの質問に正確かつ自然な言葉で応答することができました。

生成AIとの違い
　現在の生成AIは、世界を限定しません。生成AIは、代わりに次に来そうな単語の確率を予測します。つまり、昔のAIは世界を小さく区切り、その中で正確に処理しようとしましたが、現在の生成AIは、限定されない広い世界の中で、言葉の確率を予測します。

技術的ブレークスルー
　生成AIの革新的な発明には、次の三つがあります。①言葉をベクトルにする技術、つまり埋め込みです。これによって、言葉や文章を数値に変え、言葉と数値データを同時に分析できるようになりました。②多層ニューラルネットワークの実用化です。たくさんの層を重ねることで、複雑なパターンを学習できるようになりました。③self-attentionの発明です。2017年以降、self-attentionによって、文脈をより正確に理解し、次の言葉を超高精度で予測できるようになりました。

過去のAIと生成AIの違い
　過去のAIは、人間が教えるものでした。人間がルール、つまりプログラムを書いていました。たとえば、「丸い＋目＋耳→猫」、「音の高さがこう→母音」といったように、人間が特徴を考えて決めていました。過去のAIでは、全部、人間が特徴を決めていました。
　これに対して、生成AIは特徴そのものを自分で学びます。ジェフリー･ヒントンの発想は、「特徴も自分で学ばせよう」というものであり、「自己教師あり学習」と呼ばれています。多層ニューラルネットワークによる表現学習（representation learning）によって、生成AIは特徴を人間が定義しなくても学習できるようになりました。

多層学習による特徴抽出
　たとえば、「猫」を認識する場合、過去のAIでは、「耳は三角、ヒゲがある」といった特徴を、あらかじめプログラムの中で定義しておく必要がありました。
　生成AIでは、1層目で線、2層目で角や曲線、3層目で目や耳、4層目で「あ、これは猫だ」といったように、多層的に特徴を学習していきます。
　人間の研究者が事前に定義しようとしても、定義しきれない特徴が、画像や文章の中には無数にあります。そうした特徴は、認知心理学や脳科学でも何か分かっていない部分が多いのですが、生成AIは分かっていない特徴も含めて、あらゆる特徴を自分で学びます。

GPTの基本構造
　GPTシステムの基本構造は、入力された単語をもとに、self-attentionとニューラルネットワークを繰り返し通し、最終的に次の単語の確率を出力するというものです。入力された単語は、まずself-attentionによって文脈の中での関係を処理され、次にニューラルネットワークによって変換されます。この処理が何度も繰り返され、最後に出力として、次の単語がどのくらいの確率で来るかが計算されます。

学習フェーズと追加学習
　生成AIには、学習フェーズがあります。学習フェーズには、主に事前学習と追加学習があります。事前学習は、エンジニアが行います。Web上の膨大なテキストや画像などを使って学習します。たとえば、GPT-4では2023年11月までの情報などが使われています。LLMは、重みを繰り返し計算しながら学習します。この重みには、Query、Key、Valueという三種類の重みがあります。
　追加学習は、ユーザーが行うファインチューニングです。独自データを使って、三種類の重みを調整します。必要なときだけ、反映された重みを使うことができます。つまり、通常の大規模な学習とは別に、組織や個人が持つ独自データを使って、生成AIを自分たちの用途に合わせることができます。

Self-Attentionのしくみ
　self-attention、セルフアテンションとは、文章の中のすべての言葉の関係（関連度）を考えるしくみです。たとえば、「昨日、図書館で本を借りた。」という文があるとします。この文の中には、「昨日」「図書館で」「本を」「借りた。」という言葉があります。self-attentionでは、それぞれの言葉が、他のすべての言葉とどれくらい関係があるかを計算します。これによって、単語の意味を単独で見るのではなく、文章全体の文脈の中で理解できるようになります。

ニューラルネットワークの基本
　ニューラルネットワークは、人の脳のしくみをまねた計算モデルです。人間の脳では、神経細胞がシナプスを通して情報を伝えています。人工ニューラルネットワークでは、人工ニューロンが入力を受け取り、重みを通して処理し、活性化関数を経て出力を出します。たくさんの人工ニューロンをつなげることで、複雑な計算を行うことができます。

活性化関数の役割
　ニューラルネットワークでは、入力1、入力2、…入力nといった複数の入力があり、それらが重み付きで総和され、そこにバイアスが加えられます。その後、活性化関数を通して出力が生まれます。この活性化関数の一つとして、Geluがあります。Geluは、現在の生成AIにおいて重要な役割を持つ活性化関数です。

活性化関数の比較
　活性化関数には変遷があります。シグモイド関数、Relu、Geluを比較すると、それぞれ形、傾き、特徴が異なります。シグモイド関数は、出力範囲が0から1で、S字カーブを描きます。出力が確率解釈しやすいという長所がありますが、両端で勾配が0になり、情報が消えていくため、勾配消失が起こります。そのため、多層ニューラルネットワークの学習には使えませんでした。
　Reluは、出力範囲が0から∞であり、0で折れ曲がる直線の形をしています。正の側ではそのまま流れますが、負の側では完全に0になります。計算が簡単で、勾配消失しにくいという長所がありますが、0以下では完全に切り捨てられます。そのため、使われないニューロンが出てきてしまいました。
　Geluは、出力範囲が−∞から∞であり、滑らかなS字のような形をしています。Reluより滑らかで、負の領域もわずかに通します。正の領域ではなめらかに増加し、負の領域でも少しだけ出力します。これにより、情報を滑らかに通し、学習が安定しやすくなります。Transformerで主流の活性化関数であり、Geluには情報の消失がない、あるいは情報が消えにくいという特徴があります。
　シグモイド関数は「情報が消えやすい」です。Reluは「0で切る」です。GELUは「滑らかに通す」です。生成AIでは、情報をなるべく消さずに伝えることが重要であり、その意味でGeluのような活性化関数が重要になります。

中間層の役割
　ニューラルネットワークにおいて、中間層は重要です。中間層が特徴、つまり部分を見つけることで、AIは意味を理解できるようになります。たとえば、入力層に数字の画像が入ります。中間層では、その画像から特徴を抽出します。出力層では、それが「3」である確率などを出します。
　人間の視覚システムもまず見ている対象を特徴に分けます。このことを支持する認知心理学の研究が無数にあります。

逆伝播による学習
　学習では、バックプロパゲーション、すなわち逆伝播が行われます。最初、AIの予測はすべて同じにされることがあります。たとえば「借りた」「返した」「読んだ」「失くした」という候補があり、最初はそれぞれ0。25ずつの確率になっていることがよくあります。しかし人が期待する出力は、「借りた」が0。50、「返した」が0。30、「読んだ」が0。15、「失くした」が0。05です。このとき、AIの出力と期待する出力との誤差をもとに、中間層の重みを調整します。そうして、出力が期待値に近づくように学習します。これが逆伝播です。誤差は入力と出力の数値を微分することによって計算します。
　人間の脳にはバックプロパゲーションのような処理のしくみはありません。

推論と会話生成
　推論フェーズは、会話そのものです。ユーザーが質問や相談を入力すると、生成AIは文脈を理解し、次の言葉を予測します。そして回答を生成します。生成AIは、人が会話をしているときに行っている「オンライン処理」、つまりその場での文脈理解をよくまねできます。

生成AIは超優秀な占い師である
　生成AIは超優秀な占い師とよく似ています。人間の占い師は、過去の情報を見て、今の相手の様子を見て、相手の未来を予測します。生成AIも同じように、学習データと現在の文脈から、それらしい未来を予測します。ただし、生成AIは、学習と推論が明確に分かれているが大きく異なっています点。

まとめ
　生成AIは、次に来る言葉を正確に予測します。言葉の理解は確率判断です。生成AIは、数値と言葉を同時に分析できます。チャット時には、学習済みのLLMを使います。
　生成AIのしくみをイメージできると、生成AIのしくみが分かります。しくみが分かると、使い方を工夫できます。使い方を工夫できると、応用の幅が広がります。応用の幅が広がると、問題解決の精度と効率が上がります。そのため、授業では、生成AIのメンタルモデルを一人ひとりが持てることを重視しています。

授業の目標
　授業の目的は、生成AIのしくみをイメージで理解できるようにすることです。数学を使わないで、生成AIのソフト的なしくみを視覚化します。そして、生成AIで個人ができることを最大化することが目標です。
　授業の目標は、生成AIのソフト的なくみをイメージすること、そして自分だけのメンタルモデルを持つことです。自分なりに生成AIのしくみを理解できるようになると、何に使えるかを予想でき、応用の幅が広がります。生成AIを単に便利な道具として使うだけでなく、その内部で何が起きているのかをイメージできるようになることが、生成AIを効果的に使うための第一歩です。
図解（資料）

教員インタビュー 佐山公一教授

生成AIで初めてできるようになったこと，過去のAIにはできなかったこと

記事のポイント

教員インタビュー　佐山公一教授