GPTシリーズ・動画メモと学び / 2023年5月8日

あっという間に過ぎてしまった一日。あっ。

そういえばアイシア動画のGPTシリーズを何故か見ていなかったことに気づいたので1.5倍速で観る。PCで見ていたのでメモ書き。やっぱり解りやすいなぁ。

GPT
- https://www.youtube.com/watch?v=wDXPXgn5hX4
- あれ、BERTよりGPTのほうが前だったのか
- 何故革命だったか解りやすい。pretrain & fine-tune。BERTの凄さと同じなのだけど。
- Transformer の構造は巨大にしても学習がスケールする。という法則が今のGPT-4やLLMで今のところスケールし続けていてまじスゴイな。
GPT2
- https://www.youtube.com/watch?v=3BUk7mtf10M
- 48 layers、1.5B params で超巨大！というのが時代だなあ
- 巨大なパラメータに加え、巨大なデータセットを作った、というのがスゴイとこなのかー
  - 量・質・幅(様々なジャンルを網羅)のデータセットが大切
  - 質の担保にはReddit の 3karam 以上の link をデータセットに。なるほど！
    - 800万リンク、40GB と当時としては最大規模
- 教師データ無しで、教師データありのを超えてSoTAやSoTA並も達成
- この時点で、割と何でもできるモデルとして認識される
- なるほど、言語モデルをデカくすれば、性能が更に上がると予想されていた、というポテンシャルもスゴさの一つだったのか
GPT3
- https://www.youtube.com/watch?v=CBZWzQVcXE4&list=RDCMUC2lJYodMaAfFeFQrGUwhlaQ
- 動画①-1
- Few-Shot が出てきたのもここから。
- 構造は GPT-2 + Sparse Transformer
  - パラメータが 1.5B(GPT-2) → 175B(GPT-3), 96 layers。超でかい。
- データ
  - Common Crawl, WebText2, Books1,2, Wikipedia で 600GB
- 学習にめちゃカネがかかる
  - 投資判断した経営すごいよねー。
- Sparse Transformer なるほど。図にされると解りやすいなぁ。
- 動画①-2
- pretrain & fine-tune(FT) するのめんどいよねー、というわけで Few-Shot
  - この頃(2022年初頭)「prompt」という言葉を聞いたけど、最初イマイチよくわからなかったのだよなー。今は当たり前になったのであった。
- FTしなくてよい、というのがブレイクスルー。どんなタスクでもちょいFew-Shotのprompt書くだけで良い。
  - In Context Learning
- SoTA 多し。Few-Shot になると更に多い。
  - 比較は苦手。WiC in SuperGLUE / NLI など。
- 記事生成のクオリティが人間並
- 動画②
- GPT-3の限界・現状苦手な話
  - 人間によるフィードバック強化学習やマルチモーダル学習はGPT-4でされている
  - 今はGPT-4でだいたい解決されてるよねー、というのがスゴイ。
- 動画③
- AIによるバイアス、めちゃヤバイので当然考慮しなければならない
- AIの力はすごすぎるから、適正なに利活用をする義務がある。
- 悪用方法・バイアス事例を知ることで、誤用を防ぐ
  - 性別・宗教・人種等々。
  - 介入して是正
  - バイアスは指標だけではカバーできない
  - 巨大言語モデルはどうあるべきかを議論
- 学習にかかるエネルギー
  - SDGs的な問題

A Day in the Life

GPTシリーズ・動画メモと学び / 2023年5月8日

同じ日付の日記