2023年5月8日
あっという間に過ぎてしまった一日。あっ。
そういえばアイシア動画のGPTシリーズを何故か見ていなかったことに気づいたので1.5倍速で観る。PCで見ていたのでメモ書き。やっぱり解りやすいなぁ。
- GPT
- https://www.youtube.com/watch?v=wDXPXgn5hX4
- あれ、BERTよりGPTのほうが前だったのか
- 何故革命だったか解りやすい。pretrain & fine-tune。BERTの凄さと同じなのだけど。
- Transformer の構造は巨大にしても学習がスケールする。という法則が今のGPT-4やLLMで今のところスケールし続けていてまじスゴイな。
- GPT2
- https://www.youtube.com/watch?v=3BUk7mtf10M
- 48 layers、1.5B params で超巨大!というのが時代だなあ
- 巨大なパラメータに加え、巨大なデータセットを作った、というのがスゴイとこなのかー
- 量・質・幅(様々なジャンルを網羅)のデータセットが大切
- 質の担保にはReddit の 3karam 以上の link をデータセットに。なるほど!
- 800万リンク、40GB と当時としては最大規模
- 教師データ無しで、教師データありのを超えてSoTAやSoTA並も達成
- この時点で、割と何でもできるモデルとして認識される
- なるほど、言語モデルをデカくすれば、性能が更に上がると予想されていた、というポテンシャルもスゴさの一つだったのか
- GPT3
- https://www.youtube.com/watch?v=CBZWzQVcXE4&list=RDCMUC2lJYodMaAfFeFQrGUwhlaQ
- 動画①-1
- Few-Shot が出てきたのもここから。
- 構造は GPT-2 + Sparse Transformer
- パラメータが 1.5B(GPT-2) → 175B(GPT-3), 96 layers。超でかい。
- データ
- Common Crawl, WebText2, Books1,2, Wikipedia で 600GB
- 学習にめちゃカネがかかる
- 投資判断した経営すごいよねー。
- Sparse Transformer なるほど。図にされると解りやすいなぁ。
- 動画①-2
- pretrain & fine-tune(FT) するのめんどいよねー、というわけで Few-Shot
- この頃(2022年初頭)「prompt」という言葉を聞いたけど、最初イマイチよくわからなかったのだよなー。今は当たり前になったのであった。
- FTしなくてよい、というのがブレイクスルー。どんなタスクでもちょいFew-Shotのprompt書くだけで良い。
- In Context Learning
- SoTA 多し。Few-Shot になると更に多い。
- 比較は苦手。WiC in SuperGLUE / NLI など。
- 記事生成のクオリティが人間並
- 動画②
- GPT-3の限界・現状苦手な話
- 人間によるフィードバック強化学習やマルチモーダル学習はGPT-4でされている
- 今はGPT-4でだいたい解決されてるよねー、というのがスゴイ。
- 動画③
- AIによるバイアス、めちゃヤバイので当然考慮しなければならない
- AIの力はすごすぎるから、適正なに利活用をする義務がある。
- 悪用方法・バイアス事例を知ることで、誤用を防ぐ
- 性別・宗教・人種等々。
- 介入して是正
- バイアスは指標だけではカバーできない
- 巨大言語モデルはどうあるべきかを議論
- 学習にかかるエネルギー
- SDGs的な問題