A Day in the Life

寒い5月・バソキヤ・テキスト分類器 / 2023年5月9日

5月になったというのに、昨日今日は底冷えして、電気スリッパを使ったり暖房を付けたりの日々。


昼食のバソキヤ。


OpenAI の embeddings 精度良いよなー、文字数(tokens)が少ないとコストがやたら安いのも良い。GPT3.5なんかは送信tokens,返却tokensにコストが掛かるが、embeddingsは1532次元のベクトル自体の返却コストは0円。

かんがえをまとめるデジタル文房具Kozaneba をたまたま見て、そういえばKJ法的なまとめにクラスタリングして、みたいなのもembeddings使えば簡単だろうし便利そう。

通常のクラス分類って距離が伝わることが少なくA or Bみたいな見え方(せいぜいテキストのソート)でUIとして提供されるが、実際は A...(このへん).......B みたいな場合も多く、そういうときに付箋の空間座標使ったマッピングは便利そうだよなぁ。そのうちMiroに実装されたりするのだろうが。


今日の趣味時間は、だいたいテキスト分類器を作っていた。久しぶりにTransformersを使ったら、使い方忘れていて単純な実装なのに少々時間がかかってしまった。手を動かしてやるごとに、ちょこちょこと発見があって楽しい。

撮影機材ricoh gr iiix

GPTシリーズ・動画メモと学び / 2023年5月8日

あっという間に過ぎてしまった一日。あっ。


そういえばアイシア動画のGPTシリーズを何故か見ていなかったことに気づいたので1.5倍速で観る。PCで見ていたのでメモ書き。やっぱり解りやすいなぁ。

  • GPT
    • https://www.youtube.com/watch?v=wDXPXgn5hX4
    • あれ、BERTよりGPTのほうが前だったのか
    • 何故革命だったか解りやすい。pretrain & fine-tune。BERTの凄さと同じなのだけど。
    • Transformer の構造は巨大にしても学習がスケールする。という法則が今のGPT-4やLLMで今のところスケールし続けていてまじスゴイな。
  • GPT2
    • https://www.youtube.com/watch?v=3BUk7mtf10M
    • 48 layers、1.5B params で超巨大!というのが時代だなあ
    • 巨大なパラメータに加え、巨大なデータセットを作った、というのがスゴイとこなのかー
      • 量・質・幅(様々なジャンルを網羅)のデータセットが大切
      • 質の担保にはReddit の 3karam 以上の link をデータセットに。なるほど!
        • 800万リンク、40GB と当時としては最大規模
    • 教師データ無しで、教師データありのを超えてSoTAやSoTA並も達成
    • この時点で、割と何でもできるモデルとして認識される
    • なるほど、言語モデルをデカくすれば、性能が更に上がると予想されていた、というポテンシャルもスゴさの一つだったのか
  • GPT3
    • https://www.youtube.com/watch?v=CBZWzQVcXE4&list=RDCMUC2lJYodMaAfFeFQrGUwhlaQ
    • 動画①-1
    • Few-Shot が出てきたのもここから。
    • 構造は GPT-2 + Sparse Transformer
      • パラメータが 1.5B(GPT-2) → 175B(GPT-3), 96 layers。超でかい。
    • データ
      • Common Crawl, WebText2, Books1,2, Wikipedia で 600GB
    • 学習にめちゃカネがかかる
      • 投資判断した経営すごいよねー。
    • Sparse Transformer なるほど。図にされると解りやすいなぁ。
    • 動画①-2
    • pretrain & fine-tune(FT) するのめんどいよねー、というわけで Few-Shot
      • この頃(2022年初頭)「prompt」という言葉を聞いたけど、最初イマイチよくわからなかったのだよなー。今は当たり前になったのであった。
    • FTしなくてよい、というのがブレイクスルー。どんなタスクでもちょいFew-Shotのprompt書くだけで良い。
      • In Context Learning
    • SoTA 多し。Few-Shot になると更に多い。
      • 比較は苦手。WiC in SuperGLUE / NLI など。
    • 記事生成のクオリティが人間並
    • 動画②
    • GPT-3の限界・現状苦手な話
      • 人間によるフィードバック強化学習やマルチモーダル学習はGPT-4でされている
      • 今はGPT-4でだいたい解決されてるよねー、というのがスゴイ。
    • 動画③
    • AIによるバイアス、めちゃヤバイので当然考慮しなければならない
    • AIの力はすごすぎるから、適正なに利活用をする義務がある。
    • 悪用方法・バイアス事例を知ることで、誤用を防ぐ
      • 性別・宗教・人種等々。
      • 介入して是正
      • バイアスは指標だけではカバーできない
      • 巨大言語モデルはどうあるべきかを議論
    • 学習にかかるエネルギー
      • SDGs的な問題

百華園・本質を捉えたデータ分析のための分析モデル入門 / 2023年5月7日

昼前に昨年同じデザイン事務所で家を建てた方の邸宅にお邪魔させてもらい、いろいろお話を伺わせてもらう、ありがたい。その後はO家に教えてもらっていた百華園でランチ。初めて行くお店で、名物カツ餃子をいただく。カツなのに餃子タレにつけて食べる、なるほど面白い料理だなぁ。


データサイエンスVTuberアイシア=ソリッドのマスターこと杉山聡氏が書いた書籍本質を捉えたデータ分析のための分析モデル入門を最初ぱらっと読んだまま積読してので、ちゃんと読み返す。データを分析するための線型回帰〜応用、機械学習や深層学習、その他データサイエンス関連技術がほとんど網羅されていて、かつ分かり易くて素晴らしいなぁ。とりわけ自分が手を動かして全くやったことがない分野、強化学習の項などを読んで、やっぱり手を動かして一度はなんかやってみないと、強化学習の応用なんかもイメージがつかなさそうだなーと再認識。ゲームAI以外にもたくさん応用できそうだし。他にも自分の知識が浅いところは、わかりやすい説明で理解が進んだり、幅広く書かれていて知らないこともまだまだあったりと、とても良い本であった。

ただ勿体無い思うのは「分析モデル入門」という書籍タイトルで、シリーズ物だからしょうがないとは言え、本書ではデータサイエンス全般を広く取り扱っているのに、タイトルから範囲が狭いイメージをうけてしまいそう。自分はアイシア=ソリッド動画を観ているため、狭いと言うことはないのだろうなと解っていたが、書籍のタイトルで読者層を狭めていたら勿体無いなぁ。

撮影機材RICOH GR III

サタデー・ナイト・フィーバー / 2023年5月6日

今日は天気予報では雨模様だったので、ガッツリ仕事の一日。が、雨は殆ど降らなかったのであった。


おやつはティラミスタルト試作。


夜はウォッチリストに入れていた、サタデー・ナイト・フィーバーを土曜夜でもあるし観る。

ダンスバトルでディスコのテッペンを決めるぜ!みたいな男気あふれるバトル話ではなかったが、主にBee Geesの名曲ばかりでアツい。1970年代の美術も良い。映画が終わったら、すぐに自分も妻も映画の関連情報を調べ始めるし、すぐさまサントラを聞き出すし、ぐらいの面白さ。いやー、なんで今まで観ていなかったのだろう。

「フィーバー」という単語は日本だと本来の発熱という意味が消えて、興奮・熱狂的な意味のみで使われていると思うんだけど、この映画名が大元だったんだなぁ。

撮影機材α7C/FE 55mm F1.8 ZA

バーベキュー・初のユニフレームSOLO / 2023年5月5日

今日もだいたいオクトパストラベラーIIをして過ごしていたのだけど、そういえば最近外でバーベキューやってなかったなと、重い腰を上げて今年初のバーベキュー。久しぶりすぎて色々と思い出すまで時間がかかってしまう。

ユニフレームのファイアグリル、買ったのが一人用のSOLOだった(写真では、ぱっと見小さいのかどうかわからなかった…)ので、二人でやるには結構小さいのだよなぁ。便利なので普通のファイアグリルを買っても良いのかもしれない。

撮影機材α7C/FE 55mm F1.8 ZA

garden AUX PARADIS・芦野散策・清水魚園焼肉 / 2023年5月4日

garden AUX PARADISへ。GWなので早めにと、開店20分前に行って10組目。ほんと早めに行っておいてよかった。庭が徐々に作られてきている感じで、毎度行くたびにちょっとずつ変化があって楽しい。


その後は芦野を歩く。田舎の里という感じで、ブラブラするだけで楽しい。最近は山藤が見頃だ。


夜は久しぶりの清水魚園で焼肉。ライス・スープ付き焼肉セットで700円~という気張らない値段が嬉しい。この辺、東京のようにまだ飲食店の価格が上がっているお店が少なくて、かえって心配になってしまう。

撮影機材leica m11/RICOH GR III/summicron-m 1:2/35 asph.

オクトパストラベラーII・近隣散歩 / 2023年5月3日

オクトパストラベラーIIをばかりをやって過ごした一日。かなり長いゲームなのだけど、倍速戦闘やスキップしない程よいストリー演出の高速再生など、今どきのタイパを意識した作りになっていて良く出来てるなぁ。ほんとIをさらにブラッシュアップした感じだ。戦闘も今のところだいたいちょっと考える、が入って面白いのだよなぁ。


近隣散歩。

撮影機材leica m11/summicron-m 1:2/35 asph.

シャガの花・妻の手作り料理 / 2023年5月2日

この季節によく咲いているシャガの花。


夜は先を行く方々に色々とお話を聞かせてもらい、とても参考になる。時間を割いてくれて、ありがたい。


今日は一日があっという間に過ぎてしまったなぁ。ご飯も短時間で済ませてしまった。朝はフレンチトースト、昼はナポリタン、夜はローストビーフ。どれも妻の手作り。ありがとう、と感謝の気持を忘れずにいたい。

撮影機材α7C/Auto Takumar 55mm F1.8

エバーフレッシュ・フランクリンズカフェ・芦野温泉 / 2023年5月1日

昨日迎え入れたエバーフレッシュ。大きくて存在感あるなぁ。


フランクリンズカフェで昼食。ここのタンドリーチキンは毎度食べても絶品と思う美味しさ。鶏もも肉が3枚も入っていてボリュームもたっぷり。


夕方から土砂降りの雨。車に積もった花粉が落ちて良いかな、と思ったが、強い雨だったので泥が跳ねまくって結局掃除が必要なぐらい汚れてしまった。

夜は芦野温泉で温まる。夜食も芦野温泉で、とんこつラーメンと唐揚げ。

撮影機材ricoh gr iiix/RICOH GR III