garden AUX PARADIS / 2023年10月20日

2023年10月20日 21時00分

毎月一度は月替りパスタを食べに来ている、garden AUX PARADIS の日。

撮影機材leica m11/voigtlander apo-lanthar 50mm f2 aspherical vm

バラミー / 2023年10月19日

2023年10月19日 21時00分

タイ料理屋、バラミーへ。店内で食べるのは二度目かな？プレートが普通のカレー皿の二周りぐらい大きくて圧巻。食べきれず持ち帰りの容器をいただき、次の日の朝食に美味しくいただく。

撮影機材RICOH GR III

黒磯のSHOZOコーヒー / 2023年10月18日

2023年10月18日 21時00分

黒磯のSHOZOコーヒー。

撮影機材RICOH GR III

東京出社 / 2023年10月17日

2023年10月17日 21時00分

Tokyo.

撮影機材RICOH GR III

ピラカンサの実・豊作の年 / 2023年10月16日

2023年10月16日 21時00分

ピラカンサの実が今年もたんまり。

撮影機材leica m11/voigtlander apo-lanthar 50mm f2 aspherical vm

ホテルニュー塩原・温泉三昧と映画鑑賞 / 2023年10月15日

2023年10月15日 21時00分

午前中はホテルニュー塩原で温泉三昧。朝食バイキングも楽しい。あいにくの雨だったので、ササッっと家に帰り、家でゴロゴロの一日。

映画マイノリティ・リポートを観る。2002年の近未来SFなので、20年前の未来のUI像が描かれていて面白い。映像を人間の網膜から再現してタイムラインを操り、様々な視点から分析できるやつ、サイバーパンク2077のブレインダンスじゃん！

そういえばサイバーパンク2077も、先日の大幅アップデート2.0が出てからほぼ最初からやり始めていて(バージョン1.0でも1.6でも途中でやめてしまった)、たいへん遊びやすいゲームバランスに調整されており、とりあえず一つのエンディングまでクリアする。

以前はゲームシステムがごちゃごちゃしていたが、2.0はシンプルな感じなって遊びたかったのはコレだ感があって良かった。これだけ途中で大幅にゲームシステム弄るの、普通だったらやらない（昔のほうが良かった勢もいるであろう）と思うんだけど、しっかりと組み替えるの英断だなぁ。

撮影機材RICOH GR III

ホテルニュー塩原 / 2023年10月14日

2023年10月14日 21時00分

午前中は家のデザイン事務所と打ち合わせて、あらかた方向性が決まりほっと一息。

午後からは思い立って突然ホテルニュー塩原へ宿泊。同じ市内なのだけど、端っこから端っこへ行くのため、車で50分ぐらいかかる。2022年に大江戸温泉物語に買収され、今はホテルニュー塩原の名称は残しつつも大江戸温泉物語が運営。家族ユースによく出来ていて、バイキングが楽し嬉しい。ビュッフェではなく、THEバイキングという感じがまた良い。一度行ってみたかったので、行けてよかった。

撮影機材RICOH GR III

涼しい朝・冬着で散歩 / 2023年10月13日

2023年10月13日 21時00分

朝、だいぶ涼しくなってきて冬着で散歩。夏は脱いでも暑いが、これぐらいの気温は着込めば温かいので、夏に比べたら断然散歩しやすい。

撮影機材leica m11/voigtlander apo-lanthar 50mm f2 aspherical vm

Iris bread & coffee・濃厚かぼちゃプリン / 2023年10月12日

2023年10月12日 21時00分

Iris bread & coffee のかぼちゃプリン。かぼちゃ成分が多くどろり濃厚。うまい。

撮影機材ricoh gr iiix

Kaggle - LLM Science Exam コンペ終了 / 2023年10月11日

2023年10月11日 21時00分

Watercolor painting of a dramatic moment in a grand library. Towering bookshelves shake as if affected by an earthquake. Amidst the chaos, a man of African descent protects a computer

kaggleのLLMコンペ終了。順位は40/2700位銀メダル🥈で、かけた時間の割にはまだまだだったなぁと力不足を感じた。ただ、コードや試行錯誤はたくさん行ったので得られたものは結構あった。上位解法は丁寧にRAGしているものも多く、めちゃめちゃ参考になる。

ざっくりやっていたのはllama2-13Bの派生モデルと deberta-v3-large のアンサンブル。13Bはlast_hidden_state的なtokenの該当箇所をavg poolingして使った。デコーダーモデルはA,B,C,D,Eで並べた時、AはEまで読んでいない状態なのだけど、そこそこなスコア(序盤は金圏)は出た。
RAG の実装方法、RAGへの考察。ベクトルでのANNも良いが、キーワードを使った従来の検索も得手不得手があるので両方大事。
- RAG はwikipedia全部をElasticsearchに突っ込んで取得して使う(BM25)という力技でやっていた。終盤出てきた270kサンプリングされたデータにかなり負けてしまった。もっと丁寧にやるべきであった。
中盤までやたらLLaMA2-13Bモデル(の派生モデル)を学習させていたので、デコーダーモデルのお気持ち理解。デコーダーモデルのfinetuneやデコーダーでなにができるかの知見が広がる。13B程度のモデルならQLoraでご家庭24GB GPUで学習可能。
LoRA/QLoRA の理解。deberta-v3-large程度(0.3B encoder)のモデルサイズでも、線形層全部 + r=64,dropout=0.2あたりでほぼ性能変わらない、というのが知れて良かった。実務応用しやすい。
LoRA の層自体を merge することによっての性能向上。fold0-4とかのCV作って、それらの重みを(タスクにもよる?)がmerge可能。実務だとCVしても全部のモデルを実行するのが運用やコスト的にやりにくかったけどうまくいく。これも実務応用しやすい。