A Day in the Life

2022年9月12日

論文Prompt-to-Prompt Image Editing with Cross Attention Control を Stable Diffusionで動くようにした、bloc97/CrossAttentionControl。一部単語を差し替えた際に、レイアウトや出来上がりの雰囲気は崩さずに安定した出力を生むもの。この論文は先月(2022年8月)に発表されたもので、画像生成 AI の最前線!拡散モデル・画像生成モデルの最新研究を解説で日本語でも解説されてて知っていたのだけど、モントリオール大学のCV専攻している学生が短期間でちゃんと動く実装として公開していてすごいなー。論文に結構ちゃんと実装方法が載っているとは言え、自分でサクッとやれるかと言われたら全然できなさそう。

というか実装作者氏、anime4kの作者でもあるのかー。


Stable Diffusion 亜種といえば、Japanese Stable Diffusion を rinna 社が公開。LAION-5B 、巨大すぎてほいと学習できるコストじゃないのだけど、そのサブセット(1億枚らしいので、1/50ぐらいかな) + αで学習させているあたりバランスの良さを感じる。もともと日本語CLIPも公開していたし、そのへんの学習ノウハウがあったのだろうけど、これだけ短期間で公開できる速度もすごいよなー。

Waifu DiffusionはDanbooruを学習データに使っていてなるほど。Danbooruという文字列を久しぶりに見たなぁ、なつかしす。Danbooruの学習データをフィルターする指標にCLIP+MLP Aesthetic Score Predictorというのを使ってるのか。


Stable Diffusion の prompt と画像がセットで閲覧・検索できるLexicaを観てると面白い。全く発想にない prompt がたくさんある。"rosetta stone with android emojis written on it"とかね。

そして画像生成すると楽しくてぼけーと時間を消費してしまうな…。

rosetta stone with android emojis written on it, rimworld, digital painting, trending on artstation, deviantart, 8k, epic composition, intrinsic details, perfect coherence


夕食は、東京駅土産の南インド料理店エリックサウスのビリヤニとカレー。初エリックサウスだったのだけどどちらも美味しいなぁ。人気店なのもうなずける。南インドまた行きたい。

同じ日付の日記

2023年9月12日
ミーティングデーの火曜日は一瞬で終わっていくね。
ミーティングデーの火曜日は一瞬で終わっていくね。
2021年9月12日
T氏とT氏のお子さんとネット上でマリカー対戦。余裕で勝てるのでは~接待プレイになるのかな~と思っていたら負ける負ける…。最後に辛勝するも、圧倒的強さの差があった。ボイスチャットを繋ぎつつわちゃわちゃやって、白熱したレースで面白かった。昼食は近所のOKストアの油淋鶏弁当。これで29...
T氏とT氏のお子さんとネット上でマリカー対戦。余裕で勝てるのでは~接待プレイになるのかな~と思っていたら負ける負ける…。最後に辛勝するも、圧...
2020年9月12日
朝、雨上がりを縫って散歩。途中で雨にふられすぐ戻る。雨の日はマクロレンズが楽しいね。対して撮れてないけど。朝食はカレーそぼろトースト。昼は昨日に引き続き鮭いくらの漬け。うま。はてな時代の画像の URL をオリジナル画像を参照するように置換したり、画像ビュアーをつけたりした。HTM...
朝、雨上がりを縫って散歩。途中で雨にふられすぐ戻る。雨の日はマクロレンズが楽しいね。対して撮れてないけど。朝食はカレーそぼろトースト。昼は昨...
2019/09/12
ペーパードライバー講習、今日は午前中から行う。品川からみなとみらいに、行きは下道で、帰りは高速で。高速だとあっという間だなぁ。車線変更、高速、駐車等々の練習をしたのだけど、特に駐車はどこからどこまでが車の筐体なのかの感覚がまだ全然つかめずで、もっと練習が必要そうだ。その後、品川で...
ペーパードライバー講習、今日は午前中から行う。品川からみなとみらいに、行きは下道で、帰りは高速で。高速だとあっという間だなぁ。車線変更、高速...