2022年9月12日
論文Prompt-to-Prompt Image Editing with Cross Attention Control を Stable Diffusionで動くようにした、bloc97/CrossAttentionControl。一部単語を差し替えた際に、レイアウトや出来上がりの雰囲気は崩さずに安定した出力を生むもの。この論文は先月(2022年8月)に発表されたもので、画像生成 AI の最前線!拡散モデル・画像生成モデルの最新研究を解説で日本語でも解説されてて知っていたのだけど、モントリオール大学のCV専攻している学生が短期間でちゃんと動く実装として公開していてすごいなー。論文に結構ちゃんと実装方法が載っているとは言え、自分でサクッとやれるかと言われたら全然できなさそう。
というか実装作者氏、anime4kの作者でもあるのかー。
Stable Diffusion 亜種といえば、Japanese Stable Diffusion を rinna 社が公開。LAION-5B 、巨大すぎてほいと学習できるコストじゃないのだけど、そのサブセット(1億枚らしいので、1/50ぐらいかな) + αで学習させているあたりバランスの良さを感じる。もともと日本語CLIPも公開していたし、そのへんの学習ノウハウがあったのだろうけど、これだけ短期間で公開できる速度もすごいよなー。
Waifu DiffusionはDanbooruを学習データに使っていてなるほど。Danbooruという文字列を久しぶりに見たなぁ、なつかしす。Danbooruの学習データをフィルターする指標にCLIP+MLP Aesthetic Score Predictorというのを使ってるのか。
Stable Diffusion の prompt と画像がセットで閲覧・検索できるLexicaを観てると面白い。全く発想にない prompt がたくさんある。"rosetta stone with android emojis written on it"とかね。
そして画像生成すると楽しくてぼけーと時間を消費してしまうな…。
夕食は、東京駅土産の南インド料理店エリックサウスのビリヤニとカレー。初エリックサウスだったのだけどどちらも美味しいなぁ。人気店なのもうなずける。南インドまた行きたい。