Stable DiffusionとDiffusersヤバイ / 2022年8月23日
AI絵の自動生成モデルのStable Diffusion、重みは一般公開されないんじゃないかなーと出たときに思っていたのだけど、昨晩(今日?)公開されてすごい世の中に。HuggingFace の記事では技術的なポイントを丁寧に解説している。はーおもろい…。
テキストエンコーダには今は openai/clip-vit-large-patch14
のCLIPTextModelを使っているようで、かんたんな日本語ならちゃんとembeddingになるけど難しい日本語はダメ。そのうち誰かが日本語でembeddingをあわせたCLIPTextModelを公開するだろうから、英語より精度は落ちるとは言え、普通に日本語で生成も出来るようになるであろう。
Stable Diffusionの重み公開もすごいが、huggingfaceのDiffusersがアツい。Stable DiffusionもDiffusersで使えるし、マルチモーダル学習が統一的な手法ででき、エンドユーザ側も利用方法が統一されるので一気に広がりそうだ。
Diffusersの学習サンプルではポケモン画像を学習させ(この学習データで2 hours on 4xV100 GPUsとだいぶリソースは必要そうだけど)生成できるようにしている。特定ドメインの画像だったり、アニメ風の絵に特化したり、そういうものもいろいろ公開されていきそう。huggingfaceはtransformesにしろ、この辺の抽象化がうまいよなぁ。マジ激アツ。
そして Stable Diffusion を手元で動かしてあれこれ遊ぶ。RTX3090だと、512x512サイズの推論ステップ50回の場合、4秒ぐらいで生成できる。generatorのseedを固定することで初期ノイズが固定されるので、ちょっとずついじるのも面白いな~。
おたより返信コーナ
北海道出身の june29 です。数年前の夏の大会で駒大苫小牧が優勝したときは「津軽海峡を渡りました」という表現があったみたいですね。当時、粋なこととして話題になっていたのをなんとなく覚えています。
https://www.sankei.com/article/20220823-NHZVDWX3JJJBTG2C4FUI2LZZMQ/
「白河の関」については知らなかったものの、栃木県の北の方に住む民として白河は身近な場所なのでへぇ〜と思いながら拝読しました。
北海道も最近初優勝したみたいですね。私も白河の関を数日前に知ったので、へぇ~と思いましたよ!リンク先の記事では、スポーツの地域格差(人口密集する都市がどうしても強くなってしまう)にも触れていてなるほどな~。