A Day in the Life

会津若松 / 2022年9月26日

会津若松観光の日。会津に来るのは始めてだ。飯盛山へ行き、白虎隊自刃の地から会津の街を眺める。子供の頃図書館で漫画の白虎隊の本をよく読んだなぁ、あの切腹の地がここなのかー。ついでにお隣のさざえ堂に、面白い構造の螺旋階段。


昼食には会津ラーメンを食べたかったのだが、最近食べると体調不良になりがちで今後の運転もあるので辞めておいた。続いて市街地に行き、末廣酒造 嘉永蔵へ。目的はここの酒蔵を改築したカフェで休むことだったのだけど、酒蔵案内をしていたので申し込む。酒米の稲穂の実物を見ると、削ること前提なのでやたらと稲穂が大きい、山田錦なんてとくに。古来からの製法の生酛や山廃も知らなかったので、日本酒の製造過程の知識が広がった。

またなぜか同敷地にクラシックカメラ博物館があり、ちょっと時間があったので立ち寄ると、500台を超える見事な展示。歴史的名機~マニアックなもの(というか自分は有名所しか知らないが…)まで、見る人が見るとめちゃくちゃ楽しめそうだ。


その後は土産物屋で赤べこや名産物を購入して帰宅。会津若松~家まで下道で2時間弱ぐらい。後半、妻に運転を変わってもらって疲れの負担がだいぶ減った。そんな帰り道の途中でぶらり立ち寄った道の駅しもごうが山々に囲まれた絶景スポットでびっくりした。Webページからだと全く伝わらない絶景さ。もっとアピールすべきでは…。

次は猪苗代湖の湖北あたりも良さそうなので行きたいな。


今日は誕生日、人生も折り返し地点をすぎる(平均寿命換算)。妻からキャンプ用具をもらう。そういえば買ったタープも一度も使っておらず、そろそろ外でぼーっと過ごす、もやりたいなぁ。気温的にも程よい感じになってきたしね。

撮影機材leica m11/iphone 13/summicron-m 1:2/35 asph./iphone 13 back camera 5.1mm f/1.6

猪苗代湖 / 2022年9月25日

最近旅行してないなーとぶらり猪苗代湖へ。下道で一時間ちょっと、山の中のドライブでなかなか楽しい道のりだった。猪苗代湖観光は湖北がメインのようだけど、今回は湖南へ。湖なのに大きいと潮の匂いがするのだなぁ。湖畔でチアリングしてたり釣りしてたりと楽しそう。ツーリングや自転車で湖一周している人も多い。


昼食は湖畔の太田屋食堂で。先週テレビをつけたら、丁度この店が取り上げられていて、あっテレビで見たやつだ!となった。またこの辺の地名が「日本一」らしく、それもテレビでやっていたなぁ。有名な赤ハラという魚の天ぷらが食べれれる天ぷら定食と、この辺会津のご当地グルメであるソースカツを食べる。新潟のタレカツとは違い、こちらのソースカツは厚いカツなのだなぁ。味の方向性は同じような感じがする。


宿泊は会津若松にある東山温泉のくつろぎ宿新滝へ。別館合わせて浴場がたくさんあり、出ては入ってを繰り返す。夕食後はiPadでDAZN鑑賞、ヤクルトのセ・リーグ優勝をリアルタイムで見ることができた。よかったよかった。

撮影機材leica m11/summicron-m 1:2/35 asph.

屍人荘の殺人・魔眼の匣の殺人 / 2022年9月24日

ミステリー屍人荘の殺人を読む。館シリーズのような、大学生がペンションに集まって密室だ~みたいな古典的ミステリー本かなと読み進めていくとなるほど、ミステリーとは別ジャンルのエッセンスが加わることにより新しい面白さが得られる。面白くて一気に読み切ってしまった。

続いて同じ作者の2作目、魔眼の匣の殺人も一気に読み切る。二作目だから面白さ減るだろうな、という期待で読み始めたのだけど、一作目並の面白さ。いやー面白い。

Whisper・BLIP・ラーメンたかはし / 2022年9月23日

Open-AIが公開した多言語音声→テキストのWhisper。どうせ日本語の精度はいまいちでしょ?と思ったのだけど、論文の評価指標を見ると日本語も上位の精度。HuggingFace Spaces でさくっとウェブブラウザ上で試せるので使ってみると、かなり精度高いなぁ。しかもSpacesで動いているものはモデルサイズはlargeじゃなくてsmallでこのレベルなのか。

whisper

HuggingFace Spaces 上で機械学習モデルをいちいちColabや手元で動かさなくともデモとして動かせるものが最近は多くて便利だなぁ。

Spaces で動かしているコードを見ると、gradioでブラウザ上で録音→音声をモデルに食わせる、というのをちょろっと書いて作っている。gradioにしろ、steamlitにしろ、WebUIをいちいち書かなくてもちょっとした機械学習のコンセプトWebUI実装を作れて便利になったものだ。


Fine Tuning Stable Diffusionで画像とキャプションのペアを用意するのに使っていたことで知った、Image-Text CaptioningやVisual Question AnsweringのBLIP。結構ちゃんとキャプションつけれてすごいな。写真に対しての質問にも答えてくれる、"When was this photo taken?"とか。例によって Spaces のデモもある。

Zero-shot video-text retrieval ものっていてなるほど。Image-Text Captioning ができるなら撮影した動画をテキスト検索可能だよなぁ。動画の一部にピザが写っていて、そのシーンまで飛ばしたい、みたいな検索もできるよなぁ。iOSの標準写真アプリに付きそうな機能だ、というか動画検索もとっくについていた…。

BLIPはSalesforceが作っていて、たしかに toB 用途でもでこういう機械学習タスクっていろいろ応用ができそう。LAVIS - A Library for Language-Vision Intelligenceなんてのもつくってるのね。


夜は行きたかったラーメン屋が製麺機故障により臨時休業だったので、ラーメンたかはしへ。ドロつけ麺うまし。チャーシューが3バリエーションから6バリエーションに増えていて、店主の創作意欲に毎度おののく、すごいラーメン愛だ。

撮影機材ricoh gr iiix

密ミーティング・Stable Diffusion解説動画 / 2022年9月22日

明日のミーティングが今日にずれたりして、密ミーティングの1日であった。


【概要速修】Stable Diffusion(テキストから画像生成)はどうやって実現するのかざっくり仕組みを知る(DiffusionModel,Deep Learninig)【機械学習解説動画】を見る。ざっくり解説として、非常に解りやすいよく出来た説明動画だ。CLIP, U-Net, VAE, Diffusion Model どれもざっくり説明していて流れが解りやすい。


ステート・オブ・AIガイドのサブスクを始めて一週間がたった。最新研究関連の記事も多く、そのへんの情報を全然インプットできてなかったので良い感じ。また暇な時にバックナンバーを読んでいるだけで延々と時間が消費できてしまう。月14$だけど、良質な記事が読めるので十分ペイしそうだ。

RTX4090発表・那須山温泉と蔵鋤の餃子 / 2022年9月21日

寒い一日。キーボードを打つ手がかじかみだして、初暖房をつける。ひざ掛けや羽毛布団など、冬に備えて天日干しにする。


RTX4090発表。円安につきなかなかのお値段。そろそろZen4 CPUのRyzen 7950も出るし、来月あたりにはマシン新調かな。部屋で今のマシンと新マシンでGPU回したときの部屋のブレーカが心配だ。


夕方、縦に長いうろこ雲。昨日の台風(線状降水帯)の影響もありそう。


夜は那須山温泉、その後温泉前の蔵鋤で晩飯。蔵鋤の餃子はちょうどよい美味しさで、いつも3枚ほど頼んでしまう。

撮影機材leica m11/summicron-m 1:2/35 asph.

台風・寒さ・友人夫妻とのリモート会話 / 2022年9月20日

台風がすぎる。冬を感じさせる寒さの一日。またあの寒い冬がやってくるのかぁ。


友人夫妻と久しぶりにリモートで話す。彼らの家に泊まりにいかせてもらって、田舎に住むという選択肢良いじゃん、と思ったのだよなぁ、あの体験がなければ都会から離れていなかったかもしれない。今回も久しぶりに話そう、と声をかけてもらってありがたいかぎり。


吾妻ひでお氏の失踪日記が無性に読みたくなり、昔は物理で持っていたのだけど、を電子書籍で1・2巻購入。電子書籍はちょっと巻末に漫画が追加されてるのね。ホント大変であったであろう話を面白く描けていて、独特の読後感。


夕食、れんこんの挟み揚げ。

撮影機材ricoh gr iiix

風邪気味・妻のお菓子作り会とゲーム / 2022年9月19日

昼ぐらいに悪寒がしてきて、熱を測るとちょい風邪気味の微熱。外出予定だったのだけど、もし何かが感染ると嫌だなぁと家でゆっくりと過ごす。

家では妻が友人を招いてお菓子作り会をやっていたようで、楽しそうな笑い声が聞こえてきて何よりだ。


最近のゲームは引き続きマイクラダンジョンズを、ちまちま二人プレイでやっている。結構長く遊べている。

スペイン語Duolingoは1日最低1学習以上を続けている。もうちょっと旅行会話向けにフォーカスした学習ができると良いのだけど。例えば"茶色のシャツ"(Una camisa marrón)とか、初級会話表現だろうけど、旅行中に覚えていてもあんまり使わなさそうな言葉が多いと学習意欲がわかないのだよな。

またDuolingoは今のところ課金せずにやっているので広告が入るのだけど、動画広告にソーシャルゲーム広告が結構出てきてコンテキストにあってない感じで面白い。言語学習させたいのか、ゲームをさせたいのか。


ライカのレンズ、Summilux M f1.4/35mm ASPH.の新モデルが登場。最近MにはSummicron M35mm F2 ASPH.ばかりつけていて(コンパクトだしコレつけておけば安心感が半端ない)とりわけ不満はないのだけど、最短撮影距離 70cm がなぁ、というところで新ズミルックスは40cmまで近づけると。この最短撮影距離は魅力、なのだけどお値段が実売税込み約80万円弱…。嗜好品である。

画像をテキストで検索 / 2022年9月18日

某所の Transformers 勉強会ネタとして、ゼロショットで実現できるテキストからの画像検索を書いてみる。テキストと画像を組み合わせた検索は CLIP 使えば簡単に実現できそうで、日本語翻訳で学習させたJapanese-CLIPもあるので簡単に作れそうと思ってはいたけど、やっぱり簡単だった。良い日本語モデルを公開してくれているrinna社に感謝だ。

このブログの記事画像6000枚の特徴ベクトル化にRTX3090で適当にやって20秒ぐらい。日本独自ドメインの単語はうまく検索できない事が多いが、大抵は良い感じに検索できる。6000枚程度の512次元ベクトルのコサイン類似度を計算するだけなので全探索オンメモリ + CPU で十分な速度。

text_image_search

ただこのブログは静的なビルドで作られていて、画像を特徴ベクトル化するのはビルド時にやればよいが、検索クエリ文字列を特徴ベクトル化するのは動的な実行が必要となってしまうので、静的サイトに基本的には組み込めない。

エッジ(ブラウザ)環境で動かすために、praeclarum/transformers-js: Browser-compatible JS library for running language modelsなどでは、ONNX で JS で動くように変換してやっていたりするが、単純に量子化しても数十MBの重みになりそうで(demoではt5-small量子化した重みをダウンロードしているが、合計110MB強)、検索するときに重みをわざわざブラウザにダウンロードさせるのも重すぎるのだよな。


芦野温泉に浸かり、その後道の駅に行くいつもの休日パターン。道の駅周辺では彼岸花がシーズンを迎え綺麗。彼岸花、複雑な形で好きなのだよなぁ。

昼食は道の駅のあんず館。このへんの道の駅の食堂は大抵どこもどれも美味しい。950円のヒレカツ定食、とんかつ専門店よりだいぶお安い値段だけど大満足。

撮影機材ricoh gr iiix