A Day in the Life

2022年9月23日

Open-AIが公開した多言語音声→テキストのWhisper。どうせ日本語の精度はいまいちでしょ?と思ったのだけど、論文の評価指標を見ると日本語も上位の精度。HuggingFace Spaces でさくっとウェブブラウザ上で試せるので使ってみると、かなり精度高いなぁ。しかもSpacesで動いているものはモデルサイズはlargeじゃなくてsmallでこのレベルなのか。

whisper

HuggingFace Spaces 上で機械学習モデルをいちいちColabや手元で動かさなくともデモとして動かせるものが最近は多くて便利だなぁ。

Spaces で動かしているコードを見ると、gradioでブラウザ上で録音→音声をモデルに食わせる、というのをちょろっと書いて作っている。gradioにしろ、steamlitにしろ、WebUIをいちいち書かなくてもちょっとした機械学習のコンセプトWebUI実装を作れて便利になったものだ。


Fine Tuning Stable Diffusionで画像とキャプションのペアを用意するのに使っていたことで知った、Image-Text CaptioningやVisual Question AnsweringのBLIP。結構ちゃんとキャプションつけれてすごいな。写真に対しての質問にも答えてくれる、"When was this photo taken?"とか。例によって Spaces のデモもある。

Zero-shot video-text retrieval ものっていてなるほど。Image-Text Captioning ができるなら撮影した動画をテキスト検索可能だよなぁ。動画の一部にピザが写っていて、そのシーンまで飛ばしたい、みたいな検索もできるよなぁ。iOSの標準写真アプリに付きそうな機能だ、というか動画検索もとっくについていた…。

BLIPはSalesforceが作っていて、たしかに toB 用途でもでこういう機械学習タスクっていろいろ応用ができそう。LAVIS - A Library for Language-Vision Intelligenceなんてのもつくってるのね。


夜は行きたかったラーメン屋が製麺機故障により臨時休業だったので、ラーメンたかはしへ。ドロつけ麺うまし。チャーシューが3バリエーションから6バリエーションに増えていて、店主の創作意欲に毎度おののく、すごいラーメン愛だ。

撮影機材ricoh gr iiix

似ている画像がある記事

ヤンゴンで髪を切る、シュエダゴン・パゴダ / 世界一周72日目蕎麦屋山月・ヒロガーデン・喫茶タムタム / 2022年5月30日2020年9月8日インジャカルタ蕎麦とケーキ・muiが届く2022年9月11日タイのプーケットビーチへ / 世界一周16日目tuRuby 177th・マヨ豚骨ラーメン / 2022年1月5日

同じ日付の日記

2021年9月23日
昨晩はそのまま実家に宿泊。姪甥達と遊ぶ。学校は今週末までリモートで、Chromebook が貸与されていてそれでリモート授業を受けるらしい。実家はWiFi環境、多数の部屋と面倒を見る人(祖父母)が居るから成り立つけど、共働き夫婦だとどうするんだろうとか、WiFi環境整ってない人だ...
昨晩はそのまま実家に宿泊。姪甥達と遊ぶ。学校は今週末までリモートで、Chromebook が貸与されていてそれでリモート授業を受けるらしい。...
2020年9月23日
昨晩、本を読んでいたら23時になってしまい珍しく夜ふかし。5時起きだと眠かったので栄養ドリンクを飲む。イオンのタウリン入りドリンクは50円前後で買えて安い…朝食はバジルとポテトサラダのサンドイッチ。昼食は手作り餃子。普通のから米粉、キムチ入りなどなどいろいろなバリデーションで飽き...
昨晩、本を読んでいたら23時になってしまい珍しく夜ふかし。5時起きだと眠かったので栄養ドリンクを飲む。イオンのタウリン入りドリンクは50円前...
名古屋2日目
べら珈琲サロンでモーニング。ウィンナーコーヒー、かき混ぜずに飲むとのこでその通りにしてみたところ、途中からクリームの甘さだったり感じられなるほど感。その後、大須商店街へ。大きなアーケード街だなぁ。商店街をぐるっと歩いた後に、日泰寺に行く。この辺は栄とは違い、だいぶ静かでゆったり。...
べら珈琲サロンでモーニング。ウィンナーコーヒー、かき混ぜずに飲むとのこでその通りにしてみたところ、途中からクリームの甘さだったり感じられなる...