2022年9月23日
Open-AIが公開した多言語音声→テキストのWhisper。どうせ日本語の精度はいまいちでしょ?と思ったのだけど、論文の評価指標を見ると日本語も上位の精度。HuggingFace Spaces でさくっとウェブブラウザ上で試せるので使ってみると、かなり精度高いなぁ。しかもSpacesで動いているものはモデルサイズはlargeじゃなくてsmallでこのレベルなのか。
HuggingFace Spaces 上で機械学習モデルをいちいちColabや手元で動かさなくともデモとして動かせるものが最近は多くて便利だなぁ。
Spaces で動かしているコードを見ると、gradioでブラウザ上で録音→音声をモデルに食わせる、というのをちょろっと書いて作っている。gradioにしろ、steamlitにしろ、WebUIをいちいち書かなくてもちょっとした機械学習のコンセプトWebUI実装を作れて便利になったものだ。
Fine Tuning Stable Diffusionで画像とキャプションのペアを用意するのに使っていたことで知った、Image-Text CaptioningやVisual Question AnsweringのBLIP。結構ちゃんとキャプションつけれてすごいな。写真に対しての質問にも答えてくれる、"When was this photo taken?"とか。例によって Spaces のデモもある。
Zero-shot video-text retrieval ものっていてなるほど。Image-Text Captioning ができるなら撮影した動画をテキスト検索可能だよなぁ。動画の一部にピザが写っていて、そのシーンまで飛ばしたい、みたいな検索もできるよなぁ。iOSの標準写真アプリに付きそうな機能だ、というか動画検索もとっくについていた…。
BLIPはSalesforceが作っていて、たしかに toB 用途でもでこういう機械学習タスクっていろいろ応用ができそう。LAVIS - A Library for Language-Vision Intelligenceなんてのもつくってるのね。
夜は行きたかったラーメン屋が製麺機故障により臨時休業だったので、ラーメンたかはしへ。ドロつけ麺うまし。チャーシューが3バリエーションから6バリエーションに増えていて、店主の創作意欲に毎度おののく、すごいラーメン愛だ。