A Day in the Life

書籍 Human-in-the-Loop 機械学習を読み終えて - データセントリックの示唆に富む書籍

※この記事は、翻訳者の一人である上田 隼也氏から献本いただいた書籍 Human-in-the-Loop機械学習: 人間参加型AIのための能動学習とアノテーション を読んでの感想記事である。


昨今、生成AI・LLMの台頭により、「良質なデータ」をどう集める・作るかの話をより身近で聞くようになった。LLMに学習させるデータは元より、身近な課題を解決するためにも課題解決のためのタスクを定義し、そのためにデータを分析し作成することが、社会課題解決には当たり前に求められる。

これらの課題解決には、新しいモデルを自ら考える必要がないことも多く、タスク定義とデータを集め学習させるだけで、十分な性能を発揮することも多い。いわゆるデータセントリックなデータに焦点を集めた考え方である。

ただ、世の中にはモデルやアルゴリズムといったモデルセントリックな話は数多くあれど、データは基本公開されているなんらかのデータセットに対して評価するといった内容はほとんど。しかしながら、この書籍Human-in-the-Loop 機械学習では、データに焦点を集め解説を行なっているという、稀な書籍である。

どんな内容かは目次や反響まとめを読んでもらうのが一番なので、そちらを見ると良いだろう。個人的に興味をとても惹かれた箇所は、一つ目は能動学習でのデータのサンプリング方法である。わかりやすい線形の決定境界付近のデータ(確信度が低い)をアノテーションすべき、はすぐに思いつくことだが、不確実性や多様性をどのように解釈し、どういう戦略でアノテーションすべきデータを考えるべきか、多様な視点から述べられていて、思わず「ハッと」するような脳を刺激されるアイディア(実装も)が詰まっている。

二つ目は、アノテーションをつけるアノテータとの協業の話である。「ピープルマネージメントは必須」と書いてあるように、はいこんな感じでラベルつけてねあとよろ〜、などでは全くなく、どのように依頼すべきか、必要なスキルは何か、フィードバックをどうすべきか、アノテータのバイアスをどう取り除くか、アノテータごとの不確実性にどう向き合うか、コミニュケーションとフィードバックをどうすべきか、とまさしく通常の仕事のピープルマネジメントと同じようなことを、アノテータともすべきということを強く書いてある。もちろん、ピープルマネージメント以外のヒントもたくさん(バイアスとかね)。

等々、読んでいて参考になる場所だらけで、じっくり読み進めていたら読み終えるまで2ヶ月ほどかかってしまった。それほど興味深く、かつ機械学習を嗜む身としては、この書籍に出会うことができて本当によかった。

LLMの台頭が始まった今のAI時代、AIに評価をさせてそのフィードバックをもとに良質な学習データセットを作る、強化学習をしていくといったことが当たり前になっていくであろう。Human-in-the-Loop 機械学習の原著は、いわゆるGPT4登場より前のLLMが今ほど注目が集まっていなかっときに書かれた本だが、この書籍の視点はLLMと絡めて使う時にも大いに役立つと思っている。

撮影機材leica m11/summilux-m 1:1.4/50 asph.
記事の一覧 >

関連するかもエントリー

振り返り2021年
今年も今日が最終日、ということで2021年を振り返る。プライベートでは都会を離れ、10月末に那須塩原に引っ越しをした。きっかけは5月に山梨の山中に家を建てた友人宅にお邪魔したことで、都会を離れてゆっくりとした環境も良いなぁと思ったことだ。その後、別の友人も山中に家を建て始めて、自...
今年も今日が最終日、ということで2021年を振り返る。プライベートでは都会を離れ、10月末に那須塩原に引っ越しをした。きっかけは5月に山梨の...