Search Engineering Newsletter vol.14

イチオシは、Confident Learning の記事と「機械学習のプログラムをレビューする」です。

Dec 22, 2022

イチオシは、Confident Learning の記事と「機械学習のプログラムをレビューする」です。

Search

@stn さんが作成している Python 製の検索エンジン。 quickwit-oss/search-benchmark-game: Search engine benchmarkの Search Benchmark game を元に各 tag でベンチマークを取っていますが、初期にパフォーマンスを定量化できる仕組みを作っておけば、機能開発もゲームのように楽しめそうですね。

Elasticsearch の Query が遅い時のトラブルシューティング - Qiita

実践的な Elasticsearch のクエリ高速化の切り分けが説明されている。

無価値だった検索と今無価値に思える作画 AI。その先にある行動の生成 – WirelessWire News

この記事は、けっこう強い論調なんですが、

いまだに「検索」にお金を払う人はいない。

の理論は結構納得できるものがある。自分の認識では、一般的に検索という機能は、存在して当たり前の機能であって、追加でお金を支払って検索できるものではないからですね。でも無いと非常に困る。

検索マーケターが知っておくべき検索エンジンと機械学習の話 - ブログ - 株式会社 JADE

Google 検索の機械学習導入に関する赤裸々な情報が説明されていて面白かった。

WIRED の記事によると、2000 年から検索をリードしてきた Amit Singhal 氏は、機械学習に懐疑的であり、また同社の検索関係者の多くが、検索のランキングに機械学習を導入することは「影響が大きすぎる」として反対していました。この分野における Google 検索からの投資は大きくなく、RankBrain の開発は文字通り「実験」でした。「まあ、実験的に、ニューラルネットワークからこの追加のスコアを計算して、それが有用なスコアであるかどうかを確認してみよう」と Jeff Dean は言った、とこの記事は述べています。しかし、RankBrain は最終的に機械学習の力を証明し、ランキングで「3 番目に重要なシグナル」

【Elasticsearch】1900 万点に及ぶ商品データ作成の時間を約 67%短縮できた構成と工夫 - MonotaRO Tech Blog

1900 万の SKU が存在するモノタロウの検索エンジンの indexing 速度をどうやって改善したか。従来は合計 14 時間かけて indexing を完了していたが、改善によって 5 時間で indexing が完了するようになった。検索サービスに影響を与えないために、検索用の Elasticsearch クラスターとは別に、データ投入用の Elasticsearch クラスターを用意して、indexing 完了後に検索のトラフィックを向ける工夫が面白かったです。

Machine Learning & Data Science

Confident Learning -そのラベルは正しいか？- - 学習する天然ニューラルネット

Confident Learning という誤ったラベルを検出する手法の紹介。上記の記事でこの手法の利点が簡潔にまとめられています。

私感
シンプルな手法かつ直感的に納得の行くものすぐに使えるように python package にしてくれているのが神か？ハイパーパラメータないのも神か？使うモデルに制約が(すく)ないのが良い。ニューラルネットでもランダムフォレストでもロジスティック回帰でも論文の結果を見る限り、Noisy Label に対する第一選択肢として良さそう他手法との組み合わせも可能そう。例えば、誤っているとされたラベルに Pseudo-Label をつけたり、mixup などと組み合わせるなども可能。実際に論文の実験では Co-teaching のあわせ技でモデルを学習

端的に言うと限りなく実用的な手法だなと思いました。また、Confident Learning は現在cleanlabという OSS になっており、PIP から簡単に利用できる(最高か?)。2019 年からかなり積極的に開発されており、安心して使えそうですね。

@K_Ryuichirou さんが、最近 Confident Learning の事例を主にまとめた資料を公開してくれており、これも面白いです。

MLOps.community の Podcast で cleanlab 作成者の発案したときのキッカケが紹介されており面白い。(Podcast までちゃんと聞いているの凄い。自分は積まれた Podcast の数がすごいのに...)

Hinton が MNIST(LeCun が作成)の誤り 1 件を見つけて喜んでいるのを見ていた。「こんなに有名な人がこんなによろこんでいるのならこれはかるがあるのでは?」とおもったのがきっかけ

機械学習のプログラムをレビューする Speaker Deck

Jupyter notebook のレビューどうしようか問題。 @shibui さんが資料でおっしゃられている通り、notebook はあくまで中間物であって、動作を保証するものではないという期待値調整が自分は大事なのではと思っています。 panderaという dataframe に対してデータ検証ができるパッケージは初めて知りました。便利ですね。

読者の行動データを用いた note 記事レコメンドをリファクタリングした話｜むっそ｜ note

note の記事推薦の機械学習サービスにおいて、機械学習チームが独立して改善するためにアーキテクチャのリファクタリングを行った。自律性がとても重要ですね。

scikit-learn and Hugging Face join forces - scikit-learn Blog

scikiet-learn と Hugging Face が連携して機械学習ツールを開発していく。Hugging Face が scikit-learn の公式スポンサーになり、scikit-learn 側の開発も進めていくとのこと(Hugging Face 側は営利企業なのでスポンサーになるのは自然ですね) 考えられているのは、

skops という、scikit-learn のモデルを Hugging Face Hub にインテグレーションできるパッケージがありそのサポート
現状 pickle でしかモデルを保存できないが、これがセキュリティ上問題がある。そのため、pickle ではなく、json ファイルで scikit-learn のモデルを保存できないか検討中とのこと。(これはできたら凄いですね!)

RunInference API Testing[public]

Apache Beam の RunInference API のテストに関する DesignDocs。バグを検知するために RunInference API の e2e テストを CI で回したいので、そのたたき台を提案したドキュメント。このテストは主にシステムパフォーマンスを指しており、モデルの精度には特に注目しない。

DesignDocs が公開されて、透明性を保って議論されるのは OSS の真骨頂ですね。勉強になる。

Mercari AI チームの研究「Textual Content Moderation in C2C Marketplace」が ACL2022 ECNLP Workshop に採択されました | mercari AI

EC での資源言語処理活用をテーマにしたワークショップ ECNLP2022 に、取引メッセージの違反検知に機械学習を適用してビジネス貢献した論文が採択されたみたいです。

ニュースレターの購読のメリット

substack でのニュースレターを購読してくれている方のみに最新号がメールで配信され先読み可能です

そのため、ニュースレターの最新号を先読みしたい方はぜひ購読をよろしくおねがいします 😁 もちろん購読は無料です。

ニュースレターが更新されるたびに、最新号を除くニュースレターは Web 上で公開され、誰でも読めるようになっています。

感想など

Twitter で #searchengineeringnewsletter のハッシュタグでつぶやいていただくか、Google フォームでの感想投稿をお待ちしております。また、substack 上でのコメントも歓迎しております。

それらのご感想は執筆の励みにさせていただきます。

もしよろしければ、Buy Me a Coffeeからサポート(投げ銭)していただけると、ニュースレター配信のモチベーションに繋がります ✨

Search Engineering Newsletter

Search Engineering Newsletter vol.14

イチオシは、Confident Learning の記事と「機械学習のプログラムをレビューする」です。

Search

Machine Learning & Data Science

私感

ニュースレターの購読のメリット

感想など

Discussion about this post