Search Engineering Newsletter vol.13

イチオシは、OpenSerachCon 2022 と Etsy の深層学習モデルへの乗り換え記事です。

Dec 12, 2022

イチオシ記事は、OpenSerachCon 2022 と Etsy の深層学習モデルへの乗り換え記事です。

Search

Deep Learning for Search Ranking at Etsy

Etsy で検索ランキング改善のために、GBDT ベースのモデルから深層学習を用いたモデルにどのように移行したか。移行する動機として、GBDT は初期の導入時、結果は良好だったが、運用を継続していく中で人間による特徴エンジニアリングに限界があり、関連性の向上も横ばいになってしまった。深層学習モデルに移行する際に、機械学習基盤も更新を行い、TF Ranking の導入も行い、モデル構築時間が大幅に高速化された。初期は、既存の GBDT モデルと深層学習モデル[^etsy]のアンサンブルモデルを試そうとしたが、オフラインテストでは改善されず、実装観点で予想していたよりも大きなコストが必要になることがわかったのでアンサンブルはやめた。 (AB テストの結果が問題なく)深層学習モデルに乗り換えが成功し、その時点で計算コストを年間数千万円規模で削減ができたことで、既に実はこの移行プロジェクトのもとが取れているらしい。

OpenSearchCon 2022 - Splash OpenSearch の年次カンファレンスが 2022 年 09 月に開催された。面白かったのは、2022 年以降のOpenSearch のロードマップで、現在採用している Document Replication から Segment Replication が導入予定だったり、Gust(Grand Unified Storage Theory)(これは Serverless の事を指している模様)[^opensearch]導入などなど、フォーク元の Elasticsearch と方向性が違うロードマップで非常に興奮した。

Google Cloud の検索サービス「Retail Search」をサンプルデータでクイックに試す

日本語もサポートされているのは初めて知りました。自社で検索エンジンを運用せずにフルマネージドで検索機能が使える選択肢が増えるのは素晴らしいですね。

検索システムで再現率向上に取り組んだ話 - コネヒト開発者ブログ

この記事では、再現率(recall)向上にどうやって取り組んだかを説明してくれています。辞書改善と Kuromoji mode を normal から search(より細かい単位で分割される)に切り替えるなどの試行錯誤を共有してくれています。

Tensorflow Recommenders の精度を上げるためのテクニック

Most popular をベースラインとして、TensorFlow Recommenders のモデルの改善方針について紹介。著者の方が推薦領域を業務にしているらしく、経験に基づいてどこを改善すべきか解説してくれていて面白かったです。

Microsoft、検索しても出てこない画像を代わりに AI で生成する技術を「Bing」に実装 - 窓の杜

これは、かなり攻めた施策だなと思った。自分が頭が凝り固まっているのかもしれないが、存在しないコンテンツが検索行動で表示されてそれは果たして検索者にとって嬉しいのだろうか?

Machine Learning & Data Science

How the 2020 Mask Surge Reshaped Etsy’s Taxonomy Capabilities

新型コロナウイルスの感染爆発により、Etsy 上でもその影響で 2020 年 4 月の単回で 650 万人の買い手が発生するほど、マスクが大量に売られた。このマスクの需要が爆発的に増加する中で、遭遇した課題は「Etsy の商品分類は手動で階層構造として構築されており、カテゴリベースでの購入体験としてとても重要だが、存在していなかった」。そのため、コロナウイルスのためにマスクに対応する明確なカテゴリはなく、専用カテゴリを急遽作成した。この新カテゴリの追加には 2 週間を費やしたが、現在は新カテゴリを追加するには数時間で完了するまで、作業コストは削減された。

あえて予測の更新頻度を落とす| サプライチェーンの現場目線にたった機械学習の導入 - MonotaRO Tech Blog

AB テストでは結果が良好だったが、本番システムに展開する前のシミュレーションで発覚したのは、機械学習に基づく需要予測に切り替えると、必要な在庫数が増加するパターンが増え、その結果現場の負担が増加することが懸念された。その負担を軽減するために

モデル切替時に一括で変更するのではなく、徐々に変更する
精度を許容できる範囲で、モデルの更新頻度を意図的に下げて、負担を低減する

と対応されている。

PayPay さんの技術的なお話はあまり目にしないので、珍しかった。データガバナンスやデータマネジメントがメイントピックです。

rinna 株式会社さんが、また日本語ベースの機械学習モデルを公開してくれました。Hugging Face でさっと試せるのは、試すことの垣根が低くなって良い時代になりましたね。

Stable Diffusion with 🧨 Diffusers

Hugging Face が公開している Diffusion モデルの推論を学習を効率的に行うための OSS について。

NLP コロキウム | 実サービスにおける NLP の問題の探し方(Google 検索における動画解釈プロジェクトを例として) (大倉務)

著者も参加させていただき、お話を聞かせていただきましたが、解くべき問題の見つけ方について非常に感銘を受けたセッションでした。

Pixiv で画像アップロード時にタグを推薦する Web API の刷新を行ったお話。刷新するための前提条件がもう少し説明されていれば、開発のモチベーションがもっと共感できるなと思いました。

ニュースレター購読のメリット

substack でのニュースレターの購読をしている方は以下のメリットがあります。

ニュースレターの最新号は、ニュースレターの購読者のみにメールで配信されて先に読める

そのため、ニュースレターの最新号を先読みしたい方はぜひ購読をよろしくおねがいします 😁

また、最新号以降のニュースレターは Web 上で公開されて、誰でも読めるようになっています。

もちろん購読は無料です。

感想など

Twitter で #searchengineeringnewsletter のハッシュタグでつぶやいていただくか、Google フォームでの感想投稿をお待ちしております。また、substack 上でのコメントも歓迎しております。

それらのご感想は執筆の励みにさせていただきます。

もしよろしければ、Buy Me a Coffeeからサポート(投げ銭)していただけると、ニュースレター配信のモチベーションに繋がります ✨

[^etsy]: 3 層の MLP を深層学習って言ってるけど、言って良いのだろうか? [^opensearch]: Amazon OpenSearch Service をサーバレス化する「Amazon OpenSearch Serverless」プレビュー版登場。AWS re:Invent 2022 － Publickey [^nrt]: Yelp が segment replication のために ES を捨てた。Yelp/nrtsearch: A high performance gRPC server on top of Apache Lucene

Search Engineering Newsletter