Search Engineering Newsletter vol.16
今回のイチオシ記事は、 「Stable Diffusion with Core ML on Apple Silicon」 「BigQuery ML で商品一覧画面の並び順を改善して売上を 40%上げた話 - OVERS」 です。
今回のイチオシ記事は、
「Stable Diffusion with Core ML on Apple Silicon」
「BigQuery ML で商品一覧画面の並び順を改善して売上を 40%上げた話 - OVERS」
です。
Search
Elasticsearch による全文検索システムの開発 - MONEX ENGINEER BLOG │ マネックス エンジニアブログ
マネックスの投資信託の検索機能は Elasticserach での構築
検索エンジンを Elasticsearch に移行するまでに起きたこと、やったこと
RDB での検索が限界だったので、1 週間で Elasticsearch への移行を完了しており凄い。
この記事に関連する実践テスト駆動開発!ES のクエリビルダをテスト駆動で実装してみるも面白かった。 第 17 回 Lucene/Solr 勉強会 #SolrJP – Apache Lucene Solr による形態素解析の課題と N-best の提案
BERT を用いて膨大なコンテンツにメタデータを自動付与する 〜 Yahoo!ショッピングの商品属性推定 - Yahoo! JAPAN Tech Blog
既存ですでに運用されているロジスティック回帰と比べて、オフラインで BERT により属性推定が大きく改善された。
ロジスティック回帰より良くなるのは、ほぼほぼ約束された結果な気もするが、Yahoo shopping 検索で計画している、今回の BERT を用いた AB テストでどれくらい改善されるのかは気になりますね。
BigQuery ML で商品一覧画面の並び順を改善して売上を 40%上げた話 - OVERS
機械学習で在庫毎のスコアを計算して Solr に格納することでおすすめ順を実現。
最終的に成功するまでの 5 段階でどのように仮説検証していったかを説明してくれており面白い。最初は Auto ML を使っていたのを速度重視にするために Google BigQueryML を使って、高速に試行錯誤する戦略に切り替えたのは、頭良いですね。 また、SQL だけで特徴量生成から推論まで行える BigQuery ML はハマれば本当に強力そう。
検索のパラメータチューニングを効率化するツールについて - TVer Tech Blog
TVer さんでは、Amazon OpenSearch を使って検索基盤を構築している模様。メタデータのスコアリングの重み付けが柔軟に試行錯誤できなかった状態だったが、それをオフラインで簡単に確認できるようにした。
ここらへんのパラメータ調整は確かに GUI で調整できるのはすごく効率的ですね。自分も普段 Tver を使わせてもらっていますが、日々色んな箇所が改善されていて好きなサービスです。
Amazon OpenSearch Service で 構築する TVer の次世代検索基盤 - Speaker Deck
Tver では Amazon Aurora(MySQL)で検索を行っていたが、機能拡張するために Amazon OpenSerach に移行。
Machine Learning & Data Science
MLOps 年末反省会: Triton Inference Server を深層学習モデル推論基盤として導入したので振り返る | CyberAgent Developers Blog
GPU で推論を行える Triton Inference Server の運用記事はかなり珍しい気がします。 GPU で動かすなら、運用費用も気になるので、その点が同変化したのか気になりましたが、言及はされていませんでした。残念。
Dataflow 前編(Dataflow の概要から Apache Beam の使い方まで) | フューチャー技術ブログ
Dataflow 後編(Dataflow の事前準備から Pub/Sub・BigQuery との連携例まで) | フューチャー技術ブログ
データの分散処理を実現できる Dataflow とそのプログラミングモデルである Apache Beam の紹介記事。
日本語で Beam や Dataflow に関する記事はあまりなく、丁寧に紹介記事を書いてくれているのはありがたいですね。
spaCy 固有表現抽出(+Presidio)によるドキュメントの情報漏えいリスクチェック支援 - OPTiM TECH BLOG
Spacy とpresidioを使って、個人情報を抽出。
presidio は初めて知りましたが、microsoft が開発しているんですね。面白い。
Stable Diffusion with Core ML on Apple Silicon - Apple Machine Learning Research
Apple が公式で開発し、StableDiffusion が CoreML で最適化され、動くように。初期にモデルさえダウンロードしたら StableDiffusion がネットにつながっていなくてもある程度高速に動くのは夢がありますね。
apple/ml-stable-diffusion: Stable Diffusion with Core ML on Apple Silicon
実行結果が公開されているが、どれだけ長くても約 40 秒以内には、実行完了する模様。
個人的に Apple のこの動きはとてもおもしろいですね。それだけ StableDiffusion がゲームチェンジャーと見込まれたからこそ公式で提供されたのではないのかなと。Android との生成系モデルを使ったアプリの競合優位性も発生するので、Google も公式で StableDiffusion を公開しないと、将来的に iOS と Android で生成系のアプリの数が全然違ってきたりすると面白いですね。
Rust で深層学習モデルのランタイムを作成。制作過程で色々学んだことが吐露されていますが、各種演算回りの実装などの話が面白い。
ニュースレターの購読のメリット
substack でのニュースレター を購読してくれている方のみに最新号がメールで配信され先読み可能です
そのため、ニュースレターの最新号を先読みしたい方はぜひ購読をよろしくおねがいします 😁 もちろん購読は無料です。
ニュースレターが更新されるたびに、最新号を除くニュースレターは Web 上で公開され、誰でも読めるようになっています。
感想など
Twitter で #searchengineeringnewsletter のハッシュタグでつぶやいていただくか、Google フォーム での感想投稿、この記事へのLike などをお待ちしております。
また、substack 上でのコメントも歓迎しております。
ご感想は執筆の励みにさせていただきます。
もしよろしければ、Buy Me a Coffeeからサポート(投げ銭)していただけると、ニュースレター配信のモチベーションに繋がります ✨