Search Engineering Newsletter vol.19
今回のイチオシは、 - Elasticsearch と Lucene で学術論文の手法を実装する際に学んだこと - DMM さんの検索システムのリファクタリング です。
今回のイチオシは、
Elasticsearch と Lucene で学術論文の手法を実装する際に学んだこと
DMM さんの検索システムのリファクタリング
です。
Search
Search Engineering Tech Talk 2019 Autumn に登壇しました - 人間だったら考えて
2019 年 12 月時点での資料ですが、Yahoo における検索ランキングの運用方法についての資料です。
NOTE: 3 年以上前であっても、最後のページのランキングモデルで気をつける項目は色あせておらず、この領域の奥深さがわかりますね。
Implementing academic papers: lessons learned from Elasticsearch and Lucene | Elastic Blog
Elasticsearch や Lucene は学術論文で提案された手法を内部で実装していて、どのように実装しているかの説明。そもそも学術論文の手法を入れる正当性(複雑性は上がるが大きなパフォーマンス向上が見込めるなど)があるのかを入念に検討しましょうという問いは非常に重要ですね。
code reading で論文の理解がてら、 Lucene, Elasticsearch でどのように実装されているのかを勉強するのは楽しそうですよね。超大規模 OSS で学術論文が実用化されているのは、大学の講義とかでも紹介されると楽しく学べそうだなと思った。
ログデータと言語モデルを用いた同義語辞書の自動構築 | メルカリエンジニアリング
メルカリの検索において同義語辞書を自動作成できないかの調査記事。
アイデアの元になった論文はUnsupervised synonym extraction for document enhancement in e-commerce search - Amazon Scienceですが、率直なアプローチで同義語作成に挑む論文で非常に好感が持てました。
DMM.com の大規模レコメンド・検索システム改善の舞台裏 - ログミー Tech
2019 年 5 月時点での DMM の推薦・検索システムの解説。ログを使って多数のテストケースを自動生成して、安全に検索システムのリファクタリングに取り組んでいくのは面白かったです。
NOTE: 長年運用されている検索システムのリファクタリングってとっっっっても大変ですよね。テストケースが充実していないと壊さずに移行するのは至難の技なので、最初にテストケースを用意するのは非常に理にかなっています。
Machine Learning & Data Science
Kubernetes AI Day North America | Linux Foundation Events
CNCF 主催の k8s の機械学習活用のカンファレンス
上記の k8s AI Day とは異なる、KuBeflow の年次カンファレンス。こちらのほうが個人的には登壇内容が面白いのが多い。
Kubeflow は使わないけど、k8s で機械学習するというのが k8s AI Day なのだろうか?ゾーニングがいまいちまだわからない
Netflix の既存の機械学習ワークフローのオーケストレーションツールである Meson は、7000 のワークフローと 50 万のジョブがスケジュールされ管理されている。
課題点: 深夜 0 時に起動するジョブが多く、そのせいでオンコール対応者がその時間帯の監視を余儀なくされ辛い。
Mestro という新世代のワークフローオーケストレーションを開発。
個人的に面白いのは。NoteBook(おそらく Jupyter Notebook)を定期的に実行可能にしていたり、Metaflow をかんたんに実行可能にしていたりと、できるだけ簡単にワークフローを実行できるようにする方針が見受けられる。NoteBook の定期ジョブとか管理が怖いんだけど、それを許容しているのも面白い
データ サイエンスと AI チームの価値の計測と最大化 | Google Cloud 公式ブログ
データサイエンスによってもたらされた価値をどう計測するかの解説。削減された時間や費用などなど、多角的に評価するのは大事ですよね。データサイエンスによる改善はほぼ全てがオペレーションの自動化ですしね。
競馬 AI でポルシェを買う話(2020 年総まとめ・+43361 万円) | Matsukaze.AI
AI で競馬に挑んでポルシェを買うお話。収支が億単位で儲かっており、すごいとしか言いようがない。
購入が約 17.5 億、払戻が約 20.8 億で、収支は+3.3 億
以下の戦略はとてもおもしろかった。機械学習でギャンブルって自分は正直想像がつかないが、突き詰めればそれだけ勝てるのは凄い。
好調の要因としては、三連単の開放と独自開発データの蓄積・投入が考えられる
「自動で経理」の推論エンジンってどんなやつ? - freee Developers Hub
freee さんの勘定項目を機械学習で推論する機能の解説。機械学習による会計の勘定項目の自動化は王道の改善ですね。
試行回数の増やし方 2021 年度版 Speaker Deck
研究を効果的にすすめる上で、どうやれば試行回数を最大化できるかについて。
ここらへんの考え方って物凄く生産性に効いてきますが、意識しないと難しい点も多いですよね。これこそ知的生産のコツの一つだなと思います。
上記のスライドの参考資料の一つ。単純だけど奥深いですね。最後の文章がすごく良かったです > 私の知っている「成功している人達」は必ずしも成功率が高い人達で はない.ただ,彼らは例外なく試行回数が多く,失敗も含めて自分のやったことに対する評価 を受け入れる.それは結果であって原因ではないのかもしれない.たとえそうだとしても,そ のあり方は清々しく真似したくなるあり方である.
上記のスライドの参考資料の一つ。NL2013 のチュートリアル資料として公開。Make it work→ Make it right→ Make it fast の各段階はとても明瞭。相変わらず岡崎 直観先生の資料は良き資料が多いですね。言語処理 100 本ノックを作った経緯もここで語られている。
KARTE における MLOps の変遷- Speaker Deck
KARTE さんの機械学習基盤がどのように変遷したか。そのときの必要性に合せて基盤を適宜作成しているのが特徴的です。
NOTE: MLOps の目的は、「ML を使うこと」ではなく、「ビジネスで価値を出すこと」と最初に語っているのが良いですね。
ニュースレターの購読のメリット
substack でのニュースレター を購読してくれている方のみに最新号がメールで配信され先読み可能です
そのため、ニュースレターの最新号を先読みしたい方はぜひ購読をよろしくおねがいします 😁 もちろん購読は無料です。
ニュースレターが更新されるたびに、最新号を除くニュースレターは Web 上で公開され、誰でも読めるようになっています。
感想など
Twitter で #searchengineeringnewsletter のハッシュタグでつぶやいていただくか、Google フォーム での感想投稿をお待ちしております。 また、substack 上でのコメントも歓迎しております。
ご感想は執筆の励みにさせていただきます。
もしよろしければ、Buy Me a Coffeeからサポート(投げ銭)していただけると、ニュースレター配信のモチベーションに繋がります ✨