Search
情報検索・検索技術 Advent Calendar 2022 - Adventar
2021 年に引き続き、検索技術に関するアドベントカレンダーを作成しました。12 月に入ったので、アドベントカレンダー自体始まっていますが、12/14,16 の枠がまだ空いているので興味のある方はぜひご参加ください。現時点で、21 人の方にご参加してもらっています! 感謝!!
日本語用オートコンプリートのための Analyzer | @johtani の日記 3rd | @johtani's blog 3rd edition
ローマ字入力のゆれと読み(JapaneseCompletionAnalyzer その 2) | @johtani の日記 3rd | @johtani's blog 3rd edition
マルチテナンシー下での Query Auto Completion 設計・運用戦略 - LegalOn Technologies Engineering Blog
クエリ自動補完(Query Auto Completion) に関する記事。@johtani さんがかなり詳しく解説してくれています。 @mocobeta さんが自分で開発して、そのまま Elasticsearch にプルリクエストを作ってマージされているとかかっこよすぎませんか? 日本人のコミッターがいるおかげで、日本語周りの機能が拡充されるの本当にありがたいですね。
〇〇みたいな検索作ってと言われたときに考えること / thinking before developing search system like that one - Speaker Deck
検索ジャーニーから何が価値がある機能なのかを決めましょうとデータがないとなんにもできないよという非常に大事なお話。
@asteriam さんによる検索エンジン内製化に関する記事シリーズ。 AWS 上で、検索基盤を構築しており、AWS の各種サービスをフル活用しており参考になります。
グーグル、検索で国ごとに最適化 アジア主要国にチーム: 日本経済新聞
(他国と比べて)日本での検索ワードは簡潔なことが多い
とのことですが、自然言語的に検索してもまともな検索結果が出ないのだから、検索者がそういう傾向があるわけではなく検索者がチューニングしていった結果ではと思ったり。Google 検索は、例えば BERT の適用も英語だと完全に終えているらしいですが、日本語だとどうなっているんだろうか?
オンラインショップの商品検索改善に挑戦!KDD CUP 2022 で 9 位入賞した手法の紹介 - ENGINEERING BLOG ドコモ開発者ブログ
ドコモの研究者の方が、KDD2022 で開催された Amazon の検索に関するタスクで 9 位に入賞したの解放に関する解説記事。
MAU4 億人の Pinterest が、ホームフィードに推薦モデルを利用して 16%エンゲージメントを改善した。大規模モデルで推薦を行おうとすると CPU では、コストとレイテンシーが 100 倍近くに跳ね上がるが、GPU に移管して同じコストでレイテンシーは 100 倍高速化することに成功して、大規模モデルの導入が可能になった。
GPU に移行しても、CPU のときと比較してもコストを抑制できたのは驚きました。
Etsy Engineering | Faster ML Experimentation at Etsy with Interleaving
Etsy での検索の実験の際にインターリービングを導入して高速に実験を行っている。
Machine Learning & Data Science
Productionizing ML with workflows at Twitter
2018 年時点での Twitter の機械学習基盤に関する記事。主に AirFlow を使って各種タスクを実行している。
Sharing learnings about our image cropping algorithm
2021 年時点での Twitter での画像クロッピングアルゴリズムが、人種間で公平に働いていないことに関する調査。
メルカリが自社のデータを研究用のデータセットとして公開。商品画像は TB くらすというなかなかのスケールです。NII を通じて企業のいろんなデータセットが公開されていますが、産学をつなげる素晴らしい仕組みだと思います。
突然注目を集めた AI 画像生成 Midjourey を運営する社員 10 人の「零細企業」の裏側
AI 画像生成を提供する Midjourney に関する紹介記事。創業者はLeap Motionの 創業者だったのは初めて知った。Big Tech 以外が画像生成モデルをサービスとして現実的に提供可能というのは面白い事例ですよね。
OpenRAIL: Towards open and responsible AI licensing frameworks
OSS のソフトウェアと同様に、機械学習領域でも公開され責任のある機械学習開発が促進されるようなライセンス Open RAIL を Hugging Face が提案。
Comments on U.S. National AI Research Resource Interim Report
Hugging Face がホワイトハウスと全米科学財団から、国家的な人工知能ワークフォースをどう立ち上げるべきかについての回答を公開してくれている。
Pub/Sub launches direct path to BigQuery for streaming analytics | Google Cloud Blog
Pub/Sub から直接 BigQuery にストリーミングで保存できるように。zero ETL ともよばれている機能で、クラウドベンダーでないと実現できない旧欲的なデータ連携機能ですね。
またこの zero ETL では、BQ にデータを書き込む代金は無料になり、代金的にもお安くなるらしい。すごくない?
Better yet, you no longer need to pay for data ingestion into BigQuery when using this new direct method. You only pay for the Pub/Sub you use. Ingestion from Pub/Sub’s BigQuery subscription into BigQuery costs $50/TiB based on read (subscribe throughput) from the subscription.
PFN とヤフーさんが合同で開催してくれている k8s 上でのオンプレ機械学習基盤に関する勉強会の第二回目。 ヤフーさんで起きた障害で、街のネットワークが落ちたからサーバーが落ちたと書いてあり、オンプレならではの課題が語られており面白かった。 PFN さんの第 1 回目の講演の記事はこちらで拝見できます。
PyTorch strengthens its governance by joining the Linux Foundation | PyTorch
Welcoming PyTorch to the Linux Foundation - Linux Foundation
PyTorch が Linux Foundation に参画。これから機械学習活用がますます推進されていく中で、Linux Foundation が牽引することで中立性を重視した開発をおこなっていくとのこと。
Google は TensorFlow とは切っても切れない関係なので、同様の行動は難しそうです。これから、TensorFlow と PyTorch の OSS コミュニティとしての動きは両者とも方向性がかなり異なってきそうです。 PyTorch は現時点で 65000 人に開発者が参加した OSS で歴代でも最も作成した OSS プロジェクトの一つらしく、凄まじい規模になっていますね。
Meta から Linux Foundation へ “passing us the torch” 松明を渡す
という洒落が最後の文で書かれており、オシャレですね。
総括
今年から始めた Search Engineering Newsletter ですが、合計 12 本のニュースレターを書くことができました。 途中からよほど面白くない限りは、じっくり精読をするのをやめて速度感を意識して 1 記事 5-10 分を意識して読むようにすると良いペースを保てるようになってきました。 精読に傾倒しすぎて、それが重荷になって記事を読む習慣がなくなるのは避けたいですからね。
そのおかげで 1 時間くらいで 1 ニュースレター書けるようになったので、来年は 2 週間に 1 記事くらいは書きたいですね。でないとキューに記事が入る速度に追いつかない。 現状書いているニュースレターも、現在の時間軸と比べると 4 ヶ月くらい遅れているのでこれを 2 ヶ月以内にはおさめたい。
自分が検索技術に関わっている限りは、良いインプットの習慣として継続していきたいと思っています。
Supporter さまへの感謝
敬称略: Yuki
さん, @sz_dr
さん, @k-yomo
さんらにこのニュースレターに対して、buymeacofee を通じて投げ銭を贈っていただきました。自分の書いた記事に対して投げ銭をいただくのは初めての体験で、非常に嬉しかったです。 また、Twitter 上でのハッシュタグの感想も励みになっております。
来年もよろしくおねがいします。
ニュースレターの購読のメリット
ニュースレターの最新号は、ニュースレターの購読者のみにメールで配信されて先に読める
そのため、ニュースレターの最新号を先読みしたい方はぜひ購読をよろしくおねがいします😁 もちろん購読は無料です。
ニュースレターが更新されるたびに、最新号以降のニュースレターはWeb上で公開され、誰でも読めるようになっています。
感想など
Twitter で #searchengineeringnewsletter のハッシュタグでつぶやいていただくか、Google フォーム での感想投稿をお待ちしております。
執筆の励みにさせていただきます。
もしよろしければ、Buy Me a Coffeeからサポート(投げ銭)していただけると、ニュースレター配信のモチベーションに繋がります✨