Search Engineering Newsletter vol.15
今回のイチオシ記事は、「NDL Ngram viewer」 と リクルートさんの新人研修資料である「検索結果の品質向上」です。
2023 年も、あけましておめでとうございます。
今回のイチオシ記事は、
NDL Ngram viewer の開発説明記事
リクルートさんの新人研修資料である「検索結果の品質向上」
です。
Search
検索結果の品質向上 / Improvement of The Quality of Search Results - Speaker Deck
毎年公開していただいている、リクルートさんの新人研修資料の検索結果の品質向上をテーマにした資料。Lucene をテーマにして検索エンジンがどのようにデータ構造やアルゴリズムを扱っているかを説明してくれている。去年の記事も面白かったですが、今年の資料も変わらず非常に面白いです。
NDL Ngram Viewer に関する学会発表がじんもんこん 2022 のベストポスター賞を受賞しました|国立国会図書館―National Diet Library では、NDL Ngram Viewer という日本語版 Ngram viewer が公開されたらしく、これは素晴らしいツールですね。
発表資料などは日本語資料の全文テキストデータ分析ツール NDL Ngram Viewer の開発についてにまとめられており、非常に面白かったです。
内部では Elasticsearch x kuromoji で Ngram viewer が動いているらしく、技術的にもとてもおもしろいお話でした。表記ゆれが多い日本語でも活用できるように正規表現検索が利用可能だったりと、色んな技術的工夫が見て取れます。
Chatwork さんが、Chatwork 内部の検索を AWS の CloudSearch から Elasticsearch に移行したお話。2020/06 時点で 60 億以上のメッセージが検索対象で課題が見えてきたので、移行を検討。
移行の条件としては、マネージドで利用できる検索はこの記事時点では ElasticSearch しかなかったので、移行の検証を開始。
NOTE
: EC 検索や Web 検索と違って、チャットツールの検索はまた違った困難さがありそうで面白そうですね。
サジェスト機能の改善を評価する社内ツールの紹介 - ZOZO TECH BLOG
社内での検索クエリサジェスト機能の評価ツールの紹介。
NOTE
: 内部での評価基盤の情報を公開してくれるのはありがたいですね。
Machine Learning & Data Science
機械学習プロジェクトの開発について(MLOps) 〜推薦システムを題材に〜| masa_kazama | note
推薦システムを題材にした MLOps の講義資料。実際に講演者の kazama さんが執筆した推薦システム実践入門 ―仕事で使える導入ガイド のサンプルコードの実例を交えつつ演習が提供されてある点がすごく良いですね。推薦システムと MLOps の両方を題材にしつつ、最後は OSS に貢献するお話や便利なツールを使ってみようで締められており、非常に有意義な資料となっている。
LINE、昭和前期以前の資料にも対応する OCR モデルを開発し国立国会図書館のデジタル化資料 247 万点のテキストデータ化を完了 - Digital Shift Times
LINE さんのが独自の OCR モデルを作成し、見事にテキストデータ化を改善。
国立国会図書館が提供する実験的なサービスNDL ラボでその詳細が公開されている。
例えば、OCR 処理プログラム及び学習用データセットの公開について | NDL ラボ でも紹介されているが、OCR テキスト化事業での成果物が GitHub ndl-lab/pdmocrdataset-part1で公開されており、非常に良い取り組みがされています。税金で実施されたプロジェクトの成果物がちゃんと全国民がアクセスできるなんて素晴らしいですね。
Run GPU workloads on GKE Autopilot | Google Cloud Blog
GKE Autopilot で GPU が利用できるように。機械学習関係の Pod を GKE 上で GPU で走らせたい際にはこれはかなり便利そうですね。
2022/09 時点の Generative AI の大躍進をわかりやすくまとめてくれています。
NOTE:
現状この記事を書いている今でも、大規模モデルによる現実世界適用はとどまるところを知らず、まさにブレークスルーを現在進行系で感じており、この激動の時代に生きていることが面白いですね。この前知り合いと話していたときにも、自分たちが 1 年前に今の状態を果たして予期できたか?と盛り上がりましたが、それぐらい進展度が凄いですね。
パフォーマンス、コスト、キャパシティ プランニングのための Dataflow ジョブのベンチマーク | Google Cloud 公式ブログ
GoogleCloudPlatform/PerfKitBenchmarkerが Dataflow ジョブのテストに対応し、Dataflow のベンチマークテストをより効率的に行えるように。
機械学習基盤 Hekatoncheir における Web API サービングの取り組み | DeNA TechCon2022
DeNA さんの今まで運用している機械学習基盤に、サービング機能を追加して改修したお話。
機械学習で実現するヤフーの OCR(文字認識技術)〜 PayPay フリマ 本棚出品での活用事例 - Yahoo! JAPAN Tech Blog
PayPay フリマでの端末上で OCR を行い、本棚の本を一括出品できる機能の紹介記事。
NOTE
: Yahoo さんの特色ですが、プロダクトと研究開発が連携して先端的な機能を提供できているのは、毎度のことながら面白い組織だなと思います。
「PyCon JP 2022」での登壇「実践:日本語文章生成 Transformers ライブラリで学ぶ実装の守破離」の発表資料。Transformers ライブラリを利用する際に守破離の三段階での活用レベルを説明してくれている。
KDD2017 で発表された Google 内部のブラックボックス最適化サービスが遂に OSS として公開されました。
NOTE
: 現状、Katib や Optuna などがあるなかでの OSS 化することの価値はどうなんだろうと思っていたのですが、同僚の意見である「OSS 化することで、GCP の同様のサービスが安心感を持って使えるようになることが狙いでは?」と聞いてなるほどその戦略も有り得そうですね。
前年度は 13 号分配信しましたが、今年は少なくともそれよりも多く配信したいと思います。 また、記事が見やすくなるかなと思って、試験的にリスト形式で書くようにしてみました。 当初は文章として書きたいなと思い書き始めたのですが、リスト形式でまとめたほうが書く記事のまとまりが非常にわかりやすくなるので、しばらくこのスタイルで書いてみます。
ニュースレターの購読のメリット
substack でのニュースレター を購読してくれている方のみに最新号がメールで配信され先読み可能です
そのため、ニュースレターの最新号を先読みしたい方はぜひ購読をよろしくおねがいします 😁 もちろん購読は無料です。
ニュースレターが更新されるたびに、最新号を除くニュースレターは Web 上で公開され、誰でも読めるようになっています。
感想など
Twitter で #searchengineeringnewsletter のハッシュタグでつぶやいていただくか、Google フォーム での感想投稿をお待ちしております。 また、substack 上でのコメントも歓迎しております。
それらのご感想は執筆の励みにさせていただきます。
もしよろしければ、Buy Me a Coffeeからサポート(投げ銭)していただけると、ニュースレター配信のモチベーションに繋がります ✨