今回のイチオシは、Twitter の推薦&検索システムの OSS 化です。
Search
Twitter's Recommendation Algorithm
Twitter の推薦アルゴリズム、検索システムにかんするコードが全て OSS で公開されました! 以下は関連した記事です。
「Twitter のタイムラインをごちゃごちゃにする仕事」は本当に実在したのか? 話題の元 Twitter エンジニアに聞いた
この記事はイーロン・マスクによる買収劇によるレイオフがきっかけで書かれた記事ですが、自己の直観と AB テストの成果の剥離は非常に納得でき、データがあくまで正義という姿勢は素晴らしいです。 RSS リーダーはおすすめ順ではなく、最新順のみ提供する完璧主義者のためのツールと言われていて、たしかにそうかもと思ったり...
Twitter の推薦機能について調べたり眺めたりしたメモ - Re:ゼロから始める ML 生活
日本語での Twitter の推薦アルゴリズムの解説
自分のブログでも、この流れを受けて Twitter の検索エンジン Earlybird についての解説記事を書きました。
現在 Lucene の KNN ベクトルの最大次元数は 1024 次元 だが、それを 2048 次元に変更できないかという議論 | hurutoriya
Lucene の近似近傍探索の最大次元数の拡大についての議論。
https://github.com/elastic/elasticsearch/pull/95257
Elasticsearch は 3 週間前に 2048 次元まで扱うことが可能なパッチが入ったみたいです。
Machine Learning & Data Science
note、GPT-3 を用いた note の AI 機能群の、第二弾を公開| note 株式会社
GPT 活用のお手本のような事例ですね。note は文章の執筆プラットフォームなのでとても相性が良さそうです。
ChatGPT で無限に広がる会話体験!進化したキャラクター召喚装置 Gatebox |マクアケ - アタラシイものや体験の応援購入サービス
自分がこれはすごいプロダクトだと感じていた Gatebox が、whisper と ChatGPT が出てきたことで完全に未来が来ている。ロックマンエグゼ現役世代としても涙がこぼれそう。動画を是非見てほしいです。
ChatGPT に大きな可能性を感じていた私たちは、API 公開の翌日に全ての予定をキャンセルし、ChatGPT との連携に向けた開発に着手。そしてその日のうちにデモ動画を Twitter に公開しました。
エンジニア兼 SF 作家が GPT-4 執筆支援を実戦投入できないか実験してわかったこと| Anno Takahiro | note
anno さんが公開した GPT-4 による執筆支援の検証。自分も書籍翻訳で GPT を活用していますが、かなり未来を感じています。特に日本語の校正や修正案などは一人で赤入れをもらえる体験で、非常に頼もしいです。
OpenAI API を用いた文書校正(誤字脱字検出) | blog.jxck.io
同じように GPT を使って文章の校正を行う取り組み。スタンドのように文章校正を行えるのは素晴らしいですね。Google Docs や Microsoft word でも標準搭載されてほしい! (Google Docs は日本語にも対応した校正機能などは今も存在するが、GPT 以前からあるので、GPT は使われていなさそう)
ChatGPT で御社(AI スタートアップ)は倒産しないの?という声に - Make 組ブログ
校正ツールを提供している Shodo を開発してる hirokiky さんが、GPT 到来でもまだ必要性はあるというご意見。ここの意見には完全に同意です。例えば、今自分は技術書の翻訳を行っていますが、数ページならまだしも書籍全体に GPT による処理を実行することはトークンの制限上不可能です。そのため執筆で抑えておきたい表記ゆれや、そもそもの個別の辞書対応など一貫性を保つために必須なタスクは(今のところは)実現できなさそうです。
作品の宣伝文を自動生成!「minneAI アシスタント」の提供を開始します
国内でも GPT の活用ニュースがバシバシ流れてくるようになり素晴らしいですね。高速にリリースするためにアプリは一旦捨てて、Web でのみ機能がリリースされているのかなと思いました。
こちらも素晴らしい速度でのリリースでした。Q&A サイトの GPT 活用事例です。そもそも定量評価したデータを公開せずに、すごいでしょとチェリーピッキングの結果しか見せないところが大半の中、(50 サンプルで有効性が語られているのは心配ですが)定量的にどれくらい改善されたかのデータを公開しているだけ非常に真摯だなと感じました。
半年から 1 年で世界は変わるーー ChatGPT が起こす変革、東大松尾教授一問一答 - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報
松尾先生がインタビューに対して、語気を強く返していて、めっちゃ正論だなと思いました。
**ここが「よーいドン」だと **松尾:**こういった質問自体がそもそもおかしいのですが、日本の問題として、他人事にしちゃうんですよね。誰かがやるべきだとか日本にチャンスはあるのかとか、教育が悪いとか国が悪いとか。そんなことを言ってるから駄目なんです。やりたいと思った人がやればいいんですよ。
NLP2023 緊急パネル:ChatGPT で自然言語処理は終わるのか?(言語処理学会理事会主催
言語処理学会で非常に気になっていたパネルディスカッションが公開されました! 公開されないだろうなと思っていたら、まさか公開してくれるとは。学会前のかなり直前にこのパネルディスカッションの開催が決まったらしく、学会でその速度感でイベント運営されるのは脱帽者です。
岡崎先生の大規模言語モデルに対する俯瞰的な説明。
Lean AI 開発論: コードを書く前に機械学習プロジェクトを評価する方法| Anno Takahiro | note
Lean startup の考え方を機械学習モデルのビジネス活用に活かしてみよう提案。リーンキャンバスを機械学習活用に活かそうという考えはありましたが、具体的に精度がどれくらいあればどれくらいの価値が提供できるのかと具体的に踏み込める考えになっているので良いなと思いました。
Microsoft が LLM をアプリ開発に統合するための OSS「Semantic Kernel」を発表 - Qiita
LLM をアプリに組み込む際に、効率的に組み込みが可能になる SDK を発表。microsoft/semantic-kernel: Integrate cutting-edge LLM technology quickly and easily into your apps にてリポジトリが公開されています。
Google も Apple などのプラットフォーマーは自分たちが提供する OS の Android, iOS のアプリに組み込めるように近々発表してくると思います。
という話を友人たちと盛り上がって話していました。 LLM(大規模言語モデル) 妄想雑記 | hurutoriya
Preferred Robotics さんが手掛ける、自動運転による動く家具。ロボットが家庭に当たり前のように存在するのは未来を感じますが、その黎明期にこれから入っていくのでしょうか?
余談
前回の更新以降、仕事がバタバタしており更新できていませんでしたが、ゴールデンウィーク初日に一人の時間が突発的に発生したので、急遽勢いに任せて執筆しました。 自分の Blog で記事を書いたり、コードを書くことが楽しくて、気を抜くと更新が滞ってしまいますが、長期的に継続していくためには仕方ないねと自分を納得させつつ、不定期配信にはなりますがほそぼそとこのニュースレターを継続できたらなと思っています。
ニュースレターの購読のメリット
substack でのニュースレター を購読してくれている方のみに最新号がメールで配信され先読み可能です
そのため、ニュースレターの最新号を先読みしたい方はぜひ購読をよろしくおねがいします 😁 もちろん購読は無料です。
ニュースレターが更新されるたびに、最新号を除くニュースレターは Web 上で公開され、誰でも読めるようになっています。
感想など
Twitter で #searchengineeringnewsletter のハッシュタグでつぶやいていただくか、Google フォーム での感想投稿をお待ちしております。 また、substack 上でのコメントも歓迎しております。
ご感想は執筆の励みにさせていただきます。
もしよろしければ、Buy Me a Coffeeからサポート(投げ銭)していただけると、ニュースレター配信のモチベーションに繋がります ✨