今日から一日一枚写真を撮ってみようとしている。
GenGO の検索を改善したくて、とりあえず embedding モデルをもう少しいいのにしようと、いくつか一番システムの設定に近いデータセットで評価してみた。結果は久しぶりに post としてまとめてみた (link)。
今使っているのより、nDCG で 10pt くらい向上するモデルが、計算コストを上げることなく導入できそうなのでとりあえずそれに差し替えてみようと思っている。
今作ろうとしていたシステムの上位互換が、勝手にライバル視している研究機関が出してきた。
Ai2 OpenScholar: Scientific literature synthesis with retrieval-augmented language models Ai2
大きめのモデルをオンラインでふんだんに回し生成の質を上げ、データベースも結構大きいものを使い、検索結果の精度を向上するための reranking もしているっぽい。これだけのリソースでこられたらなかなか正攻法ではやりづらい。NLP 研究者向けに自分のシステムはデータベースを絞る予定でいるので、研究者がシステムを使いつつ、モデルの挙動を分析できるような機能を検討して差別化を図りたい。