頼まれていた論文のレビューをして、輪読の準備を開始し、外部と協力しているプロジェクトのコードを書き実験を開始、と、結構マルチタスクに色々と進めた。 今週、輪読の担当なのだが、一本の論文というよりは、LLM の評価によく使われているベンチマークのデータセットがどんなものなのかさらってみる、ってことをしてみたい。 名前はよくみるのだが、中身がどうなっているか自分はよく知らないし、これらのベンチマークの数値をもとに、モデルの良し悪しを、それがいいことかは知らんが、よく議論することはあるので、多少はどんな評価をしているのか知っておく必要はあると思うので。