輪行があるので昼前から出ラボした。今週は自分が担当だったので、

“LLM Evaluators Recognize and Favor Their Own Generations”

って名前の論文を紹介してきた。色々と実験の設計に問題があるってことになったのだが、LLM evaluator の持つ問題点の一つに関して少しだけだが理解が深められる内容になっている気がする。メインのテーマではないのだが、この論文読んでいる時に出てきた、ordering bias ってのが面白い。複数選択肢がある問題の時に、内容を変えなくても、提示する順番を変えるとモデルが答えを変えるって問題。機械のなので人間と違って安定した出力をしてくれそうだと思いがちな気がするのだが、全然そうではないっぽくてもはや人間なのでは。

夕方からはピタを食べてからボードゲームした。めっちゃ時間かかって帰宅は深夜になり、そして最下位だった。