このリトリート中の二日間はグループに分かれてプロジェクトをする予定になっていた。自分らは、最近でた性能が良いと言われている推論に強いモデルがどれくらいテキストを評価する能力があるかのベンチマークをしてみていた。数人でガンガン実験を進めれたのでだいぶ効率よく良いペースで雑ではあるが情報を集めることができた。結果としては、あまり一貫した感じではなかったのだが、最高精度とは言わないものの、だいぶ高い性能が出て便利そう。ただ、大きいモデルなので大規模な評価を回すのにはコストが高くなりそう。