午前中は大学の人事のオフィスに行って、五月までの契約にサインしてきた。そのあとは、デモプロジェクトの論文を書く際に使おうと思っている評価用のコードを少し書き、博論のテキストを少しだけ書こうとした。少し書いただけで、昨日ひと段落させたアウトラインを早速修正したくなったが、とりあえず、テキストをこのまま進めていこうと思っている。
評価用のコードができたので、llama の二つのモデルを要約タスクで評価してみていた。最近検索の文脈で embedding をぶった斬るってことをしていたので、生成モデルでにたことをしたらどんなことになるか簡単な実験をしたみた。自分の ACLSum データセットで、最後の hidden state と token embeddings を半分に切ると rouge にどんな影響が出るか調べてみた。結果として、幾つかの rouge 指標で、95%の性能はだいたい保持された。検索での結果と類似しているとはいえ生成でもこんな結果になるのは驚き。