instruction data の作成方法を調べてみたりした。 alpaca は手動で作成した 175 件の task, input, output のデータを text-davinvi で水増しして、llama を fine-tune したみたい。 むしろ 175 件を元にあれだけの性能のモデルを作れるのは驚き。 何かしら自分のタスクに特化したデータを用意することができれば面白そう。 これらのモデルはいかんせん評価が難しいのだが。

Benchmarking Large Language Models for News Summarization を読んだ。

These factors in combination lead to the fact that we may have reached the limit of single document news summarization.

summaries written by well-paid freelance writers also may not outperform LLM summaries significantly.

とかある。もう xsum, cnndaily の時代は終わりなのかもね。 これらのデータセットでもうまく要約出来ていないサンプルはあるかもしれないのでそんなもののトレンドを探すのは面白いかもね。

夜にはジャーナルのカメラレディを提出した。 overleaf からそのままの latex files ではジャーナル側のプラットフォームでコンパイルできなかったので構造を少しいじる必要があったので焦ったが無事完了したと思う。