gsum のモデルの実装ができたので実際にどれくらいパラメータが多くなったか調べてみたら、18% 増だった。 元のモデル (bart-large) がだいぶ大きいのでこれは結構な差だな。 実装が間違っている可能性はないわけではないがだいたいこれくらいの増加はしているだろう。

食後同僚の提案で、ラボ近くのうまいカフェでエスプレッソ飲んできた。 職場にはきているものの、なんとなくみんな休暇モード。