来週の締切に向けて修正を続けていた。
途中に、最近仕上げているプロジェクとで、sentence embedding を半分に切るものがあるのだが、テキスト生成も、モデルからの embedding を生成する token id に map するために、dot product で類似度を計算する箇所がある。そこで入力となる embedding とそれを処理する、行列をそれぞれ半分にして、学習済みのモデルでテキストの生成ができるか試してみた。 結果として、一つのモデルでいくつかの入力を試してみただけなのだが、生成されるテキストは半分にする前後で同じだった。 これはおもろいので、もう少ししっかりとどれくらいのスケールで問題なく生成ができるのか調べてみたい。
また、これは生成ステップの最後のところで半分にしているだけなのだが、trasformer モデルは、基本的に行列の内積ばっかりのはずなので、もっとモデルの内部のパラメータを適当に切り落としまくった時にどうなるかも調べてみたい。