最近回している実験は強化学習を自然言語処理に応用する系のものなのだが、 Agentの挙動が自分が想定しているようになってくれなくて、その原因の切り分けが なかなかうまく行かない。実装はおそらくちゃんとできているのだが、 報酬関数を完全に無視しているような動作をしている。 問題設定として、そももそ正しくないのか、関数の定義が悪いのか、hyper parameterが なにかしら他のものにするべきなのか。いろいろ試しながら見ているが中々わからない。
その他にはback-translation系を少しずつ調べ始めた。 直接翻訳に使用する以外での役どころとしては、データをかさ増しするために使用される系が 数はそんなに多くない中ではメインな気がする
また、今年の目標にしようとしているスペイン語学習を開始した。 とりあえず、きょうは暗記必須単語を羅列した。 スペイン語は動詞活用を覚えるのが大変なので、そのへんの学習をできるだけ体系化できるように工夫していく必要がある。