auto evaluation for mt

auto evaluation for mt 2019-02-05

今日は、前回の文生成関連の調査が一段落したので自動翻訳の性能を自動的に評価するための手法に関して調査していた。

参考になったのはWMT 2018にmetrics taskってのがあって、そこでshared taskとして同じ問題が扱われていたのでそこから文献を漁っていた。

自分が予想していたように、dialog systemで昔触ったみたいな dual encoderdual encoderみたいなノリで人間の評価値を推定するのが一般的な感じぽい。

なんか追加で実験できることがないか少しずつアイディアがあるので、温めて行きたい。