家から作業。

ある論文で事前学習に使われていたデータを見ていたのだが、各言語ごとのデータに、言われている言語とは違うテキストがたくさん入ってるのを発見してしまった。これでは、あまり正確にこの論文での論点を示せない気がする。 これに類似したデータが欲しいと思っていたので、これに対して、重複を削除して、言語判定でのフィルタリングを適応してみている。