適当なデータ使って分析か

適当なデータ使って分析か 2023-05-08

家から作業。

ある論文で事前学習に使われていたデータを見ていたのだが、各言語ごとのデータに、言われている言語とは違うテキストがたくさん入ってるのを発見してしまった。これでは、あまり正確にこの論文での論点を示せない気がする。これに類似したデータが欲しいと思っていたので、これに対して、重複を削除して、言語判定でのフィルタリングを適応してみている。

« 村上の歴史を順に追っていく金はない仕事も嫌だ何をする »