前の同僚から、日本語の有害テキストを元にしたデータセット構築の相談を少し前から受けており、今日、ようやくなんとなく手を動かしてみた。 有害なテキストと、それの有害じゃない版のペアを用意する必要になるのだが、有害度合いが高すぎると、言い換えをすることができないのでちょうど良い塩梅の有害テキストを見つけてくる必要がありそれが難しい。適当にネットのテキストから、有害検知器で有害と判断されたテキストを眺めてみると、人間が嫌いになるくらい酷いテキストばっかになる。 とりあえず単純な有害単語リストを作り、そこから有害っぽいテキストを収集し、それをどうにか言い換えできるレベルのものにフィルタリングしていく。