昨日の午前中にやっていた草サッカーの影響で全身筋肉痛な一日だった。 下半身だけじゃなくて、首、肩から本当に全身かなりいたい。なさけない
実験の経過をみていたのだが、ちょうどcheckpointをdumpするコードを書いていない実験をしていた日に 何故かserverが夜中のうちに再起動していたので、そのコードを追加して実行し直す必要があった。
実験の経過自体も、報酬を全然最大化するように最適化していなくて、同じアクションばかり取っている。 他のアクションをある程度ランダムで選択するようにする必要があるのか、報酬の定義がよくないのか いまいち問題を切り分けることができていない。