強化学習におけるrl​TrainingOp​tionsについての​質問

現在DQNを構築し、
他のソフトを環境として強化学習を実行しています。
環境側で1エピソード分の作業が終了した後、
次のエピソードが始まるまでに15秒ほど時間がかかるのですが、
その間にmatlab側では100エピソードほど進んでしまいます。
そこで、
rlTrainingOptionsなどを用いて1エピソード目の評価を行ったあとに15秒待機する、
といったような設定を行うことは可能でしょうか。

4 Comments

MATLAB, Simulinkと「他のソフト」を連携して動かす際に、どのようにして連携しているのでしょうか。その連携手法に、計算時間を同期させて動かすモードがあれば、それで問題無いように思えますが。
仰っている、時間で待機して同期させるやり方は、何かのタイミングで同期がずれる可能性があり、再現性が良くないと思います。
Y. M
Y. M on 3 Dec 2020
Edited: Y. M on 3 Dec 2020
ご指摘いただきありがとうございます。
時間で待機させる点に関しましては、
matlabと別ソフトのどちらが動くのかの判断を、お互いに出力し読み込ませているため問題はないかと思われます。
ただ、どうしても別ソフトが1エピソード終了し次のエピソードが始まるまでに
報酬0という結果が数エピソード分matlab側から返ってきてしまいます。
Y. M
Y. M on 3 Dec 2020
初歩的な質問で大変申し訳無いのですが、
IsDoneによって各エピソードの終了判定がされている、という認識で間違いないでしょうか。
Y. M
Y. M on 4 Dec 2020
すみません、自己解決しました。

Sign in to comment.

Answers (0)

Asked:

on 3 Dec 2020

Commented:

on 4 Dec 2020

Community Treasure Hunt

Find the treasures in MATLAB Central and discover how the community can help you!

Start Hunting!