2024/02/14 更新

イマガワ タカヒサ
今川 孝久
IMAGAWA Takahisa
Scopus 論文情報  
総論文数: 0  総Citation: 0  h-index: 3

Citation Countは当該年に発表した論文の被引用数

所属
大学院情報工学研究院 知的システム工学研究系
職名
助教

取得学位

  • 東京大学  -  博士(学術)   2018年03月

  • 東京大学  -  修士(学術)   2015年03月

  • 東京大学  -  学士(教養)   2013年03月

学内職務経歴

  • 2024年02月 - 現在   九州工業大学   大学院情報工学研究院   知的システム工学研究系     助教

論文

  • DROPOUT Q-FUNCTIONS FOR DOUBLY EFFICIENT REINFORCEMENT LEARNING 査読有り 国際誌

    Hiraoka T., Imagawa T., Hashimoto T., Onishi T., Tsuruoka Y.

    ICLR 2022 - 10th International Conference on Learning Representations   2022年01月

     詳細を見る

    担当区分:最終著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)

    Randomized ensembled double Q-learning (REDQ) (Chen et al., 2021b) has recently achieved state-of-the-art sample efficiency on continuous-action reinforcement learning benchmarks. This superior sample efficiency is made possible by using a large Q-function ensemble. However, REDQ is much less computationally efficient than non-ensemble counterparts such as Soft Actor-Critic (SAC) (Haarnoja et al., 2018a). To make REDQ more computationally efficient, we propose a method of improving computational efficiency called DroQ, which is a variant of REDQ that uses a small ensemble of dropout Q-functions. Our dropout Q-functions are simple Q-functions equipped with dropout connection and layer normalization. Despite its simplicity of implementation, our experimental results indicate that DroQ is doubly (sample and computationally) efficient. It achieved comparable sample efficiency with REDQ, much better computational efficiency than REDQ, and comparable computational efficiency with that of SAC.

    Scopus

    その他リンク: https://www.scopus.com/inward/record.uri?partnerID=HzOxMe3b&scp=85146871335&origin=inward