長 隆之 (オサ タカユキ)

OSA Takayuki

写真a

職名

准教授

研究室住所

福岡県北九州市若松区ひびきの2-4

研究分野・キーワード

ロボティクス

ホームページ

https://www.brain.kyutech.ac.jp/~osa/

出身大学 【 表示 / 非表示

  • 2007年03月   東京大学   工学部   産業機械工学科   卒業   日本国

出身大学院 【 表示 / 非表示

  • 2015年03月  東京大学  工学系研究科  機械工学専攻  博士課程・博士後期課程  修了  日本国

取得学位 【 表示 / 非表示

  • 東京大学 -  博士(工学)  2015年03月

学内職務経歴 【 表示 / 非表示

  • 2019年03月
    -
    継続中

    九州工業大学   大学院生命体工学研究科   人間知能システム工学専攻   准教授  

学外略歴 【 表示 / 非表示

  • 2018年04月
    -
    2019年02月

    東京大学   工学系研究科   特任講師   日本国

  • 2017年09月
    -
    2019年02月

    理化学研究所 革新知能統合研究センター   客員研究員   日本国

  • 2017年04月
    -
    2018年03月

    東京大学   新領域創成科学研究科   特任助教   日本国

  • 2015年04月
    -
    2017年03月

    ダルムシュタット工科大学   ポスドク研究員   ドイツ連邦共和国

  • 2010年04月
    -
    2012年03月

    テルモ株式会社   社員   日本国

所属学会・委員会 【 表示 / 非表示

  • 2014年09月
    -
    継続中
     

    日本ロボット学会  日本国

  • 2010年03月
    -
    継続中
     

    IEEE  日本国

 

論文 【 表示 / 非表示

  • Hierarchical Stochastic Optimization with Application to Parameter Tuning for Electronically Controlled Transmissions

    Hiroyuki Karasawa, Tomohiro Kanemaki, Kei Oomae, Rui Fukui, Masayuki Nakao, Takayuki Osa

    IEEE Robotics and Automation Letters  ( IEEE )  5 ( 2 ) 628 - 635   2020年01月  [査読有り]

    DOI

  • 端点の多峰性最適化による複数の解が導出可能な軌道計画法

    長 隆之, 佐藤 雅也, 森木 和也, 杉山 聡, 杉田 直彦, 中尾 政之

    日本ロボット学会誌  ( 日本ロボット学会 )  37 ( 8 ) 718 - 725   2019年10月  [査読有り]

     概要を見る

    <p>Motion planning for robotics manipulation is an essential component for automating various tasks. In this study we discuss optimization-based motion planning methods for robotic manipulation. The optimization-based method can compute smooth and collision-free trajectories with relatively short computational cost. Although existing methods are often designed to output a single solution, the objective function is often multimodal and there exist multiple solutions to achieve a given task. On such a task, obtaining multiple solutions gives a user an opportunity to choose one of the solutions based on factors which are not encoded in the objective function. To address this issue, we propose a motion planning framework that finds multiple solutions. The proposed method is validated in simulated environments with a four-link manipulator in 2D space and a 6 DoFs manipualtor in 3D space. </p>

    DOI CiNii

  • Hierarchical reinforcement learning via advantage-weighted information maximization

    Osa T., Sugiyama M., Tangkaratt V.

    7th International Conference on Learning Representations, ICLR 2019      2019年05月  [査読有り]

    USA  New Orleans 

     概要を見る

    © 7th International Conference on Learning Representations, ICLR 2019. All Rights Reserved. Real-world tasks are often highly structured. Hierarchical reinforcement learning (HRL) has attracted research interest as an approach for leveraging the hierarchical structure of a given task in reinforcement learning (RL). However, identifying the hierarchical policy structure that enhances the performance of RL is not a trivial task. In this paper, we propose an HRL method that learns a latent variable of a hierarchical policy using mutual information maximization. Our approach can be interpreted as a way to learn a discrete and latent representation of the state-action space. To learn option policies that correspond to modes of the advantage function, we introduce advantage-weighted importance sampling. In our HRL method, the gating policy learns to select option policies based on an option-value function, and these option policies are optimized based on the deterministic policy gradient method. This framework is derived by leveraging the analogy between a monolithic policy in standard RL and a hierarchical policy in HRL by using a deterministic option policy. Experimental results indicate that our HRL approach can learn a diversity of options and that it can enhance the performance of RL in continuous control tasks.

    Scopus

  • Hierarchical reinforcement learning of multiple grasping strategies with human instructions

    Osa T., Peters J., Neumann G.

    Advanced Robotics    32 ( 18 ) 955 - 968   2018年09月  [査読有り]

     概要を見る

    © 2018, © 2018 Informa UK Limited, trading as Taylor & Francis Group and The Robotics Society of Japan. Grasping is an essential component for robotic manipulation and has been investigated for decades. Prior work on grasping often assumes that a sufficient amount of training data is available for learning and planning robotic grasps. However, constructing such an exhaustive training dataset is very challenging in practice, and it is desirable that a robotic system can autonomously learn and improves its grasping strategy. Although recent work has presented autonomous data collection through trial and error, such methods are often limited to a single grasp type, e.g. vertical pinch grasp. To address these issues, we present a hierarchical policy search approach for learning multiple grasping strategies. To leverage human knowledge, multiple grasping strategies are initialized with human demonstrations. In addition, a database of grasping motions and point clouds of objects is also autonomously built upon a set of grasps given by a user. The problem of selecting the grasp location and grasp policy is formulated as a bandit problem in our framework. We applied our reinforcement learning to grasping both rigid and deformable objects. The experimental results show that our framework autonomously learns and improves its performance through trial and error and can grasp previously unseen objects with a high accuracy.

    DOI Scopus

  • Sample and Feedback Efficient Hierarchical Reinforcement Learning from Human Preferences

    Pinsler R., Akrour R., Osa T., Peters J., Neumann G.

    Proceedings - IEEE International Conference on Robotics and Automation      596 - 601   2018年09月  [査読有り]

     概要を見る

    © 2018 IEEE. While reinforcement learning has led to promising results in robotics, defining an informative reward function is challenging. Prior work considered including the human in the loop to jointly learn the reward function and the optimal policy. Generating samples from a physical robot and requesting human feedback are both taxing efforts for which efficiency is critical. We propose to learn reward functions from both the robot and the human perspectives to improve on both efficiency metrics. Learning a reward function from the human perspective increases feedback efficiency by assuming that humans rank trajectories according to a low-dimensional outcome space. Learning a reward function from the robot perspective circumvents the need for a dynamics model while retaining the sample efficiency of model-based approaches. We provide an algorithm that incorporates bi-perspective reward learning into a general hierarchical reinforcement learning framework and demonstrate the merits of our approach on a toy task and a simulated robot grasping task.

    DOI Scopus

全件表示 >>

著書 【 表示 / 非表示

  • An Algorithmic Perspective on Imitation Learning

    Takayuki Osa, Joni Pajarinen, Gerhard Neumann, J. Andrew Bagnell, Pieter Abbeel, Jan Peters ( 共著 )

    Now Publisher  2018年03月

口頭発表・ポスター発表等 【 表示 / 非表示

  • Hierarchical Stochastic Optimization with Application to Parameter Tuning for Electronically Controlled Transmissions

    Hiroyuki Karasawa, Tomohiro Kanemaki, Kei Oomae, Rui Fukui, Masayuki Nakao, Takayuki Osa

    IEEE International Conference on Robotics and Automation (ICRA)  (Paris, France)  2020年05月  -  2020年06月    IEEE

  • オペレータの機械操作を模倣した大径ワイヤの自動整列巻取り — スケールモデルの開発と学習アルゴリズムの提案—

    仁保隆嘉, 長隆之, 森木和也, 鈴木翔大, 杉田直彦, 中尾政之

    第25回ロボティクスシンポジア  (北海道函館市 湯の川温泉 花びしホテル)  2020年03月  -  2020年03月   

  • 階層型確率的最適化によるトランスミッション制御パラメータの学習と実機による評価

    唐澤宏之, 金牧知宏, 大前圭, 福井類, 中尾政之, 長隆之

    第25回ロボティクスシンポジア  (北海道函館市 湯の川温泉 花びしホテル)  2020年03月  -  2020年03月   

  • Reducing Overestimation Bias in Multi-Agent Domains Using Double Centralized Critics

    Johannes Ackerman, Takayuki Osa, Masashi Sugiyama

    Deep Reinforcement Learning Workshop NeurIPS 2019  (Vancouver, Canada)  2019年12月  -  2019年12月   

  • Trajectory Optimization via Density Estimation

    Takayuki Osa

    第37回日本ロボット学会学術講演会  (早稲田大学)  2019年09月  -  2019年09月    日本ロボット学会

全件表示 >>

講演 【 表示 / 非表示

  • How should we design a robot learning system?

    Workshop on Robot Learning: Control and Interaction in the Real World at NeurIPS 2019 ( Vancouver Convention Center, Vancouver, Canada )  2019年12月14日 

  • 模倣学習および強化学習による動作計画

    第120回ロボット工学セミナー ( 中央大学 後楽園キャンパス )  2019年06月27日  日本ロボット学会

  • チュートリアル「強化学習」

    2018年度人工知能学会全国大会   2018年06月05日 

学術関係受賞 【 表示 / 非表示

  • 2014 IEEE Robotics and Automation Society Japan Chapter Young Award (ICRA2014)

    2014年06月   IEEE Robotics and Automation Society Japan Chapter   日本国

    受賞者:  Takayuki Osa

  • 平成19年度 工作機械技術振興財団奨励賞

    2008年03月   工作機械技術振興財団   日本国

    受賞者:  青木亮磨, 長隆之, 杉田直彦, 光石衛

科研費獲得実績 【 表示 / 非表示

  • 実ロボットにおける自律的な軌道計画を実現する階層型深層強化学習の開発

    若手研究(B)

    研究期間:  2019年04月  -  2023年03月

    研究課題番号:  19K20370

  • 画像情報を利用した腹腔鏡下手術支援システムの知能化に関する研究

    特別研究員奨励費

    研究期間:  2013年04月  -  2015年03月

    研究課題番号:  13J07106

寄附金・講座 【 表示 / 非表示

  • 寄付金

    小松製作所  2019年06月

その他研究活動 【 表示 / 非表示

  • Member of the Program Committee for the Thirty-fifth International Conference on Machine Learning (ICML 2018)

    2017年11月
    -
    2018年04月
     

海外研究歴 【 表示 / 非表示

  • RoMaNS - Robotic Manipulation for Nuclear Sort and Segregation

    TU Darmstadt  ドイツ連邦共和国  研究期間:  2015年04月  -  2017年03月31日

  • Automation of Robotic Surgery Using Visual Information

    TU Muenchen  ドイツ連邦共和国  研究期間:  2008年09月  -  2009年09月

 

学会・委員会等活動 【 表示 / 非表示

  • 2019年11月
    -
    2021年10月

    日本ロボット学会   学術講演会関連賞選考小委員会 委員

  • 2019年04月
    -
    2021年03月

    日本ロボット学会   論文査読小委員会委員

  • 2019年02月
    -
    継続中

    Neural Information Processing Systems (NeurIPS)   Reviewer for Neural Information Processing Systems (NeurIPS) 2019

  • 2018年10月
    -
    継続中

    International Conference on Machine Learning (ICML)   Reviewer for the Thirty-Sixth International Conference on Machine Learning (ICML 2019)

  • 2018年06月
    -
    2018年11月

    AAAI Conference on Artificial Intelligence (AAAI)   Member of the Program Committee (PC) for the 33rd AAAI Conference on Artificial Intelligence (AAAI-19)

全件表示 >>