`rofunc.learning.RofuncRL.agents.online.td3_agent`#

1. Module Contents#

1.1. Classes#

TD3Agent

Twin Delayed Deep Deterministic Policy Gradient (TD3) agent

1.2. API#

class rofunc.learning.RofuncRL.agents.online.td3_agent.TD3Agent(cfg: omegaconf.DictConfig, observation_space: Optional[Union[int, Tuple[int], gym.Space, gymnasium.Space]], action_space: Optional[Union[int, Tuple[int], gym.Space, gymnasium.Space]], memory: Optional[Union[rofunc.learning.RofuncRL.utils.memory.Memory, Tuple[rofunc.learning.RofuncRL.utils.memory.Memory]]] = None, device: Optional[Union[str, torch.device]] = None, experiment_dir: Optional[str] = None, rofunc_logger: Optional[rofunc.logger.BeautyLogger] = None)#

Bases: rofunc.learning.RofuncRL.agents.base_agent.BaseAgent

Twin Delayed Deep Deterministic Policy Gradient (TD3) agent

“Addressing Function Approximation Error in Actor-Critic Methods”. Fujimoto. et al. 2018. https://arxiv.org/abs/1802.09477

Rofunc documentation: https://rofunc.readthedocs.io/en/latest/lfd/RofuncRL/TD3.html

Initialization

Parameters:

cfg – Configurations
observation_space – Observation space
action_space – Action space
memory – Memory for storing transitions
device – Device on which the torch tensor is allocated
experiment_dir – Directory for storing experiment data
rofunc_logger – Rofunc logger

act(states: torch.Tensor, deterministic: bool = False)#

store_transition(states: torch.Tensor, actions: torch.Tensor, next_states: torch.Tensor, rewards: torch.Tensor, terminated: torch.Tensor, truncated: torch.Tensor, infos: torch.Tensor)#

update_net()#: Update the network :return:

rofunc.learning.RofuncRL.agents.online.td3_agent

Contents

rofunc.learning.RofuncRL.agents.online.td3_agent#

1. Module Contents#

1.1. Classes#

1.2. API#

`rofunc.learning.RofuncRL.agents.online.td3_agent`#