TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Omniverse Isaac Gym	AllegroHand	SAC	Average Return	296.49	# 2
Omniverse Isaac Gym	Ant	SAC	Average Return	7717.93	# 2
OpenAI Gym	Ant-v4	SAC	Average Return	5208.09	# 3
Omniverse Isaac Gym	Anymal	SAC	Average Return	11.87	# 2
Omniverse Isaac Gym	FrankaCabinet	SAC	Average Return	1721.98	# 2
OpenAI Gym	HalfCheetah-v4	SAC	Average Return	15836.04	# 1
OpenAI Gym	Hopper-v4	SAC	Average Return	2882.56	# 3
Omniverse Isaac Gym	Humanoid	SAC	Average Return	4028.31	# 2
OpenAI Gym	Humanoid-v4	SAC	Average Return	6211.50	# 2
Omniverse Isaac Gym	Ingenuity	SAC	Average Return	5301.99	# 1
Continuous Control	Lunar Lander (OpenAI Gym)	SAC	Score	284.59±0.97	# 1
OpenAI Gym	Walker2d-v4	SAC	Average Return	5745.27	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/soft-actor-critic-off-policy-maximum-entropy/openai-gym-on-halfcheetah-v4)](https://paperswithcode.com/sota/openai-gym-on-halfcheetah-v4?p=soft-actor-critic-off-policy-maximum-entropy)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/soft-actor-critic-off-policy-maximum-entropy/omniverse-isaac-gym-on-ingenuity)](https://paperswithcode.com/sota/omniverse-isaac-gym-on-ingenuity?p=soft-actor-critic-off-policy-maximum-entropy)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/soft-actor-critic-off-policy-maximum-entropy/continuous-control-on-lunar-lander-openai-gym)](https://paperswithcode.com/sota/continuous-control-on-lunar-lander-openai-gym?p=soft-actor-critic-off-policy-maximum-entropy)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/soft-actor-critic-off-policy-maximum-entropy/openai-gym-on-walker2d-v4)](https://paperswithcode.com/sota/openai-gym-on-walker2d-v4?p=soft-actor-critic-off-policy-maximum-entropy)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/soft-actor-critic-off-policy-maximum-entropy/omniverse-isaac-gym-on-allegrohand)](https://paperswithcode.com/sota/omniverse-isaac-gym-on-allegrohand?p=soft-actor-critic-off-policy-maximum-entropy)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/soft-actor-critic-off-policy-maximum-entropy/omniverse-isaac-gym-on-ant)](https://paperswithcode.com/sota/omniverse-isaac-gym-on-ant?p=soft-actor-critic-off-policy-maximum-entropy)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/soft-actor-critic-off-policy-maximum-entropy/omniverse-isaac-gym-on-anymal)](https://paperswithcode.com/sota/omniverse-isaac-gym-on-anymal?p=soft-actor-critic-off-policy-maximum-entropy)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/soft-actor-critic-off-policy-maximum-entropy/omniverse-isaac-gym-on-frankacabinet)](https://paperswithcode.com/sota/omniverse-isaac-gym-on-frankacabinet?p=soft-actor-critic-off-policy-maximum-entropy)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/soft-actor-critic-off-policy-maximum-entropy/omniverse-isaac-gym-on-humanoid)](https://paperswithcode.com/sota/omniverse-isaac-gym-on-humanoid?p=soft-actor-critic-off-policy-maximum-entropy)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/soft-actor-critic-off-policy-maximum-entropy/openai-gym-on-humanoid-v4)](https://paperswithcode.com/sota/openai-gym-on-humanoid-v4?p=soft-actor-critic-off-policy-maximum-entropy)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/soft-actor-critic-off-policy-maximum-entropy/openai-gym-on-ant-v4)](https://paperswithcode.com/sota/openai-gym-on-ant-v4?p=soft-actor-critic-off-policy-maximum-entropy)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/soft-actor-critic-off-policy-maximum-entropy/openai-gym-on-hopper-v4)](https://paperswithcode.com/sota/openai-gym-on-hopper-v4?p=soft-actor-critic-off-policy-maximum-entropy)`

Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

ICML 2018 · Tuomas Haarnoja, Aurick Zhou, Pieter Abbeel, Sergey Levine ·

A platform for Applied Reinforcement Learning (Applied RL)

PDF Abstract ICML 2018 PDF ICML 2018 Abstract

Code

Add Remove Mark official

haarnoja/sac official

919

ray-project/ray

31,649

DLR-RM/stable-baselines3

↳ Quickstart in

Colab

8,198

hill-a/stable-baselines

↳ Quickstart in

Colab

4,073

facebookresearch/ReAgent

3,533

See all 79 implementations

Tasks

Add Remove

Continuous Control

Decision Making

Omniverse Isaac Gym

OpenAI Gym

Q-Learning

reinforcement-learning

Reinforcement Learning (RL)

Datasets

OpenAI Gym

Omniverse Isaac Gym

Results from the Paper

Edit

Ranked #1 on OpenAI Gym on HalfCheetah-v4

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Omniverse Isaac Gym	AllegroHand	SAC	Average Return	296.49	# 2	Compare
Omniverse Isaac Gym	Ant	SAC	Average Return	7717.93	# 2	Compare
OpenAI Gym	Ant-v4	SAC	Average Return	5208.09	# 3	Compare
Omniverse Isaac Gym	Anymal	SAC	Average Return	11.87	# 2	Compare
Omniverse Isaac Gym	FrankaCabinet	SAC	Average Return	1721.98	# 2	Compare
OpenAI Gym	HalfCheetah-v4	SAC	Average Return	15836.04	# 1	Compare
OpenAI Gym	Hopper-v4	SAC	Average Return	2882.56	# 3	Compare
Omniverse Isaac Gym	Humanoid	SAC	Average Return	4028.31	# 2	Compare
OpenAI Gym	Humanoid-v4	SAC	Average Return	6211.50	# 2	Compare
Omniverse Isaac Gym	Ingenuity	SAC	Average Return	5301.99	# 1	Compare
Continuous Control	Lunar Lander (OpenAI Gym)	SAC	Score	284.59±0.97	# 1	Compare
OpenAI Gym	Walker2d-v4	SAC	Average Return	5745.27	# 1	Compare

Methods

Add Remove

Adam • Dense Connections • Experience Replay • ReLU • Soft Actor Critic

Edit Social Preview

Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove