Comprendre log_prob pour la distribution normale dans pytorch

voix
1

J'essaie actuellement de résoudre Pendulum-v0 de l'environnement gymnase openAi qui dispose d'un espace d'action continue. Par conséquent, je dois utiliser une distribution normale pour goûter mes actions. Ce que je ne comprends pas la dimension de la log_prob lors de son utilisation:

entrez

Je m'y attendais un tenseur de taille 2 (un log_prob pour chaque action) mais la sortie d'un tenseur de taille (2,2).

Cependant, lors de l'utilisation d'une distribution catégorielles pour l'environnement discret du log_prob a la taille attendue. Pourquoi le log_prob pour la distribution normale d'une taille différente?

Créé 19/03/2020 à 21:23
source utilisateur
Dans d'autres langues...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more