Pekiştirmeli öğrenme off on policy


#1

Merhabalar, pekiştirmeli öğrenme konusu hakkında araştırma yapıyorum. Off ve on policy algoritmalar var ancak tam olarak ne anlama geldiklerini anlayamadım. genel olarak tabloyu veya ağırlıkları tekrardan güncellerken kullanılıyorlar ama öğrenme sürecine ne gibi etki ederler anlamama yardımcı olursanız sevinirim.