La Proximal policy optimization (PPO) è una famiglia di algoritmi di apprendimento per rinforzo a gradiente di politica utilizzati nell'intelligenza artificiale. È stata inventata nel 2017 da John Schulman, Filip Wolski, Prafulla Dhariwal, AlecRadford e Oleg Klimov. La PPO è un'approssimazione del gradiente naturale della politica che semplifica e velocizza la procedura di addestramento.

Gli algoritmi PPO funzionano applicando un gradiente di politica stocastica per aggiornare la politica di un agente in una direzione che migliora la ricompensa attesa e stabilizza l'addestramento. Ciò avviene utilizzando una tecnica di ottimizzazione chiamata ottimizzazione prossimale della politica, che consente a un agente di regolare i parametri della sua funzione azione-valore considerando solo le funzioni azione-valore all'interno di una piccola regione della migliore corrente. In questo modo si garantisce che in ogni fase di addestramento vengano apportate solo piccole modifiche, consentendo un apprendimento più semplice e stabile.

Rispetto ad altri algoritmi di apprendimento per rinforzo, è stato dimostrato che la PPO richiede un minor numero di campioni e di iterazioni per raggiungere la convergenza, ottenendo al contempo valori di ricompensa ottimali più elevati. Inoltre, la regolazione degli iperparametri necessaria per gli algoritmi PPO è significativamente più semplice rispetto ad altri algoritmi di apprendimento per rinforzo.

Gli algoritmi PPO sono generalmente considerati più efficienti dal punto di vista del campionamento rispetto ad altri algoritmi di gradiente di policy, come il Trust Region Policy Optimization (TRPO). Sono anche noti per essere più stabili, il che li rende adatti alle applicazioni del mondo reale. Per questo motivo, gli algoritmi PPO hanno riscosso un grande successo nella robotica, nei videogiochi e nella guida autonoma.

Scegliere e acquistare il Proxy

Proxy per data center

Proxy a rotazione

Proxy UDP

Scelto da oltre 10.000 clienti in tutto il mondo

Cliente proxy
Cliente proxy
Cliente proxy flowch.ai
Cliente proxy
Cliente proxy
Cliente proxy