Bienvenue à SZ Reaching Tech Limited

Qu‘est-ce que l‘apprentissage par renforcement et comment ça marche?

:2021-05-27 :1427
L‘apprentissage par renforcement est un modèle d‘apprentissage comportemental dans lequel des algorithmes fournissent un retour d‘analyse des données et guident les utilisateurs pour obtenir les meilleurs résultats étape par étape.
Contrairement à divers types d‘apprentissage supervisé qui utilisent des ensembles de données d‘échantillons pour former des modèles de machine, l‘apprentissage par renforcement tente de maîtriser les astuces par essais et erreurs. Grâce à une série de décisions correctes, le modèle lui-même sera progressivement renforcé et prendra progressivement le contrôle d‘une meilleure façon de résoudre le problème.
L‘apprentissage par renforcement est très similaire au processus d‘apprentissage des êtres humains chez les nourrissons et les tout-petits. La croissance de chacun de nous ne peut être séparée de ce genre de renforcement d‘apprentissage - c‘est avec l‘aide de nos parents et en tombant encore et encore que nous nous relevons enfin.
Il s‘agit d‘un processus d‘apprentissage basé sur l‘expérience, la machine continuera d‘essayer de faire des erreurs et de trouver enfin la bonne solution.
Il suffit de fournir les «règles du jeu» les plus élémentaires pour le modèle de machine et de laisser le reste au modèle pour une exploration indépendante. Le modèle commencera par des tentatives aléatoires, élaborera ses propres tactiques complexes étape par étape, accomplira des tâches et obtiendra des récompenses grâce à d‘innombrables tentatives.
Les faits ont prouvé que l‘apprentissage par renforcement est devenu l‘une des méthodes importantes pour cultiver l‘imagination des robots. Contrairement aux humains ordinaires, l‘intelligence artificielle accumulera les connaissances de milliers de séries de jeux, et une puissante infrastructure informatique fournira une puissance de calcul fiable pour ces modèles.
Les vidéos sur YouTube sont des exemples d‘applications d‘apprentissage par renforcement. Après avoir regardé la vidéo actuelle, la plate-forme vous montrera un contenu similaire qui, selon elle, pourrait vous intéresser. Si vous cliquez sur la vidéo recommandée mais que vous n‘avez pas fini de la regarder, la machine considérera que cette recommandation a échoué et essaiera d‘autres méthodes de recommandation la prochaine fois.
Le défi de l‘apprentissage par renforcement
Le principal défi auquel est confronté l‘apprentissage par renforcement est de savoir comment faire évoluer l‘environnement simulé. L‘environnement de simulation est largement déterminé par les tâches à effectuer. Prenons comme exemples les jeux d‘échecs, de go ou d‘Atari, ce type d‘environnement de simulation est relativement simple et facile à construire. Cependant, afin de former des voitures autonomes sûres et fiables de la même manière, il est nécessaire de créer un environnement de prototype de rue très réaliste, en introduisant des piétons soudains ou divers facteurs susceptibles de provoquer une collision. Si la simulation ne suffit pas, une série de problèmes apparaîtra après le transfert du modèle de l‘environnement d‘entraînement vers la scène réelle.
Un autre problème réside dans la manière d‘étendre et de modifier le réseau neuronal de l‘agent. Hormis les récompenses et les pénalités, nous n‘avons aucun autre moyen d‘établir un contact avec le réseau. Cela peut provoquer de graves symptômes d ‘«oubli», c‘est-à-dire qu‘une fois que le réseau a obtenu de nouvelles informations, cela supprimera certaines des anciennes connaissances qui peuvent être très importantes. En d‘autres termes, nous devons trouver un moyen de gérer la «mémoire» du modèle d‘apprentissage.
Enfin, nous devons empêcher les agents de la machine de "tricher". Parfois, le modèle de machine peut donner de bons résultats, mais la méthode de mise en œuvre est loin de nos attentes. Certains agents obtiendront même le plus de récompenses en «pêchant dans des eaux troubles» sans accomplir la tâche proprement dite.
Domaines d‘application de l‘apprentissage par renforcement
Le jeu
La raison pour laquelle l‘apprentissage automatique a une grande réputation est principalement due à sa force incroyable dans la résolution de divers problèmes de jeu.
La nature la plus connue est AlphaGo et AlphaGo Zero. AlphaGo a mené de nombreuses formations à travers les registres d‘échecs d‘innombrables joueurs humains et a obtenu une puissance d‘échecs surhumaine grâce au Monte Carlo Tree Value Research and Value Network (MCTS) dans le réseau de stratégie. Mais les chercheurs ont ensuite essayé à partir de zéro un autre modèle de machine d‘apprentissage de la méthode d‘apprentissage par renforcement plus pur. En fin de compte, le nouvel agent AlphaGo Zero est apparu, et son processus d‘apprentissage était complètement dérivé de l‘exploration indépendante, sans ajouter de données artificielles, et a finalement vaincu le prédécesseur AlphaGo avec un avantage écrasant de 100-0.
Recommandation personnalisée
La recommandation de contenu d‘actualités est un problème historique. La dynamique des actualités en évolution rapide, les préférences des utilisateurs qui peuvent changer à tout moment et le taux de clics étroitement lié à la fidélisation des utilisateurs sont autant de maux de tête pour les chercheurs. L‘article «DRN: A Deep Reinforcement Learning Framework for News Recommendations» publié par Guanjie et d‘autres chercheurs espère explorer comment appliquer la technologie d‘apprentissage par renforcement aux systèmes de recommandation d‘actualités pour surmonter ce défi majeur.
À cette fin, ils ont construit quatre catégories de ressources, à savoir: 1) les ressources utilisateur; 2) les ressources contextuelles (telles que les ressources sur l‘état de l‘environnement); 3) les ressources d‘actualités utilisateur; 4) les ressources d‘actualités (telles que les ressources d‘action). Ils connectent ces quatre ressources au réseau Q profond (DQN) pour calculer la valeur Q. Par la suite, ils sélectionnent une liste d‘actualités à recommander en fonction de la valeur Q et utilisent les clics de l‘utilisateur sur le contenu recommandé comme un indicateur de récompense important pour l‘agent d‘apprentissage par renforcement.
Les auteurs utilisent également d‘autres techniques pour résoudre des problèmes connexes, y compris la répétition de la mémoire, les modèles de survie, la descente de gradient de Dueling Bandit et d‘autres méthodes.