Apprentissage par renforcement: Le cas d’utilisation en entreprise, 1re partie

Le tourbillon de l'apprentissage par renforcement a commencé avec l'avènement d'AlphaGo par DeepMind, le système d'IA conçu pour jouer à ce jeu. Allez-y. Depuis lors, diverses entreprises ont investi beaucoup de temps, d'énergie et de recherche. Aujourd'hui, l'apprentissage par renforcement est l'un des sujets d'actualité de Deep Learning. Cela dit, la plupart des entreprises ont du mal à trouver des cas d'utilisation pour l'apprentissage par renforcement ou des moyens de l'intégrer dans leur logique métier. Cela ne devrait pas nous surprendre. Jusqu’à présent, il n’a été étudié que dans des environnements observés, sans risque et faciles à simuler, ce qui signifie que des secteurs tels que la finance, la santé, l’assurance et les consultants en technologies hésitent à risquer leur propre argent pour explorer ses applications. De plus, l’aspect «factorisation du risque» dans l’apprentissage par renforcement met beaucoup de pression sur les systèmes. Andrew Ng, coprésident et cofondateur de Coursera, a déclaré que «l'apprentissage par renforcement est un type d'apprentissage automatique dont la soif de données est encore plus grande que l'apprentissage supervisé. Il est vraiment difficile d'obtenir suffisamment de données pour les algorithmes d'apprentissage par renforcement. Il reste encore beaucoup à faire pour traduire cela en entreprises et en pratiques. "

Gardant à l’esprit cette vision un peu pessimiste, passons à la partie 1 de ce blog pour approfondir un peu l’aspect technique de l’apprentissage par renforcement. Dans la deuxième partie, nous examinerons certaines applications possibles dans les entreprises. À la base, RL est un algorithme complexe permettant de mapper les entités et les mesures observées en un ensemble d’actions, tout en optimisant les avantages à long terme ou à court terme. L'agent RL interagit avec l'environnement et essaie d'apprendre les règles, qui sont des séquences de décisions ou des actions à entreprendre pour obtenir la récompense. En fait, RL prend en compte les avantages immédiats et différés dans le cadre de ses interactions avec l'agent.

Un modèle d'apprentissage de renforcement se compose d'un agent qui infère une action qui agit ensuite sur l'environnement pour apporter un changement, et l'importance de l'action est reflétée à l'aide d'une fonction de récompense. Cette récompense est optimisée pour l'agent et le retour est transmis à l'agent afin qu'il puisse évaluer la meilleure action à prendre. Le système tire les leçons de l'action précédente en rappelant la meilleure action à prendre dans des circonstances similaires.

Fig 1: Le modèle d'apprentissage par renforcement

D'un point de vue mathématique, nous pouvons considérer l'apprentissage par renforcement comme un modèle d'état, en particulier un processus de décision de Markov (MDP) entièrement observable. Pour comprendre la théorie probabiliste du MDP, nous devons connaître la propriété de Markov:

“Le futur est indépendant du passé vu le présent”

La propriété de Markov est utilisée dans des situations où les probabilités de résultats différents ne dépendent pas d'états passés; par conséquent, il ne nécessite que l'état actuel. Certaines personnes utilisent le terme «sans mémoire» pour décrire la propriété. Dans les cas où des états précédents sont nécessaires pour informer du résultat, un processus de décision de Markov ne fonctionnera pas.

L'environnement du modèle est une machine à états finis stochastique, avec les actions exécutées à partir de l'agent en tant qu'entrées et où les récompenses / commentaires envoyés de l'environnement à l'agent sont générés. La fonction de récompense globale comprend les récompenses immédiates et les récompenses différées. La récompense immédiate est l'impact quantitatif de l'action sur l'environnement de l'Etat. La récompense différée est l'effet de l'action sur les états futurs de l'environnement. La récompense différée est prise en compte à l’aide du paramètre ‘facteur de réduction (γ)’, 0 <γ <1. Une valeur plus élevée pour le facteur de réduction oriente le système vers des récompenses à long terme, tandis qu'une valeur plus faible oriente le système vers des récompenses immédiates. X (t) est la représentation de l’état de l’environnement à l’heure «t». A (t) est une action prise par l’agent au moment «t».

· Fonction de transition d'état: d'un état à un autre dans l'environnement à la suite des actions données par l'agent.

L'agent est également modélisé comme une machine à états finis stochastique, où les récompenses envoyées par l'environnement sont les entrées et les actions envoyées à l'environnement pour le pas de temps suivant sont la sortie. S (t) est l'état actuel de l'agent au moment "t" après avoir reçu le retour d'information de l'environnement appliqué de l'environnement à "t-1 après l'action A (t) est la présentation de la politique en cours de construction à l'aide de l'apprentissage par modèle optimisation des récompenses.

· Fonction de transition d'état: d'un état à un autre dans l'agent à la suite des récompenses données par l'environnement.

· Fonction de politique: La fonction de politique / sortie de l'agent pour indiquer l'action en fonction de l'optimisation de la fonction de récompense.

L’agent a pour objectif de trouver la politique P (pi), qui maximise la récompense globale attendue avec le facteur de réduction.

L'agent formé avec le MDP essaie d'obtenir la somme la plus attendue de récompenses de l'état actuel. Par conséquent, la fonction de valeur optimale doit être obtenue. L'équation de Bellman est utilisée pour la fonction de valeur, décomposée en récompense actuelle et en valeur actualisée de la valeur d'état suivante.

J'espère que vous avez déjà compris les aspects techniques de l'apprentissage par renforcement !!

Dans la partie suivante de cette série, nous examinerons une application du monde réel comme cas d’utilisation commerciale du secteur financier, à savoir le négoce d’actions.

Continuez à apprendre en profondeur!