La qualité des produits fabriqués est plus importante que les réglages qui ont permis cette fabrication.
C'est exactement l'objectif de l'apprentissage par renforcement ! Son but est d'obtenir la meilleure 'récompense'
Classiquement, il faut :
- déterminer de 'bons' réglges,
- figer les réglages,
- tester en fin de ligne que l'on produit de 'bons' produits.
Cela suppose que :
- les mêmes causes produisent les mêmes effets,
- les éléments que l'on ne maitrise pas restent stables,
- on ne soit pas sûrs d'avoir les meilleurs réglages,
En appliquant l'apprentissage par renforcement, dans certains cas, il devient possible que les résultats du testeur fin de ligne ne servent pas uniquement à accepter ou refuser des pièces mais aussi à affiner les réglages.
L'origine de l'apprentissage par renforcement n'est pas récente, les travaux sur l'intelligence artificielle lui donne de nouveaux attraits.
L'algorithme 'essaye' des scénarios, retient ceux qui sont intéressants et continue son apprentissage à partir du meilleur.
Ce qui nous a intéressé, c'est cette adaptabilité permanente de l'algorithme qui essaye toujours d'avoir le meilleur résultat.
Par exemple :
Une ligne de production inclut des actions et des tests, l'apprentissage par renforcement permet aux actionneurs d'améliorer leur efficacité en continu à partir des résultats des tests.
Pour être complet, il faut ajouter qu'il est nécessaire d'augmenter l'apprentissage par des 'inhibitions', comme un enfant.
LinkedIn pour commenter
Contactez-nous