banner
Maison / Nouvelles / Contrôle magnétique des plasmas de tokamak par apprentissage par renforcement profond
Nouvelles

Contrôle magnétique des plasmas de tokamak par apprentissage par renforcement profond

Dec 21, 2023Dec 21, 2023

Nature volume 602, pages 414–419 (2022)Citer cet article

182 000 accès

131 Citations

2389 Altmétrique

Détails des métriques

La fusion nucléaire par confinement magnétique, notamment en configuration tokamak, est une voie prometteuse vers une énergie durable. L'un des principaux défis consiste à façonner et à maintenir un plasma à haute température dans la cuve du tokamak. Cela nécessite une commande en boucle fermée à haute dimension et à haute fréquence à l'aide de bobines d'actionneur magnétiques, encore compliquée par les diverses exigences d'une large gamme de configurations de plasma. Dans ce travail, nous introduisons une architecture précédemment non décrite pour la conception d'un contrôleur magnétique de tokamak qui apprend de manière autonome à commander l'ensemble complet des bobines de contrôle. Cette architecture répond à des objectifs de contrôle spécifiés à un haut niveau, tout en satisfaisant aux contraintes physiques et opérationnelles. Cette approche a une flexibilité et une généralité sans précédent dans la spécification des problèmes et donne une réduction notable de l'effort de conception pour produire de nouvelles configurations de plasma. Nous produisons et contrôlons avec succès un ensemble diversifié de configurations de plasma sur le Tokamak à Configuration Variable1,2, y compris des formes allongées et conventionnelles, ainsi que des configurations avancées, telles que la triangularité négative et les configurations en « flocon de neige ». Notre approche permet un suivi précis de l'emplacement, du courant et de la forme de ces configurations. Nous démontrons également des «gouttelettes» soutenues sur le TCV, dans lesquelles deux plasmas distincts sont maintenus simultanément dans le vaisseau. Cela représente une avancée notable pour le contrôle par rétroaction du tokamak, montrant le potentiel de l'apprentissage par renforcement pour accélérer la recherche dans le domaine de la fusion, et est l'un des systèmes du monde réel les plus difficiles auxquels l'apprentissage par renforcement a été appliqué.

Les tokamaks sont des dispositifs en forme de tore pour la recherche sur la fusion nucléaire et sont un candidat de premier plan pour la production d'énergie électrique durable. Une direction principale de la recherche est d'étudier les effets de la mise en forme de la distribution du plasma dans différentes configurations3,4,5 pour optimiser la stabilité, le confinement et l'épuisement de l'énergie, et, en particulier, d'informer la première expérience de combustion de plasma, ITER. Confiner chaque configuration dans le tokamak nécessite de concevoir un contrôleur de rétroaction capable de manipuler le champ magnétique6 grâce à un contrôle précis de plusieurs bobines couplées magnétiquement au plasma pour obtenir le courant, la position et la forme de plasma souhaités, un problème connu sous le nom de problème de contrôle magnétique du tokamak.

L'approche conventionnelle de ce problème de commande multivariée, non linéaire et variant dans le temps consiste à résoudre d'abord un problème inverse pour précalculer un ensemble de courants et de tensions de bobine d'anticipation7,8. Ensuite, un ensemble de contrôleurs PID indépendants à entrée unique et sortie unique est conçu pour stabiliser la position verticale du plasma et contrôler la position radiale et le courant du plasma, qui doivent tous être conçus pour ne pas interférer mutuellement6. La plupart des architectures de contrôle sont en outre complétées par une boucle de contrôle externe pour la forme du plasma, qui implique la mise en œuvre d'une estimation en temps réel de l'équilibre du plasma9,10 pour moduler les courants de bobine à action directe8. Les contrôleurs sont conçus sur la base d'une dynamique de modèle linéarisée, et la programmation du gain est nécessaire pour suivre les cibles de contrôle variant dans le temps. Bien que ces contrôleurs soient généralement efficaces, ils nécessitent un effort d'ingénierie substantiel, un effort de conception et une expertise chaque fois que la configuration du plasma cible est modifiée, ainsi que des calculs complexes en temps réel pour l'estimation de l'équilibre.

Une approche radicalement nouvelle de la conception des contrôleurs est rendue possible en utilisant l'apprentissage par renforcement (RL) pour générer des contrôleurs à rétroaction non linéaire. L'approche RL, déjà utilisée avec succès dans plusieurs applications complexes dans d'autres domaines11,12,13, permet la définition intuitive d'objectifs de performance, en mettant l'accent sur ce qui doit être réalisé, plutôt que sur comment. De plus, RL simplifie grandement le système de contrôle. Un seul contrôleur peu coûteux en calcul remplace l'architecture de contrôle imbriquée, et une reconstruction d'état intériorisée supprime l'exigence d'une reconstruction d'équilibre indépendante. Ces avantages combinés réduisent le cycle de développement du contrôleur et accélèrent l'étude de configurations plasma alternatives. En effet, l'intelligence artificielle a récemment été identifiée comme une « opportunité de recherche prioritaire » pour le contrôle de la fusion14, en s'appuyant sur des succès démontrés dans la reconstruction des paramètres de forme du plasma15,16, en accélérant les simulations à l'aide de modèles de substitution17,18 et en détectant les perturbations plasmatiques imminentes19. Cependant, RL n'a pas été utilisé pour la conception de contrôleurs magnétiques, ce qui est difficile en raison des mesures et de l'actionnement de grande dimension, des horizons temporels longs, des taux de croissance rapides de l'instabilité et de la nécessité de déduire la forme du plasma par des mesures indirectes.

Dans ce travail, nous présentons un contrôleur magnétique conçu par RL et vérifions expérimentalement ses performances sur un tokamak. Les politiques de contrôle sont apprises par interaction avec un simulateur de tokamak et s'avèrent être directement capables d'un contrôle magnétique du tokamak sur le matériel, comblant avec succès l'écart « sim-to-real ». Cela permet un changement fondamental d'un contrôle piloté par l'ingénierie d'un état préconçu à une optimisation pilotée par l'intelligence artificielle des objectifs spécifiés par un opérateur. Nous démontrons l'efficacité de nos contrôleurs dans des expériences menées sur le Tokamak à Configuration Variable (TCV)1,2, dans lesquelles nous démontrons le contrôle d'une variété de formes de plasma, y ​​compris les formes allongées, telles que celles prévues dans ITER, ainsi que des configurations avancées, telles que la triangularité négative et les plasmas en "flocon de neige". De plus, nous démontrons une configuration soutenue dans laquelle deux « gouttelettes » de plasma distinctes sont maintenues simultanément dans le vaisseau. Le contrôle magnétique du tokamak est l'un des systèmes du monde réel les plus complexes auxquels RL a été appliqué. Il s'agit d'une nouvelle direction prometteuse pour la conception de contrôleurs à plasma, avec le potentiel d'accélérer la science de la fusion, d'explorer de nouvelles configurations et d'aider au développement futur du tokamak.

Notre architecture, illustrée à la Fig. 1, est une approche flexible pour la conception de contrôleurs de confinement magnétique tokamak. L'approche comporte trois phases principales. Tout d'abord, un concepteur spécifie les objectifs de l'expérience, éventuellement accompagnés de cibles de contrôle variant dans le temps. Deuxièmement, un algorithme RL profond interagit avec un simulateur de tokamak pour trouver une politique de contrôle quasi optimale pour atteindre les objectifs spécifiés. Troisièmement, la politique de contrôle, représentée sous la forme d'un réseau de neurones, est exécutée directement ("zero shot") sur le matériel tokamak en temps réel.

a, Représentation de la boucle d'apprentissage. Le contrôleur envoie des commandes de tension sur la base de l'état actuel du plasma et des cibles de contrôle. Ces données sont envoyées au tampon de relecture, qui fournit des données à l'apprenant pour mettre à jour la politique. b, Notre boucle d'interaction avec l'environnement, composée d'un modèle d'alimentation, d'un modèle de détection, d'une variation des paramètres physiques de l'environnement et d'un calcul de récompense. c, Notre politique de contrôle est un MLP avec trois couches cachées qui prend des mesures et contrôle des cibles et produit des commandes de tension. d–f, L'interaction de TCV et du système de contrôle déployé en temps réel mis en œuvre à l'aide d'un contrôleur conventionnel composé de nombreux sous-composants (f) ou de notre architecture utilisant un seul réseau neuronal profond pour contrôler directement les 19 bobines (e). g, une représentation du TCV et des 19 bobines actionnées. Le navire mesure 1,5 m de haut, avec un rayon mineur de 0,88 m et une demi-largeur de navire de 0,26 m. h, une coupe transversale du vaisseau et du plasma, avec les aspects importants étiquetés.

Dans la première phase, le but expérimental est spécifié par un ensemble d'objectifs qui peuvent contenir une grande variété de propriétés souhaitées (Extended Data Table 4). Ces propriétés vont de la stabilisation de base de la position et du courant plasma à des combinaisons sophistiquées de plusieurs cibles variant dans le temps, y compris un contour de forme précis avec un allongement, une triangularité et un emplacement du point X spécifiés. Ces objectifs sont ensuite combinés dans une « fonction de récompense » qui attribue une mesure de qualité scalaire à l'état à chaque pas de temps. Cette fonction pénalise également la politique de contrôle pour atteindre des états terminaux indésirables, comme discuté ci-dessous. Surtout, une fonction de récompense bien conçue sera spécifiée au minimum, donnant à l'algorithme d'apprentissage une flexibilité maximale pour atteindre le résultat souhaité.

Dans la deuxième phase, un algorithme RL haute performance collecte des données et trouve une politique de contrôle par interaction avec un environnement, comme illustré sur les Fig. 1a, b. Nous utilisons un simulateur qui a suffisamment de fidélité physique pour décrire l'évolution de la forme et du courant du plasma, tout en restant suffisamment bon marché en termes de calcul pour l'apprentissage. Plus précisément, nous modélisons la dynamique régissant l'évolution de l'état du plasma sous l'influence des tensions de la bobine de champ poloïdal à l'aide d'un modèle d'évolution du plasma à frontière libre20. Dans ce modèle, les courants dans les bobines et les conducteurs passifs évoluent sous l'influence des tensions appliquées de manière externe par les alimentations, ainsi que des tensions induites par des courants variant dans le temps dans d'autres conducteurs et dans le plasma lui-même. Le plasma est quant à lui modélisé par l'équation de Grad-Shafranov21, qui résulte de l'équilibre entre la force de Lorentz et le gradient de pression à l'intérieur du plasma aux échelles de temps d'intérêt. L'évolution du courant plasma total Ip est modélisée à l'aide d'une équation de circuit localisé. Cet ensemble d'équations est résolu numériquement par le progiciel FGE22.

L'algorithme RL utilise les données du simulateur collectées pour trouver une politique quasi optimale par rapport à la fonction de récompense spécifiée. Le débit de données de notre simulateur est nettement plus lent que celui d'un environnement RL typique en raison des exigences de calcul liées à l'évolution de l'état du plasma. Nous surmontons la rareté des données en optimisant la politique à l'aide de l'optimisation maximale a posteriori de la politique (MPO)23, un algorithme critique d'acteur. MPO prend en charge la collecte de données sur des flux parallèles distribués et apprend de manière efficace. Nous exploitons en outre l'asymétrie inhérente à la conception acteur-critique de MPO pour surmonter les contraintes du contrôle magnétique. Dans les algorithmes critiques d'acteurs, le « critique » apprend la récompense future escomptée actualisée pour diverses actions en utilisant les données disponibles et « l'acteur » utilise les prédictions du critique pour définir la politique de contrôle. La représentation de la politique de contrôle de l'acteur est restreinte, car elle doit fonctionner sur TCV avec des garanties en temps réel, tandis que la critique est libre, car elle n'est utilisée que pendant la formation. Nous utilisons donc un réseau neuronal prédictif rapide à quatre couches dans l'acteur (Fig. 1c) et un réseau neuronal récurrent beaucoup plus large dans le critique. Cette asymétrie permet au critique de déduire l'état sous-jacent à partir des mesures, de traiter la dynamique complexe de transition d'état sur différentes échelles de temps et d'évaluer l'influence de la mesure du système et des retards d'action. Les informations de la dynamique couplée sont ensuite distillées dans un contrôleur capable de fonctionner en temps réel.

Dans la troisième phase, la politique de contrôle est regroupée avec les cibles de contrôle d'expérience associées dans un exécutable à l'aide d'un compilateur adapté au contrôle en temps réel à 10 kHz qui minimise les dépendances et élimine les calculs inutiles. Cet exécutable est chargé par le framework de contrôle TCV24 (Fig. 1d). Chaque expérience commence par des procédures standard de formation de plasma, dans lesquelles un contrôleur traditionnel maintient l'emplacement du plasma et du courant total. À un moment prédéfini, appelé « transfert », le contrôle est basculé sur notre politique de contrôle, qui actionne ensuite les 19 bobines de contrôle TCV pour transformer la forme et le courant du plasma vers les cibles souhaitées. Les expériences sont exécutées sans autre réglage des pondérations du réseau de politique de contrôle après la formation, en d'autres termes, il y a un transfert «zéro» de la simulation au matériel.

Les politiques de contrôle sont transférées de manière fiable sur TCV via plusieurs attributs clés de la procédure d'apprentissage, illustrés à la Fig. 1b. Nous avons identifié un modèle d'actionneur et de capteur qui intègre des propriétés affectant la stabilité de la commande, telles que les retards, le bruit de mesure et les décalages de tension de commande. Nous avons appliqué une variation ciblée des paramètres pendant la formation sur une plage appropriée pour la pression plasma, le profil de densité de courant et la résistivité du plasma grâce à l'analyse des données expérimentales, pour tenir compte des conditions expérimentales variables et incontrôlées. Cela apporte de la robustesse tout en garantissant des performances. Bien que le simulateur soit généralement précis, il existe des régions connues où la dynamique est connue pour être mal représentée. Nous avons intégré «l'évitement de la région apprise» dans la boucle d'entraînement pour éviter ces régimes grâce à l'utilisation de récompenses et de conditions de terminaison (tableau de données étendu 5), qui arrêtent la simulation lorsque des conditions spécifiées sont rencontrées. Les conditions de résiliation sont également utilisées pour faire respecter les limites opérationnelles. Les politiques de contrôle apprennent à rester dans les limites spécifiées, par exemple, sur le courant de bobine maximal ou le facteur de sécurité des bords25.

Les contrôleurs conçus par notre architecture sont considérablement simplifiés structurellement par rapport aux conceptions conventionnelles, comme illustré dans les Fig. 1e, f. Au lieu d'une série de contrôleurs, la conception pilotée par RL crée un seul contrôleur de réseau.

Nous démontrons la capacité de notre architecture sur des cibles de contrôle dans des expériences réelles sur TCV. Nous montrons d'abord un contrôle précis des qualités fondamentales des équilibres plasmatiques. Nous contrôlons ensuite une large gamme d'équilibres avec des objectifs complexes et variables dans le temps et des configurations de plasma physiquement pertinentes. Enfin, nous démontrons le contrôle d'une configuration avec plusieurs « gouttelettes » de plasma dans le vaisseau simultanément.

Nous testons d'abord les tâches fondamentales du contrôle du plasma à travers une série de changements représentatifs de ceux requis pour une décharge de plasma complète. D'abord, à partir du handover à 0,0872 s, prendre le relais et stabiliser Ip à -110 kA. Ensuite, augmentez le courant de plasma à -150 kA, puis allongez le plasma de 1,24 à 1,44, augmentant ainsi le taux de croissance de l'instabilité verticale à 150 Hz. Ensuite, démontrez le contrôle de la position en déplaçant la position verticale du plasma de 10 cm, puis détournez le plasma avec le contrôle de l'emplacement actif du point X (voir Fig. 1h). Enfin, remettez le plasma dans la condition de transfert et réduisez Ip à -70 kA pour arrêter en toute sécurité. Bien que les exigences de précision dépendent généralement de l'expérience exacte, un objectif raisonnable est de contrôler Ip à moins de 5 kA (3 % de la cible finale de 150 kA) et la forme à moins de 2 cm (8 % de la demi-largeur radiale du vaisseau de 26 cm). Notez que la reconstruction d'équilibre utilisée correspond à une limite visuellement reconstruite avec une précision typique26 de 1 cm.

Les performances de la politique de contrôle sont illustrées à la Fig. 2. Toutes les tâches sont exécutées avec succès, avec une précision de suivi inférieure aux seuils souhaités. Dans la phase limitée initiale (0,1 s à 0,45 s), l'erreur quadratique moyenne Ip (RMSE) est de 0,71 kA (0,59 % de la cible) et la forme RMSE est de 0,78 cm (3 % de la demi-largeur du vaisseau). Dans la phase déviée (0,55 s à 0,8 s), l'Ip et la forme RMSE sont respectivement de 0,28 kA et 0,53 cm (0,2 % et 2,1 %), ce qui donne une RMSE sur toute la fenêtre (0,1 s à 1,0 s) de 0,62 kA et 0,75 cm (0,47 % et 2,9 %). Cela démontre que notre architecture RL est capable d'un contrôle précis du plasma dans toutes les phases pertinentes d'une expérience de décharge.

Démonstration du courant plasma, de la stabilité verticale, du contrôle de la position et de la forme. En haut, points de forme cible avec un rayon de 2 cm (cercles bleus), comparés à la reconstruction d'équilibre post-expérience (ligne continue noire dans le tracé de contour). En bas à gauche, traces de temps cible (traces bleues) comparées à l'observation reconstruite (traces orange), avec la fenêtre de plasma détourné marquée (rectangle vert). En bas à droite, image à l'intérieur de la cuve à 0,6 s montrant le plasma dévié avec ses pattes.

Données source

Nous démontrons ensuite la capacité de notre architecture à produire des configurations complexes pour l'étude scientifique. Chaque démonstration a ses propres objectifs variant dans le temps mais, sinon, utilise la même configuration architecturale pour générer une politique de contrôle, y compris la configuration de la formation et de l'environnement, avec seulement des ajustements mineurs à la fonction de récompense (illustrée dans le tableau de données étendu 3). Rappelons que, dans chaque expérience, le plasma a un faible allongement avant le transfert, et la politique de contrôle module activement le plasma à la configuration d'intérêt. Des tranches de temps sélectionnées à partir de ces expériences sont présentées à la Fig. 3, avec plus de détails dans la Fig. 1 de données étendues et les mesures d'erreur dans le tableau de données étendu 1.

Démonstrations de contrôle obtenues lors d'expériences TCV. Points de forme cible avec un rayon de 2 cm (cercles bleus), par rapport à la limite du plasma de reconstruction d'équilibre (ligne continue noire). Dans toutes les figures, la première tranche de temps montre la condition de transfert. a, allongement de 1,9 avec un taux de croissance de l'instabilité verticale de 1,4 kHz. b, Forme approximative proposée par ITER avec chauffage par faisceau neutre (NBH) entrant en mode H. c, triangularité négative détournée de −0,8. d, configuration Snowflake avec un contrôle variable dans le temps du point X inférieur, où les points X cibles sont marqués en bleu. Des traces étendues pour ces prises de vue peuvent être trouvées dans les données étendues Fig. 2.

Données source

L'allongement des plasmas améliore leurs propriétés de confinement thermique, mais leur taux de croissance d'instabilité verticale accru complique le contrôle. Nous avons ciblé un allongement élevé de 1,9 avec un taux de croissance considérable. Le contrôleur a pu produire et stabiliser cet allongement, comme le montre la figure 3a. Nous avons obtenu une bonne adéquation entre l'allongement visé et l'allongement souhaité, avec un RMSE de 0,018. Nous avons également contrôlé la forme et le courant plasma à leurs valeurs cibles, avec un Ip RMSE de 1,2 kA et une forme RMSE de 1,6 cm. Cela démontre la capacité de stabiliser un taux de croissance d'instabilité verticale élevé de plus de 1,4 kHz, malgré une action à seulement 10 kHz.

Nous avons ensuite testé l'application d'un chauffage auxiliaire par injection de faisceau neutre pour entrer en "mode H", ce qui est souhaitable pour avoir un temps de confinement d'énergie plus élevé, mais provoque des changements notables dans les propriétés du plasma. On nous a fourni une trajectoire variant dans le temps sur la base de la configuration ITER proposée qui utilise un tel chauffage auxiliaire. Lorsque la pression normalisée βp augmente à 1, 12, comme le montre la figure 3b, la position et le courant du plasma ont été maintenus avec précision, avec un Ip RMSE de 2, 6 kA et une forme RMSE de 1, 4 cm. Cela montre que notre contrôleur peut s'adapter de manière robuste à un état de plasma changeant et peut fonctionner avec un plasma chauffé en mode H dans des configurations spécifiées en externe.

Les plasmas à triangularité négative sont attractifs car ils ont des propriétés de confinement favorables sans le fort gradient de pression de bord typique des modes H. Nous avons ciblé une configuration détournée avec une triangularité de −0,8 et avec des points X aux deux coins. Nous avons réussi à réaliser cette configuration, illustrée à la Fig. 3c. La triangularité correspondait avec précision, avec un RMSE de 0,070, tout comme le courant et la forme du plasma, avec des valeurs RMSE de 3,5 kA et 1,3 cm, respectivement. Cela démontre la capacité à créer rapidement et directement une configuration sous étude active27.

Les configurations de flocons de neige sont recherchées28,29, car elles distribuent l'échappement des particules sur plusieurs points de frappe. Un paramètre crucial est la distance entre les deux points X qui forment les branches du divertor. Nous avons démontré notre capacité à contrôler cette distance, illustrée à la Fig. 3d. La politique de contrôle a d'abord établi une configuration en flocon de neige avec des points X séparés de 34 cm. Il a ensuite manipulé le point X éloigné pour s'approcher du point X limite, se terminant par une séparation de 6,6 cm. Les cibles de points X variables dans le temps ont été suivies avec un RMSE combiné de 3,7 cm. Le courant et la forme du plasma ont été maintenus avec une grande précision pendant cette transition, avec des valeurs RMSE de 0,50 kA et 0,65 cm, respectivement. Cela démontre un contrôle précis d'une cible complexe variant dans le temps avec plusieurs objectifs couplés.

Dans l'ensemble, ces expériences démontrent la facilité avec laquelle de nouvelles configurations peuvent être explorées, prouvent la capacité de notre architecture à fonctionner dans des décharges à haute performance et confirment l'étendue de ses capacités. Dans la section Méthodes, nous étudions plus en détail les comportements de la politique de contrôle.

Enfin, nous démontrons la puissance de notre architecture pour explorer de nouvelles configurations plasma. Nous testons le contrôle des «gouttelettes», une configuration dans laquelle deux plasmas distincts existent simultanément dans le vaisseau. Il est probablement possible que les approches existantes puissent stabiliser de telles gouttelettes. Néanmoins, un investissement important serait nécessaire pour développer une programmation prédictive du courant de bobine, mettre en œuvre des estimateurs en temps réel, régler les gains du contrôleur et réussir à prendre le contrôle après la création du plasma. En revanche, avec notre approche, nous ajustons simplement l'état de transfert simulé pour tenir compte des conditions de transfert différentes des plasmas à axe unique et définissons une fonction de récompense pour maintenir la position de chaque composant de gouttelette stable tout en augmentant les courants de plasma de domaine. Cette spécification lâche donne à l'architecture la liberté de choisir la meilleure façon d'adapter les formes de gouttelettes à mesure que Ip augmente pour maintenir la stabilité. L'architecture a réussi à stabiliser les gouttelettes sur toute la fenêtre de contrôle de 200 ms et à augmenter le courant dans chaque domaine, comme illustré à la Fig. 4. Cela met en évidence l'avantage d'une architecture de contrôle générale basée sur l'apprentissage pour adapter le contrôle à des configurations jusque-là inconnues.

Démonstration du contrôle soutenu de deux gouttelettes indépendantes sur TCV pendant toute la fenêtre de contrôle de 200 ms. A gauche, contrôle de Ip pour chaque lobe indépendant jusqu'à la même valeur cible. À droite, une image dans laquelle les deux gouttelettes sont visibles, prise d'une caméra regardant dans le vaisseau à t = 0,55.

Données source

Nous présentons un nouveau paradigme pour le confinement magnétique des plasmas sur les tokamaks. Notre conception de contrôle répond à bon nombre des espoirs de la communauté pour une approche de contrôle basée sur l'apprentissage automatique14, y compris des performances élevées, une robustesse aux conditions de fonctionnement incertaines, une spécification de cible intuitive et une polyvalence sans précédent. Cette réalisation a nécessité de combler les lacunes en matière de capacité et d'infrastructure grâce à des avancées scientifiques et techniques : un simulateur précis et numériquement robuste ; un compromis éclairé entre la précision de la simulation et la complexité des calculs ; un modèle de capteur et d'actionneur adapté à un contrôle matériel spécifique ; variation réaliste des conditions de fonctionnement pendant la formation ; un algorithme RL hautement efficace en termes de données qui s'adapte aux problèmes de grande dimension ; une configuration d'apprentissage asymétrique avec une critique expressive mais une politique rapide à évaluer ; un processus pour compiler des réseaux de neurones dans un code capable de fonctionner en temps réel et le déploiement sur un système de contrôle numérique tokamak. Cela a abouti à des expériences matérielles réussies qui démontrent une capacité fondamentale ainsi qu'un contrôle de forme avancé sans nécessiter de réglage fin sur l'usine. Il montre en outre qu'un modèle d'évolution d'équilibre à frontière libre a une fidélité suffisante pour développer des contrôleurs transférables, offrant une justification pour l'utilisation de cette approche pour tester le contrôle des futurs dispositifs.

Des efforts pourraient encore développer notre architecture pour quantifier sa robustesse grâce à l'analyse de la dynamique non linéaire30,31,32 et réduire le temps de formation grâce à une réutilisation accrue des données et à l'apprentissage multi-fidélité33. De plus, l'ensemble de cibles de contrôle peut être étendu, par exemple, pour réduire les charges thermiques cibles grâce à l'expansion du flux5, aidé par l'utilisation d'informations privilégiées dans le critique pour éviter de nécessiter des observateurs en temps réel. L'architecture peut être couplée à un simulateur plus performant, par exemple, incorporant la pression du plasma et la physique de l'évolution de la densité de courant, pour optimiser les performances globales du plasma.

Notre cadre d'apprentissage a le potentiel de façonner la recherche future sur la fusion et le développement de tokamak. Des objectifs sous-spécifiés peuvent trouver des configurations qui maximisent un objectif de performance souhaité ou même maximisent la production d'énergie. Notre architecture peut être rapidement déployée sur un nouveau tokamak sans qu'il soit nécessaire de concevoir et de mettre en service le système complexe de contrôleurs déployé aujourd'hui, et d'évaluer les conceptions proposées avant leur construction. Plus largement, notre approche peut permettre la découverte de nouvelles conceptions de réacteurs en optimisant conjointement la forme du plasma, la détection, l'actionnement, la conception des parois, la charge thermique et le contrôleur magnétique afin de maximiser les performances globales.

Le TCV 1,34, illustré à la Fig. 1, est un tokamak de recherche du Swiss Plasma Center, avec un rayon majeur de 0,88 m et une hauteur et une largeur de vaisseau de 1,50 m et 0,512 m, respectivement. TCV dispose d'un ensemble flexible de bobines magnétiques qui permettent la création d'une large gamme de configurations de plasma. Les systèmes de chauffage par résonance cyclotron électronique et d'injection de faisceau neutre35 fournissent un chauffage externe et une commande de courant, comme utilisé dans l'expérience de la figure 3b. TCV est équipé de plusieurs capteurs en temps réel et nos politiques de contrôle utilisent un sous-ensemble de ces capteurs. En particulier, nous utilisons 34 des boucles de fil qui mesurent le flux magnétique, 38 sondes qui mesurent le champ magnétique local et 19 mesures du courant dans les bobines de contrôle actives (augmentées d'une mesure explicite de la différence de courant entre les bobines ohmiques). En plus des capteurs magnétiques, TCV est équipé d'autres capteurs qui ne sont pas disponibles en temps réel, tels que les caméras représentées sur les Fig. 2 et 4. Notre politique de contrôle consomme les capteurs magnétiques et de courant de TCV à un taux de contrôle de 10 kHz. La politique de contrôle produit une commande de tension de référence à chaque pas de temps pour les bobines de contrôle actives.

La dynamique couplée du plasma et des conducteurs externes actifs et passifs est modélisée avec un simulateur de frontière libre, FGE22. Les conducteurs sont décrits par un modèle de circuit dans lequel la résistivité est considérée comme connue et constante, et l'inductance mutuelle est calculée analytiquement.

Le plasma est supposé être dans un état d'équilibre de force d'équilibre à symétrie toroïdale (équation de Grad-Shafranov21), dans lequel la force de Lorentz J × B générée à partir de l'interaction de la densité de courant plasma, J, et du champ magnétique, B, équilibre le gradient de pression plasma ∇p. Le transport de la pression radiale et de la densité de courant provoqué par les sources de chaleur et de courant n'est pas modélisé. Au lieu de cela, les profils radiaux du plasma sont modélisés comme des polynômes dont les coefficients sont contraints par le courant plasma Ip plus deux paramètres libres : la pression plasma normalisée βp, qui est le rapport de la pression cinétique à la pression magnétique, et le facteur de sécurité à l'axe du plasma qA, qui contrôle le pic de densité de courant.

L'évolution du courant plasma total Ip est décrite comme une équation à paramètres localisés sur la base de la loi d'Ohm généralisée pour le modèle magnétohydrodynamique. Pour ce modèle, la résistance totale du plasma, Rp, et l'auto-inductance totale du plasma, Lp, sont des paramètres libres. Enfin, FGE produit les mesures magnétiques synthétiques qui simulent les capteurs TCV, qui sont utilisés pour apprendre les politiques de contrôle, comme discuté ci-dessous.

Dans l'expérience avec les gouttelettes (Fig. 4), le plasma est considéré comme sans pression, ce qui simplifie la solution numérique de l'équation d'équilibre des forces. De plus, la bobine G était désactivée en simulation, car elle était placée en circuit ouvert lors des expériences (les champs radiaux rapides qu'elle génère étaient jugés inutiles pour ces plasmas). Cette expérience a utilisé un modèle antérieur pour l'évolution de Ip conçu pour le fonctionnement du plasma à l'état stationnaire. Ce modèle a un paramètre libre, le profil radial de la conductivité plasma parallèle néoclassique \({\sigma }_{\parallel }\) (réf. 22). Ce modèle a été remplacé par celui décrit ci-dessus pour l'expérience de plasma à domaine unique, car il décrit mieux l'évolution de Ip, en particulier lorsqu'il change rapidement.

Nous varions les paramètres d'évolution du plasma introduits ci-dessus pendant la formation pour fournir des performances robustes dans l'état réel mais inconnu du plasma. La quantité de variation est définie dans les plages identifiées à partir des données expérimentales, comme indiqué dans le tableau de données étendu 2. Dans les expériences à plasma unique, nous varions la résistivité du plasma Rp, ainsi que les paramètres de profil βp et qA. Lp ne varie pas, car il peut être calculé à partir d'une relation simple36. Ceux-ci sont tous échantillonnés indépendamment à partir d'une distribution log-uniforme spécifique au paramètre. Dans l'expérience avec des gouttelettes, on fait varier les valeurs initiales du courant de la bobine ohmique selon une distribution uniforme. Nous avons défini deux valeurs différentes pour les composants \({\sigma }_{\parallel }\) de la gouttelette. Nous échantillonnons le log de la différence entre eux à partir d'une distribution bêta mise à l'échelle et le décalage global de la moyenne géométrique combinée à partir d'une distribution log-uniforme, puis résolvons pour l'individu \({\sigma }_{\parallel }\). Les valeurs des paramètres sont échantillonnées au début de chaque épisode et maintenues constantes pendant toute la durée de la simulation. La valeur échantillonnée n'est délibérément pas exposée à l'architecture d'apprentissage car elle n'est pas directement mesurable. Par conséquent, l'agent est obligé d'apprendre un contrôleur capable de gérer de manière robuste toutes les combinaisons de ces paramètres. Cette technique de randomisation de domaine informée et ciblée s'est avérée efficace pour trouver des politiques qui suivent les cibles temporelles pour la forme et Ip tout en étant robustes à l'injection de chauffage externe et aux perturbations de mode localisées aux bords pendant le mode de confinement élevé.

Les données brutes des capteurs sur TCV passent par une étape de filtrage passe-bas et de conditionnement du signal37. Nous modélisons cette étape de la simulation par un retard temporel et un modèle de bruit gaussien, identifié à partir de données lors d'une phase de fonctionnement à plasma stationnaire (Extended Data Table 2). Ce modèle de capteur (illustré à la Fig. 1b) capture la dynamique pertinente affectant la stabilité du contrôle. La dynamique de l'alimentation électrique (également représentée sur la figure 1b) est modélisée avec un biais fixe et un délai fixe identifié à partir des données, ainsi qu'un autre décalage variant de manière aléatoire au début de chaque épisode. Les valeurs de ces modifications peuvent être trouvées dans le tableau de données étendu 2. Il s'agit d'une approximation prudente des véritables alimentations à base de thyristors37, mais elle capture la dynamique essentielle à des fins de contrôle.

La politique de contrôle peut apprendre à être robuste face à des phénomènes spécifiques au matériel très non linéaires. Par exemple, lorsque le courant dans les bobines actives change de polarité et que le contrôleur demande une tension trop basse, les alimentations peuvent se "bloquer", fournissant par erreur un courant de sortie nul sur une longue période (Extended Data Fig. 4b). Ce phénomène peut affecter à la fois la stabilité et la précision du contrôleur. Pour démontrer la capacité de notre contrôleur à traiter ce problème, nous avons appliqué "l'évitement de région apprise" dans la démonstration de contrôle avancé pour indiquer que des courants proches de zéro ne sont pas souhaitables. En conséquence, la politique de contrôle apprend efficacement à augmenter les tensions lors du changement de polarité du courant pour éviter les bobines bloquées sur l'installation (Extended Data Fig. 4c).

MPO23 utilise deux architectures de réseaux neuronaux pour concevoir et optimiser la politique : le réseau critique et le réseau politique. Les deux réseaux sont adaptés lors de la formation, mais seul le réseau politique est déployé sur l'usine.

Pour le réseau critique, les entrées sont combinées avec la valeur de la fonction tangente hyperbolique de la dernière action commandée et envoyées à une couche de mémoire longue à court terme (LSTM) de 256 unités de large. Les sorties de la couche LSTM sont ensuite concaténées avec ses entrées et envoyées à un perceptron multicouche (MLP), c'est-à-dire un empilement de deux couches cachées densément connectées avec 256 latentes chacune. Chacune des couches MLP utilise une non-linéarité d'unité linéaire exponentielle. Enfin, nous utilisons une dernière couche linéaire pour générer la valeur Q.

Le réseau de politique est limité à une architecture de réseau qui peut être évaluée sur le matériel cible dans les 50 μs pour obtenir le taux de contrôle de 10 kHz nécessaire. De plus, le réseau doit effectuer cette inférence avec une précision numérique suffisante sur le système de contrôle, qui utilise une architecture de processeur différente du matériel utilisé pour la formation. Par conséquent, le réseau politique est construit comme suit. Nous alimentons les entrées vers une pile d'une couche linéaire avec 256 sorties. Les sorties de cette couche linéaire sont normalisées avec un LayerNorm38 et délimitées à l'aide d'une fonction tangente hyperbolique. Après cela, la sortie est alimentée par un MLP à trois couches utilisant une non-linéarité d'unité linéaire exponentielle et 256 latentes chacune. La sortie de cette pile est alimentée par une couche linéaire finale qui produit deux paramètres par action : une moyenne de la distribution gaussienne et un écart type de la distribution gaussienne. L'écart type utilise une non-linéarité softplus pour s'assurer qu'il est toujours positif. Les paramètres de cette distribution gaussienne sur les actions sont la sortie du réseau de neurones. Notez que, pour évaluer la politique dans la simulation et l'exécution sur TCV, seule la moyenne de la distribution est utilisée. Avec ce petit réseau de neurones, nous pouvons effectuer des inférences dans le cache L2 du CPU sur le système de contrôle.

Ces réseaux de neurones sont initialisés avec les poids d'une distribution normale tronquée mise à l'échelle avec le nombre d'entrées et un biais de zéro. L'exception est la dernière couche du réseau de politique, qui est initialisée de la même manière mais mise à l'échelle avec 0,0001 (réf. 39). Ces réseaux sont formés avec une longueur de déroulement de 64 étapes. Pour la formation, nous avons utilisé une taille de lot de 256 et une remise de 0,99.

Données étendues La figure 5a montre l'importance d'une conception asymétrique entre le réseau d'acteurs et le réseau critique. Nous comparons la configuration standard avec une configuration symétrique dans laquelle la critique est également limitée par le taux de contrôle sur l'installation. Dans la configuration standard, le réseau critique est beaucoup plus grand que le réseau politique (718 337 paramètres contre 266 280 paramètres) et utilise également un LSTM récurrent. Dans la configuration symétrique, le critique est également un MLP qui a à peu près la même taille que la politique (266 497 paramètres). Nous voyons que la conception symétrique sous-performe considérablement la conception asymétrique dans l'apprentissage d'une politique efficace. Nous constatons en outre que le principal avantage provient de la conception récurrente de la critique pour gérer les propriétés non markoviennes de cet environnement. Lorsque nous augmentons la critique en conservant la structure d'anticipation de la politique, nous constatons que l'élargissement de sa largeur à 512 unités (926 209 paramètres) ou même 1 024 unités (3 425 281 paramètres) ne correspond toujours pas aux performances de la configuration avec la critique plus petite mais récurrente.

Notre approche utilise une approche de formation épisodique dans laquelle les données sont collectées en exécutant le simulateur avec une politique de contrôle dans la boucle, comme le montre la figure 1a. Les données issues de ces interactions sont collectées dans un buffer de capacité finie premier entré premier sorti40. Les trajectoires d'interaction sont échantillonnées au hasard à partir du tampon par un « apprenant », qui exécute l'algorithme MPO pour mettre à jour les paramètres de la politique de contrôle. Pendant la formation, la politique de contrôle exécutée est stochastique pour explorer les options de contrôle réussies. Cette politique stochastique est représentée par une distribution gaussienne diagonale sur les actions des bobines.

Chaque épisode correspond à une seule exécution de simulation qui se termine soit lorsqu'une condition de fin est atteinte, dont nous parlerons ci-dessous, soit lorsqu'un temps de simulation fixe s'est écoulé dans l'épisode. Ce temps fixe était de 0,2 s pour les gouttelettes, de 0,5 s dans le cas des données étendues Fig. 2a, c et 1 s dans le cas contraire. Chaque épisode est initialisé à partir d'un état d'équilibre à l'heure de transfert préprogrammée, qui a été reconstruit à partir d'une expérience précédente sur TCV.

Notre boucle d'entraînement émule la fréquence de contrôle de 10 kHz. A chaque étape, la politique est évaluée à partir de l'observation de l'étape précédente. L'action résultante est ensuite appliquée au simulateur, qui est alors étagé. Les observations et les récompenses sont également collectées à la fréquence de contrôle de 10 kHz, ce qui donne des données d'entraînement collectées à des intervalles de 0,1 ms. Pour notre simulation, nous avons choisi un pas de temps de 50 kHz. Ainsi, pour chaque évaluation de la politique, cinq pas de temps de simulation sont calculés. L'action, c'est-à-dire la tension de bobine souhaitée, est maintenue constante pendant ces sous-étapes. Les données des étapes intermédiaires ne sont utilisées que pour vérifier les conditions de terminaison et sont rejetées par la suite. Ceci permet de choisir indépendamment la cadence de commande et le pas de temps du simulateur et donc de fixer ce dernier sur la base de considérations numériques.

Nous utilisons une architecture distribuée41 avec une seule instance d'apprenant sur une unité de traitement tensorielle et plusieurs acteurs exécutant chacun une instance indépendante du simulateur. Nous avons utilisé 5 000 acteurs en parallèle pour nos expérimentations, ce qui se traduit généralement par des temps de formation de 1 à 3 jours, bien que parfois plus longs pour des cahiers des charges complexes. Nous avons effectué un balayage sur le nombre d'acteurs nécessaires pour stabiliser un plasma de base et les résultats peuvent être vus dans les données étendues Fig. 5. Nous voyons qu'un niveau de performance similaire peut être atteint avec une forte réduction du nombre d'acteurs pour un coût modéré en temps de formation.

Comme RL n'interagit que par échantillon avec l'environnement, la politique pourrait être affinée davantage avec les données d'interaction avec l'usine. Alternativement, on pourrait imaginer tirer parti de la base de données des expériences passées réalisées sur TCV pour améliorer la politique. Cependant, il n'est pas clair si les données sont suffisamment diverses, étant donné la polyvalence du TCV et le fait que la même configuration de plasma peut être obtenue par différentes configurations de tension de bobine. Surtout pour les formes de plasma jusqu'alors inconnues, aucune donnée ou seulement des données très limitées sont disponibles, ce qui rend cette approche inefficace. A l'inverse, le simulateur peut modéliser directement la dynamique des configurations d'intérêt. Ce problème dans lequel la collecte de données nécessite une bonne politique devient encore plus prononcé si l'on veut optimiser une politique de novo à partir de données, sans s'appuyer sur un modèle de simulation.

Toutes nos expériences ont plusieurs objectifs qui doivent être satisfaits simultanément. Ces objectifs sont spécifiés en tant que composants de récompense individuels qui suivent un aspect de la simulation - généralement, une quantité physique - et ces composants individuels sont combinés en une seule valeur de récompense scalaire. Les descriptions des cibles utilisées sont répertoriées dans le tableau de données étendu 4. Les valeurs cibles des objectifs varient souvent dans le temps (par exemple, le courant plasma et les points cibles limites) et sont envoyées à la politique dans le cadre des observations. Cette trace de cibles variant dans le temps est définie par une séquence de valeurs à des points dans le temps, qui sont interpolées linéairement pour tous les pas de temps intermédiaires.

Les cibles de forme pour chaque expérience ont été générées à l'aide du générateur de forme42 ou spécifiées manuellement. Ces points sont ensuite canonisés en 32 points équidistants le long d'une spline, qui sont les cibles qui sont transmises à la politique. La spline est périodique pour les formes fermées mais non périodique pour les formes déviées, se terminant aux points X.

Le processus de combinaison de ces multiples objectifs en un seul scalaire est le suivant. Tout d'abord, pour chaque objectif, la différence entre les valeurs réelles et cibles est calculée, puis transformée avec une fonction non linéaire en une mesure de qualité comprise entre 0 et 1. Dans le cas d'un objectif à valeur vectorielle (par exemple, la distance à chaque point de forme cible), les différences individuelles sont d'abord fusionnées en un seul scalaire via un « combinateur », une fonction non linéaire pondérée. Enfin, une combinaison pondérée des mesures de qualité individuelles spécifiques à l'objectif est calculée en une seule valeur de récompense scalaire entre 0 et 1 à l'aide d'un combinateur comme ci-dessus. Cette récompense (pas à pas) est ensuite normalisée de sorte que la récompense cumulée maximale soit de 100 pour 1 s de contrôle. Dans les cas où la politique de contrôle a déclenché une résiliation, une importante récompense négative est accordée. Voir le tableau de données étendu 5 pour plus de détails.

Nous calculons généralement la mesure de la qualité à partir de l'erreur à l'aide d'un softplus ou d'un sigmoïde, qui fournit un signal d'apprentissage non nul au début de la formation lorsque les erreurs sont importantes, tout en encourageant simultanément la précision à mesure que la politique s'améliore. De même, nous combinons les récompenses à l'aide d'un maximum lisse ou d'une moyenne géométrique (pondérée), ce qui donne un gradient plus important à l'amélioration de la pire récompense, tout en encourageant l'amélioration de tous les objectifs. Les définitions précises de récompense utilisées dans chacune de nos expériences sont répertoriées dans le tableau de données étendu 3 et les implémentations sont disponibles dans le matériel supplémentaire.

Certains contrôleurs ont présenté plusieurs comportements intéressants, qui sont brièvement mentionnés ici. Ces comportements de contrôle suggèrent d'autres capacités potentielles des approches de contrôle appris.

Un chauffage externe a été appliqué au cours de l'expérience illustrée à la figure 3b. Nous avons d'abord effectué une expérience de test sans chauffage, mais avec exactement le même contrôleur et les mêmes objectifs. Cela fournit un test de répétabilité simple dans la fenêtre de contrôle avant l'application du chauffage. Une comparaison des performances est illustrée dans les données étendues de la Fig. 3 et montre que, dans ces deux expériences, le contrôleur a fonctionné de manière similaire.

Lorsqu'on leur a donné pour objectif de ne maintenir que la position et le courant du plasma, notre architecture a construit de manière autonome un plasma à faible allongement qui élimine le mode d'instabilité verticale (Extended Data Fig. 4a), sans qu'on lui dise explicitement de le faire.

Notre architecture de contrôle peut naturellement choisir d'utiliser une combinaison variable de champ poloïdal et de bobines ohmiques pour piloter la tension inductive nécessaire au maintien du courant plasma (Extended Data Fig. 4b), contrairement aux architectures de contrôle existantes qui supposent généralement une séparation stricte.

Notre architecture peut apprendre à inclure des demandes physiques et de contrôle non linéaires en ajoutant des objectifs à la spécification des objectifs. Il peut, par exemple, éviter les limitations des alimentations électriques qui provoquent parfois des courants de bobine de commande "bloqués" lors de l'inversion de polarité (Données étendues Fig. 4c) et éviter les points X dans le vaisseau mais à l'extérieur du plasma (Données étendues Fig. 4d) lorsqu'il est demandé avec des récompenses de haut niveau.

Nous voyons que, pour certaines quantités, il y a une erreur en régime permanent dans la valeur cible (par exemple, κ dans Extended Data Fig. 3). Le développement futur consistera à éliminer ces erreurs, par exemple en rendant la politique de contrôle récurrente plutôt qu'antérieure. Il faut veiller à ce que ces politiques récurrentes plus puissantes ne se spécialisent pas trop dans la dynamique spécifique du simulateur et continuent à être transférées avec succès au TCV.

Comme la nature stochastique de la politique d'entraînement n'est utile que pour l'exploration, la politique de contrôle final est considérée comme la moyenne de la politique gaussienne à la fin de l'entraînement. Cela donne une politique déterministe à exécuter sur la centrale. Lors de la formation, nous contrôlons la qualité de cette politique déterministe avant déploiement.

La boucle de contrôle de TCV fonctionne à 10 kHz, bien que seule la moitié du temps de cycle, c'est-à-dire 50 μs, soit disponible pour l'algorithme de contrôle en raison d'autres traitements de signal et de journalisation. Par conséquent, nous avons créé un système de déploiement qui compile notre réseau de neurones en un code capable de fonctionner en temps réel et dont l'exécution est garantie dans cette fenêtre temporelle. Pour y parvenir, nous supprimons les poids et les calculs superflus (tels que la variance d'exploration), puis utilisons tfcompile43 pour le compiler en code binaire, en évitant soigneusement les dépendances inutiles. Nous avons adapté la structure du réseau neuronal pour optimiser l'utilisation du cache du processeur et permettre des instructions vectorisées pour des performances optimales. Le tableau des cibles de contrôle variant dans le temps est également compilé dans le binaire pour faciliter le déploiement. Dans les travaux futurs, des cibles pourraient facilement être fournies au moment de l'exécution pour ajuster dynamiquement le comportement de la politique de contrôle. Nous testons ensuite toutes les politiques compilées dans un benchmark automatisé et complet avant le déploiement pour nous assurer que les délais sont respectés de manière cohérente.

La forme et la position du plasma ne sont pas directement observées et doivent être déduites des mesures magnétiques disponibles. Cela se fait avec la reconstruction de l'équilibre magnétique, qui résout un problème inverse pour trouver la distribution du courant plasma qui respecte l'équilibre des forces (équation de Grad-Shafranov) et correspond le mieux aux mesures magnétiques expérimentales données à un moment précis dans un sens des moindres carrés.

Dans une conception de contrôle magnétique conventionnelle, une reconstruction d'équilibre magnétique capable de fonctionner en temps réel est nécessaire en tant qu'observateur de forme de plasma pour fermer la boucle de rétroaction de contrôle de forme (représentée par l'observateur de «forme de plasma» sur la figure 1f). Dans notre approche, à la place, nous n'utilisons la reconstruction d'équilibre avec le code LIUQE10 que lors de l'analyse post-décharge pour valider les performances du contrôleur de forme de plasma et calculer les conditions physiques initiales de la simulation pendant l'entraînement.

Après avoir exécuté l'expérience, nous utilisons ce code de reconstruction d'équilibre pour obtenir une estimation de l'état du plasma et du champ de flux magnétique. L'utilisation de cette approche est conforme à la littérature précédente pour évaluer la performance9,10.

La limite du plasma est définie par la dernière surface à flux fermé (LCFS) du domaine. Nous extrayons le LCFS sous la forme de 32 points équiangulaires autour de l'axe du plasma, puis canonisons avec des splines à 128 points équidistants. La distance d'erreur est calculée en utilisant la distance la plus courte entre chacun des points qui définissent la forme cible et le polygone défini par les 128 points sur le LCFS. La forme RMSE est calculée sur ces 32 distances d'erreur sur tous les pas de temps dans la plage de temps d'intérêt.

Les erreurs sur les quantités scalaires, telles que Ip ou l'allongement, sont calculées à partir de l'erreur entre la référence et l'estimation respective à partir de la reconstruction d'équilibre sur la période de temps d'intérêt. L'estimation du taux de croissance de l'instabilité de déplacement vertical6 est calculée à partir d'une décomposition spectrale du système d'équations linéarisé du simulateur autour de l'équilibre reconstruit.

Ces dernières années, des techniques de contrôle avancées ont été appliquées au contrôle du confinement magnétique. De Tommasi et al.44 décrivent une approche de contrôle basée sur un modèle pour le contrôle de la position du plasma à l'aide d'un modèle linéaire et d'une structure de contrôle de rétroaction en cascade. Gerkšič et De Tommasi45 proposent une approche de contrôle prédictif du modèle, démontrant le contrôle prédictif du modèle linéaire pour le contrôle de la position et de la forme du plasma dans la simulation, y compris une estimation de faisabilité pour le déploiement du matériel. Boncagni et al.46 ont proposé un contrôleur de commutation, améliorant le suivi du courant plasma sur le matériel mais sans démontrer d'autres capacités. Il y a eu d'autres travaux antérieurs dans lesquels RL a appris sur des modèles de plasma, par exemple, à contrôler le facteur de sécurité47 ou à contrôler le gradient ion-température48. Récemment, Seo et al.49 ont développé des signaux d'anticipation pour le contrôle bêta à l'aide de RL, qui ont ensuite été vérifiés sur le tokamak KSTAR.

Plus généralement, des approches basées sur l'apprentissage automatique sont développées pour le contrôle du confinement magnétique et la fusion en général, sans se limiter au contrôle. Une étude de ce domaine est fournie par Humphreys et al.14, qui ont classé les approches en sept opportunités de recherche prioritaires, y compris l'accélération de la science, les diagnostics, l'extraction de modèles, le contrôle, les données volumineuses, la prédiction et le développement de plateformes. L'utilisation précoce des réseaux de neurones dans une boucle de contrôle pour le contrôle du plasma est présentée par Bishop et al.15, qui ont utilisé un réseau de neurones à petite échelle pour estimer la position du plasma et les paramètres de forme de faible dimension, qui ont ensuite été utilisés comme signaux d'erreur pour le contrôle par rétroaction.

Notre architecture constitue une avancée importante en termes de généralité, dans laquelle un cadre unique est utilisé pour résoudre une grande variété de défis de contrôle de la fusion, satisfaisant plusieurs des promesses clés de l'apprentissage automatique et de l'intelligence artificielle pour la fusion énoncées dans la réf. 14.

Notre approche a été démontrée avec succès sur TCV, et nous sommes convaincus qu'avec quelques modifications de base, notre approche est directement applicable à d'autres tokamaks qui répondent à certaines hypothèses et exigences techniques énoncées ci-dessous. Tous les tokamaks actuels ont été confirmés pour respecter, du point de vue du contrôle magnétique, les équations couplées résolues par les simulateurs à frontières libres. Les contrôleurs d'équilibre ont été régulièrement conçus sur la base de ces modèles et, pour les futurs tokamaks, il n'y a pas encore de raison de croire que ce modèle ne sera plus valable. Naturellement, nous ne pouvons pas prédire les performances de notre approche sur d'autres types d'appareils.

Pour simuler un appareil différent, les paramètres du simulateur de limite libre devront être définis de manière appropriée. Cela inclut la description de la machine avec les emplacements et les propriétés électriques des bobines, de la cuve et du limiteur, les caractéristiques de l'actionneur et du capteur, telles que les plages de courant et de tension, le bruit et le retard. Les conditions opérationnelles telles que la plage de variation attendue des paramètres de profil doivent également être déterminées. Enfin, les récompenses et les cibles doivent être mises à jour pour correspondre à la géométrie et aux formes souhaitées.

Les caractéristiques susmentionnées doivent être facilement disponibles, car elles font généralement partie du processus de conception d'un tokamak donné. En effet, les calculs d'équilibre de Grad-Shafranov sont régulièrement effectués pour la conception générale et l'analyse d'un nouveau tokamak, et ceux-ci incluent tous les paramètres requis. Ces variations de la géométrie du vaisseau et du nombre, de l'emplacement et de la portée des capteurs et des bobines ne devraient pas nécessiter de modifications de l'algorithme d'apprentissage au-delà de l'ajustement des limites de conception. L'algorithme d'apprentissage ajustera automatiquement les dimensions des couches d'entrée et de sortie pour le réseau neuronal et apprendra automatiquement une politique adaptée au nouveau navire et au système de contrôle.

D'autres considérations sont nécessaires pour le déploiement. Notre approche nécessite un système de contrôle centralisé avec une puissance de calcul suffisante pour évaluer un réseau de neurones à la fréquence de contrôle souhaitée, bien qu'un processeur de bureau soit suffisant pour répondre à cette exigence. De plus, un contrôleur magnétique existant est nécessaire pour effectuer une panne de plasma et une montée en puissance précoce avant de passer le relais au contrôleur appris. Bien que nos contrôleurs soient formés pour éviter les interruptions de simulation correspondant à des critères de perturbation, il n'est pas garanti qu'ils évitent les perturbations du plasma. Par conséquent, si le tokamak cible ne peut pas tolérer certains types de perturbations, une couche de protection de la machine telle qu'un contrôleur de secours plus simple ou un système de verrouillage doit être en place pendant les expériences.

Les données expérimentales TCV des images de cet article sont disponibles dans les informations supplémentaires. Les données sources sont fournies avec ce document.

L'algorithme d'apprentissage utilisé dans la méthode RL acteur-critique est MPO23, dont une implémentation de référence est disponible sous licence open-source41. De plus, les bibliothèques logicielles launchpad50, dm_env51, sonnet52, tensorflow53 et reverb40 ont été utilisées, qui sont également disponibles en open source. Le code pour calculer les objectifs de contrôle, les récompenses et les résiliations est disponible dans les informations supplémentaires. FGE et LIUQE sont disponibles sous réserve d'un accord de licence auprès du Swiss Plasma Center de l'EPFL (Antoine Merle [email protected], Federico Felici [email protected]).

Hofmann, F. et al. Création et contrôle de plasmas de forme variable en TCV. physique des plasmas. Contrôle. Fusion 36, B277 (1994).

Article ADS CAS Google Scholar

Coda, S. et al. Recherche en physique sur l'installation tokamak TCV : des scénarios conventionnels aux scénarios alternatifs et au-delà. Nucl. Fusion 59, 112023 (2019).

Article ADS CAS Google Scholar

Anand, H., Coda, S., Felici, F., Galperti, C. & Moret, J.-M. Un nouveau contrôleur de position et de forme du plasma pour le développement de configuration avancée sur le tokamak TCV. Nucl. Fusion 57, 126026 (2017).

Annonces d'article Google Scholar

Mele, A. et al. Contrôle de forme MIMO au tokamak EAST : simulations et expérimentations. Fusion Ing. Dés. 146, 1282-1285 (2019).

Article CAS Google Scholar

Anand, H. et al. Contrôle de l'expansion du flux plasma sur le tokamak DIII-D. physique des plasmas. Contrôle. Fusion 63, 015006 (2020).

Annonces d'article Google Scholar

De Tommasi, G. Contrôle magnétique plasma dans les appareils tokamak. J. Fusion Energy 38, 406–436 (2019).

Article Google Scholar

Walker, ML & Humphreys, DA Systèmes de coordonnées valides pour les modèles de réponse de forme de plasma linéarisés dans les tokamaks. Fusion Sci. Technol. 50, 473–489 (2006).

Article CAS Google Scholar

Blum, J., Heumann, H., Nardon, E. & Song, X. Automatisation de la conception de scénarios d'expérimentation de tokamak. J. Comput. Phys. 394, 594–614 (2019).

Article ADS MathSciNet Google Scholar

Ferron, JR et al. Reconstruction d'équilibre en temps réel pour le contrôle de décharge de tokamak. Nucl. Fusion 38, 1055 (1998).

Article ADS CAS Google Scholar

Moret, J.-M. et coll. Tokamak Equilibrium Reconstruction Code LIUQE et son implémentation en temps réel. Ingénierie des fusions. Déc. Rév. 91, 1–15 (2015).

Article CAS Google Scholar

Xie, Z., Berseth, G., Clary, P., Hurst, J. & van de Panne, M. Contrôle de rétroaction pour Cassie avec apprentissage par renforcement profond. En 2018, Conférence internationale IEEE/RSJ sur les robots et systèmes intelligents (IROS) 1241–1246 (IEEE, 2018).

Akkaya, I. et al. Résoudre le Rubik's cube avec une main de robot. Préimpression sur https://arxiv.org/abs/1910.07113 (2019).

Bellemare, MG et al. Navigation autonome de ballons stratosphériques par apprentissage par renforcement. Nature 588, 77–82 (2020).

Article ADS CAS Google Scholar

Humphreys, D. et al. Faire progresser la fusion avec la recherche sur l'apprentissage automatique nécessite un rapport d'atelier. J. Fusion Energy 39, 123–155 (2020).

Article CAS Google Scholar

Bishop, CM, Haynes, PS, Smith, ME, Todd, TN & Trotman, DL Contrôle en temps réel d'un plasma tokamak à l'aide de réseaux de neurones. Calcul neuronal. 7, 206-217 (1995).

Article Google Scholar

Joung, S. et al. Solveur Grad-Shafranov de réseau neuronal profond contraint par des signaux magnétiques mesurés. Nucl. Fusion 60, 16034 (2019).

Article Google Scholar

van de Plassche, KL et al. Modélisation rapide du transport turbulent dans les plasmas de fusion à l'aide de réseaux de neurones. Phys. Plasmas 27, 022310 (2020).

Annonces d'article Google Scholar

Abbate, J., Conlin, R. & Kolemen, E. Prévision de profil basée sur les données pour DIII-D. Nucl. Fusion 61, 046027 (2021).

Article ADS CAS Google Scholar

Kates-Harbeck, J., Svyatkovskiy, A. & Tang, W. Prédire les instabilités perturbatrices dans les plasmas de fusion contrôlés grâce à l'apprentissage en profondeur. Nature 568, 526-531 (2019).

Article ADS CAS Google Scholar

Jardin, S. Méthodes computationnelles en physique des plasmas (CRC Press, 2010).

Grad, H. & Rubin, H. Équilibres hydromagnétiques et champs sans force. J. Nucl. Énergie (1954) 7, 284–285 (1958).

Article Google Scholar

Carpanese, F. Développement de solveurs d'équilibre et de transport à frontière libre pour la simulation et l'interprétation en temps réel d'expériences de tokamak. Thèse de doctorat, EPFL (2021).

Abdolmaleki, A. et al. Itération de politique régularisée par entropie relative. Préimpression sur https://arxiv.org/abs/1812.02256 (2018).

Paley, JI, Coda, S., Duval, B., Felici, F. & Moret, J.-M. Architecture et mise en service du système d'asservissement distribué TCV. En 2010, 17e conférence en temps réel IEEE-NPSS 1–6 (IEEE, 2010).

Freidberg, JP Plasma Physics and Fusion Energy (Cambridge Univ. Press, 2008).

Hommen, GD et al. Reconstruction optique en temps réel des limites du plasma pour le contrôle de la position du plasma au tokamak TCV. Nucl. Fusion 54, 073018 (2014).

Article ADS CAS Google Scholar

Austin, ME et al. Réalisation de performances pertinentes pour le réacteur en forme de triangularité négative dans le tokamak DIII-D. Phys. Rév. Lett. 122, 115001 (2019).

Article ADS CAS Google Scholar

Kolemen, E. et al. Développement initial du contrôle du divertor flocon de neige DIII – D. Nucl. Fusion 58, 066007 (2018).

Annonces d'article Google Scholar

Anand, H. et al. Contrôle magnétique en temps réel de la configuration du plasma flocon de neige dans le tokamak TCV. Nucl. Fusion 59, 126032 (2019).

Article ADS CAS Google Scholar

Wigbers, M. & Riedmiller, M. Une nouvelle méthode pour l'analyse du contrôle du modèle de référence neuronal. Dans Proc. Conférence internationale sur les réseaux de neurones (ICNN'97) Vol. 2, 739–743 (IEEE, 1997).

Berkenkamp, ​​F., Turchetta, M., Schoellig, A. & Krause, A. Apprentissage par renforcement basé sur un modèle sûr avec des garanties de stabilité. En 2017, Advances in Neural Information Processing Systems 908–919 (ACM, 2017).

Wabersich, KP, Hewing, L., Carron, A. & Zeilinger, MN Certification de sécurité prédictive du modèle probabiliste pour le contrôle basé sur l'apprentissage. IEEE Tran. Automat. Contrôle 67, 176–188 (2021).

Article MathSciNet Google Scholar

Abdolmaleki, A. et al. Sur l'optimisation des politiques multi-objectifs comme outil d'apprentissage par renforcement. Préimpression sur https://arxiv.org/abs/2106.08199 (2021).

Coda, S. et al. Panorama du programme tokamak TCV : avancées scientifiques et modernisation des installations. Nucl. Fusion 57, 102011 (2017).

Annonces d'article Google Scholar

Karpushov, AN et al. Chauffage du faisceau neutre sur le tokamak TCV. Ingénierie des fusions. Déc. Rév. 123, 468–472 (2017).

Article CAS Google Scholar

Lister, JB et al. Modélisation et validation de la réponse à l'équilibre du plasma sur JT-60U. Nucl. Fusion 42, 708 (2002).

Article ADS CAS Google Scholar

Lister, JB et al. Le contrôle des plasmas variables de configuration tokamak. Technologie Fusion. 32, 321–373 (1997).

Article CAS Google Scholar

Ulyanov, D., Vedaldi, A. & Lempitsky, V. Normalisation d'instance : l'ingrédient manquant pour une stylisation rapide. Préimpression sur https://arxiv.org/abs/1607.08022 (2016).

Andrychowicz, M. et al. Qu'est-ce qui compte dans l'apprentissage par renforcement sur les politiques ? Une étude empirique à grande échelle. Dans ICLR 2021 Neuvième Conférence internationale sur les représentations de l'apprentissage (2021).

Cassirer, A. et al. Reverb : un cadre pour la relecture d'expérience. Préimpression sur https://arxiv.org/abs/2102.04736 (2021).

Hoffman, M. et al. Acme : un cadre de recherche pour l'apprentissage par renforcement distribué. Préimpression sur https://arxiv.org/abs/2006.00979 (2020).

Hofmann, F. FBT - un code d'équilibre de tokamak à frontière libre pour les plasmas très allongés et en forme. Calcul. Phys. Commun. 48, 207-221 (1988).

Article ADS CAS Google Scholar

Abadi, M. et al. TensorFlow : un système d'apprentissage automatique à grande échelle. Dans Proc. 12e Symposium USENIX sur la conception et la mise en œuvre des systèmes d'exploitation (OSDI '16) 265–283 (2016).

De Tommasi, G. et al. Stabilisation verticale du plasma basée sur un modèle et contrôle de position à l'EST. Fusion Ing. Dés. 129, 152-157 (2018).

Article Google Scholar

Gerkšič, S. & De Tommasi, G. Contrôle du courant et de la forme du plasma ITER à l'aide de MPC. En 2016 Conférence IEEE sur les applications de contrôle (CCA) 599–604 (IEEE, 2016).

Boncagni, L. et al. Commutation de contrôleur basée sur les performances: une application au contrôle du courant plasma à FTU. En 2015, 54e Conférence IEEE sur la décision et le contrôle (CDC) 2319–2324 (IEEE, 2015).

Wakatsuki, T., Suzuki, T., Hayashi, N., Oyama, N. & Ide, S. Contrôle du profil du facteur de sécurité avec réduction de la consommation de flux du solénoïde central pendant la phase de montée en puissance du courant plasma à l'aide d'une technique d'apprentissage par renforcement. Nucl. Fusion 59, 066022 (2019).

Article ADS CAS Google Scholar

Wakatsuki, T., Suzuki, T., Oyama, N. & Hayashi, N. Contrôle du gradient de température ionique à l'aide de la technique d'apprentissage par renforcement. Nucl. Fusion 61, 046036 (2021).

Article ADS CAS Google Scholar

Seo, J. et al. Contrôle bêta prédictif dans le tokamak KSTAR par apprentissage par renforcement profond. Nucl. Fusion 61, 106010 (2021).

Article ADS CAS Google Scholar

Yang, F. et al. Launchpad : un modèle de programmation pour la recherche en apprentissage automatique distribué. Préimpression sur https://arxiv.org/abs/2106.04516 (2021).

Muldal, A. et al. dm_env : une interface Python pour les environnements d'apprentissage par renforcement. http://github.com/deepmind/dm_env (2019).

Reynolds, M. et al. Sonnet : bibliothèque de réseaux de neurones basée sur TensorFlow. http://github.com/deepmind/sonnet (2017).

Martin A. et al. TensorFlow : apprentissage automatique à grande échelle sur des systèmes hétérogènes. Logiciel disponible sur https://www.tensorflow.org/ 2015.

Hender, TC et al. Chapitre 3 : Stabilité MHD, limites opérationnelles et perturbations. Nucl. Fusion 47, S128–S202 (2007).

Télécharger les références

Nous reconnaissons avec gratitude le travail et le soutien de l'équipe du TCV (voir la liste des auteurs de Coda et al.2) pour permettre ces résultats expérimentaux. Nous remercions C. Wüthrich et Y. Andrebe pour leur soutien au diagnostic. Nous remercions C. Jones et E. Smith pour leur aide stratégique et leur inspiration au début du projet. Nous remercions R. Ahamed, P. Komarek, V. Panneershelvam et F. Song pour leur soutien dans la préparation et au cours de cette recherche. Ce travail a été soutenu en partie par le Fonds National Suisse de la Recherche Scientifique.

Ces auteurs ont contribué à parts égales : Jonas Degrave, Federico Felici, Jonas Buchli, Michael Neunert, Brendan Tracey, Francesco Carpanese, Timo Ewalds, Roland Hafner, Martin Riedmiller

DeepMind, Londres, Royaume-Uni

Jonas Degrave, Jonas Buchli, Michael Neunert, Brendan Tracey, Francesco Carpanese, Timo Ewalds, Roland Hafner, Abbas Abdolmaleki, Andrea Huber, James Keelling, Maria Tsimpoukelli Ohli, Koray Kavukcuoglu, Demis Hassabis et Martin Riedmiller

Centre suisse du plasma - EPFL, Lausanne, Suisse

Federico Felici, Francesco Carpanese, Cristian Galperti, Antoine Merle, Jean-Marc Moret, Federico Pesamosca, Olivier Sauter, Cristian Sommariva, Stefano Coda, Basil Duval & Ambrogio Fasoli

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

BT, FC, FF, JB, JD, MN, MR, RH et TE ont contribué à parts égales. DP, FF, JB, JD, MR et RH ont conçu le projet. AH, BT, FF, JB, JD, LF, MN et MR ont dirigé le projet. AM, BT, CD, CS, FC, FF, FP, JB, J.-MM, MN et OS ont développé les simulations physiques. BT, CD, DC, FF, JD, J. Kay, MN, MT et TE ont intégré les simulations physiques au cadre d'apprentissage. AA, BT, JD, J. Keeling, RH et TE ont développé le cadre d'apprentissage et réalisé des expériences d'apprentissage. CG, DC, FF, JB, JD, MN, SN et TE ont développé l'interface de réseau neuronal en temps réel. CG, FC, FF, JD et SC ont intégré le réseau neuronal en temps réel au système de contrôle et ont mené des expériences sur le tokamak. CD, DC, FC, FF, JB, J. Keeling, MN et TE ont développé des outils de conservation des données. BT, CG, FC, FF, JB, J. Keeling, MN, RH et TE ont développé et exécuté l'analyse des données. AF, BD, DH, SC, KK et PK consultés pour le projet. BT, FC, FF, JB, JD, MN, MR, RH et TE ont rédigé le manuscrit.

Correspondance à Federico Felici, Jonas Buchli ou Brendan Tracey.

BT, FC, FF, JB, JD, MN, RH et TE ont déposé une demande de brevet provisoire sur le contenu de ce manuscrit. Les autres auteurs ne déclarent aucun intérêt concurrent.

Nature remercie Takuma Wakatsuki et les autres relecteurs anonymes pour leur contribution à la relecture par les pairs de ce travail.

Note de l'éditeur Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

a, b Photographies montrant la partie du TCV à l'intérieur du bioshield. c Dessin CAO de la cuve et des bobines du TCV. d Vue de l'intérieur du TCV (Alain Herzog/EPFL), montrant le carrelage du limiteur, les chicanes et la colonne centrale.

Nous avons tracé les valeurs reconstruites pour la pression normalisée βp et le facteur de sécurité qA, ainsi que la plage de randomisation de domaine que ces variables ont vue pendant l'entraînement (en vert), qui se trouve dans le tableau de données étendu 2. Nous avons également tracé le taux de croissance, γ, et le courant plasmatique, Ip, ainsi que la valeur cible associée. Le cas échéant, nous traçons l'allongement κ, l'échauffement du faisceau neutre, la triangularité δ et la position verticale du point X inférieur ZX et de sa cible.

Données source

Pour illustrer la variabilité des performances que notre contrôleur déterministe atteint sur l'environnement, nous avons tracé les trajectoires d'une politique qui a été utilisée deux fois sur l'usine : au plan 70599 (en bleu) et au plan 70600 (en orange). La ligne pointillée montre où les coupes transversales du navire sont illustrées. Les trajectoires sont représentées depuis le handover à 0,0872 s jusqu'à 0,65 s après la panne, après quoi, au plan 70600, le chauffage du faisceau neutre s'est mis en marche et les deux plans divergent. La ligne verte montre la distance RMSE entre le LCFS dans les deux expériences, fournissant une mesure directe de la similitude de forme entre les deux prises de vue. Cela illustre la répétabilité des expériences à la fois dans les paramètres de forme tels que l'allongement κ et la triangularité δ et dans l'erreur obtenue par rapport aux cibles en courant plasma Ip et la forme de la dernière surface de flux fermé.

Données source

a, Lorsqu'on lui demande de stabiliser le plasma sans autre spécification, l'agent crée une forme ronde. L'agent contrôle à partir de t = 0,45 et change de forme tout en essayant d'atteindre les cibles Ra et Za. Ce comportement découvert est en effet une bonne solution, car ce plasma rond est intrinsèquement stable avec un taux de croissance γ < 0. b, Lorsqu'il n'est pas récompensé d'avoir un courant similaire sur les deux bobines ohmiques, l'algorithme a tendance à utiliser les bobines E pour obtenir le même effet que la bobine OH001. Ceci est en effet possible, comme le montrent les positions des bobines sur la figure 1g, mais provoque des forces électromagnétiques sur les structures de la machine. Par conséquent, dans les prises de vue ultérieures, une récompense a été ajoutée pour maintenir le courant dans les deux bobines ohmiques proches l'une de l'autre. c, Demandes de tension par la politique pour éviter que la bobine E3 ne colle lors du franchissement de 0 A. Comme on peut le voir, par exemple, sur les données étendues Fig. 4b, les courants peuvent rester bloqués sur 0 A pour les demandes de basse tension, une conséquence de la façon dont ces demandes sont traitées par le système d'alimentation. Comme ce comportement était difficile à modéliser, nous avons introduit une récompense pour maintenir les courants de bobine éloignés de 0 A. La politique de contrôle produit une demande de haute tension pour se déplacer rapidement dans cette région. d, Une illustration de la différence de sections transversales entre deux plans différents, dans laquelle la seule différence est que la politique de droite a été entraînée avec une récompense supplémentaire pour avoir évité les points X dans le vide.

Données source

Récompense épisodique pour la politique déterministe lissée sur 20 épisodes avec des variations de paramètres activées, dans lesquelles 100 signifie que tous les objectifs sont parfaitement atteints. une comparaison de la courbe d'apprentissage pour le benchmark de capacité (comme illustré à la Fig. 2) en utilisant notre acteur-critique asymétrique par rapport à un acteur-critique symétrique, dans lequel le critique utilise le même réseau d'anticipation capable en temps réel que l'acteur. En bleu, les performances avec la critique par défaut de 718 337 paramètres. En orange, nous montrons la version symétrique, dans laquelle le critique a la même structure et la même taille d'anticipation (266 497 paramètres) que la politique (266 280 paramètres). Lorsque nous conservons la structure prédictive de la critique symétrique et augmentons la critique, nous constatons que l'élargissement de sa largeur à 512 unités (en vert, 926 209 paramètres) ou même 1 024 unités (en rouge, 3 425 281 paramètres) ne comble pas l'écart de performance avec la plus petite critique récurrente. b comparaison entre l'utilisation de différentes quantités d'acteurs pour stabiliser un plasma légèrement allongé. Bien que les politiques de cet article aient été formées avec 5 000 acteurs, cette comparaison montre que, au moins pour les cas les plus simples, le même niveau de performance peut être atteint avec des ressources de calcul beaucoup plus faibles.

Données source

Ce fichier contient un aperçu des fichiers situés dans le dossier de données supplémentaires compressé qui l'accompagne.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International License, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, tant que vous donnez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Degrave, J., Felici, F., Buchli, J. et al. Contrôle magnétique des plasmas de tokamak par apprentissage par renforcement profond. Nature 602, 414–419 (2022). https://doi.org/10.1038/s41586-021-04301-9

Télécharger la citation

Reçu : 14 juillet 2021

Accepté : 01 décembre 2021

Publié: 16 février 2022

Date d'émission : 17 février 2022

DOI : https://doi.org/10.1038/s41586-021-04301-9

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

Avis sur Physique moderne des plasmas (2023)

Communication Nature (2022)

Nature Reviews Physique (2022)

Intelligence artificielle de la nature (2022)

Rapports scientifiques (2022)

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.