Система искусственного интеллекта может находить оптимальные решения быстрее, чем человек, и быстро изменять конструкции в безопасной смоделированной среде.
В типичном реакторе топливные стержни выстроены в сетку или сборку по уровням урана и оксида гадолиния внутри, как шахматные фигуры на доске, с реакциями, запускающими радиоактивный уран, и редкоземельным гадолинием, замедляющим их. В идеальной компоновке эти конкурирующие импульсы уравновешиваются, чтобы стимулировать эффективные реакции. Инженеры пытались использовать традиционные алгоритмы для улучшения макетов, разработанных человеком, но в стандартной сборке из 100 стержней может быть астрономическое количество вариантов для оценки.
Исследователи задались вопросом, может ли глубокое обучение с подкреплением — техника искусственного интеллекта, позволившая достичь сверхчеловеческого мастерства в таких играх, как шахматы и го, — ускорить процесс проверки. Глубокое обучение с подкреплением сочетает в себе глубокие нейронные сети, которые превосходно выделяют закономерности в массивах данных, с обучением с подкреплением, которое связывает обучение с сигналом вознаграждения, таким как победа в игре.
В новом эксперименте исследователи обучили своего агента размещать топливные стержни в соответствии с набором ограничений, зарабатывая больше очков за каждый удачный ход. Каждое ограничение или правило, выбранное исследователями, отражает десятилетия экспертных знаний, основанных на законах физики. Агент может набирать очки, например, размещая стержни с низким содержанием урана на краях сборки, чтобы замедлить там реакции.
Благодаря обучению с подкреплением ИИ научился играть во все более сложные игры не хуже людей или даже лучше. Но его возможности остаются бесполезными в реальном мире. Теперь исследователи доказали, что у обучения с подкреплением есть потенциал.
Exelon сейчас тестирует бета-версию системы искусственного интеллекта в виртуальной среде. По словам представителя компании, система может быть готова к внедрению через год или два.