Skip to main content

Методы координации роботов для задач сборки

Введение

Цель данного исследования состояла в том, чтобы изучить текущее состояние современных исследований в области многоагентных роботизированных систем (Multi Robot System, MRS). Приведённые статьи выделяют ключевые проблемы данной сферы исследований и их возможные решения, включающие как совместное планирование траекторий, так и кооперативное управление с определённой целью. Перечень статей составлен таким образом, чтобы охватить как тематики непосредственно относящиеся к кооперативной сборке роботами-манипуляторами, так и имеющие косвенное отношение (например, где рассматриваются мобильные роботы).

Роботы-манипуляторы

Learning a Decentralized Multi-arm Motion Planner

В статье представлен масштабируемый планировщик движения с обратной связью (closed loop) для групп роботов-манипуляторов. Традиционные роботизированные системы полагаются на централизованные планировщики движения, время выполнения которых часто экспоненциально увеличивается в зависимости от количество агентов. Авторы предлагают решать эту проблему с помощью многоагентного обучения с подкреплением (MARL), когда децентрализованная политика (decentralized policy - стратегия, которая применяется агентом для принятия решения о следующем действии на основе текущего состояния) обучается управлять одним роботом-манипулятором в системе из нескольких роботов-манипуляторов для достижения своей целевой позиции конечного звена, учитывая наблюдения за состоянием его рабочего пространства.

Политика обучается с использованием Soft Actor-Critic с демонстрациями экспертов на основе алгоритма планирования движения на основе выборки (например, BiRRT) и использованием независимого обучения (IL), где агенты делятся параметрами и опытом. В системе с 16-ядерным процессором Intel i7-7820X и графическим процессором NVIDIA GTX 1080 обучение политики заняло приблизительно 14 дней, а генерация 1 000 000 экспертных точек заняло 2 дня. Авторы отмечают, что используя классические алгоритмы планирования, можно повысить эффективность обучения, сохраняя при этом быстрое время вывода (inference) нейронных сетей. Каждый робот управляется экземпляром одной и той же политики.

Результирующая политика масштабируется суб-линейно и может быть развернута в системах с переменным количеством роботов-манипуляторов. Благодаря обратной связи и децентрализации данный подход распространяется на системы из 5-10 роботов-манипуляторов и динамические движущиеся цели (>90% успешно завершенных задач для системы из 10 роботов), несмотря на то, что первоначально обучены задачам планирования со статическими целями только для 1-4 роботов.

An Overview of Collaborative Robotic Manipulation in Multi-Robot Systems

  • Авторы: Zhi Feng, Guoqiang Hu, Yajuan Sun, Jeffrey Soon
  • Год: 2020

В обзорной статье Feng et al., 2020 подробно рассматривается развитие совместного роботизированного манипулирования объектами, включая координацию нескольких фиксированных манипуляторов, мобильных роботов и мобильных манипуляторов. Обзор классифицирует и сравнивает различные проблемы и перспективные подходы, а также указывает на несколько направлений для будущих исследований.

В статье задачи Multi-Robot Systems подразделяются на следующие классы по типу участвующих во взаимодействиях агентов: стационарных роботов-манипуляторов, мобильных роботов и передвижных манипуляторов на колесах.

Выделяются следующие проблемы проектирования MRS из роботов-манипуляторов:

  1. Выбор конечных исполнительных устройств (рабочих органов): большинство роботов-манипуляторов оснащены простым типовым захватом в качестве конечного исполнительного устройства, в то время как было бы более эффективно, если бы для координации мобильных манипуляторов использовались продвинутые инструменты, связанные с задачами;
  2. Избегание сингулярностей: системы, состоящие из мобильных платформ и манипуляторов, особенно подвержены в действительности сингулярностям, которых, как ожидается, следует избегать;
  3. Меньшая избыточность: избыточность представляет проблему при управлении конечным звеном (рабочим органом) и задача состоит в том, чтобы спроектировать системы с меньшей избыточностью для выполнения задач.

The Path Planning of Synchronous Cooperative Motion Control between Robot and Positioner for Complex Space Curve Processing

  • Авторы: Chen Lin, Wang Ziwei, Mo Yuliang, Pan Haihong
  • Год: 2020

В статье Chen et al., 2020 предлагается алгоритм синхронного кооперативного планирования пути (SCPP) для робота и позиционера (подвижной платформы) с целью обработки сложных кривых в пространстве. Данный алгоритм иллюстрируется на примере сварки пересекающихся линий. Робот и позиционер рассматриваются как система с 8 степенями свободы (DOF) для планирования всего пути синхронного кооперативного движения. Вводится ограничение для оси Y системы координат сварочного факела, чтобы решить проблему ориентации пересекающихся линий. Ориентация сварочного факела и углы вращения сочленений робота во время сварки пересекающихся линий сравниваются с использованием улучшенного метода и традиционного метода. Экспериментальные результаты показывают, что для восьми степеней свободы обеспечивается синхронное взаимодействие на протяжении всего движения. Во время совместного движения не возникает помех и ориентация сварочного факела в основном остается неизменной во время сварки пересекающихся линий.

Time Optimal Motion Planning and Admittance Control for Cooperative Grasping

  • Авторы: Kaserer Dominik, Gattringer Hubert, Muller Andreas
  • Год: 2020

В статье Kaserer et al., 2020 исследуется ситуация совместного захвата, когда объект манипулируется несколькими роботами, а захват достигается благодаря одностороннему контакту между роботами и объектом. Это отличается от взаимодействия нескольких роботов, где каждый робот жестко захватывает объект. Планирование движения для задач совместного захвата включает активное управление силой взаимодействия для обеспечения стабильности.

Особенно сложной задачей является достижение оптимальных по времени движений. Важно, чтобы траектории были непрерывными до третьего порядка, чтобы удовлетворять ограничениям на скорость, ускорение, рывок и моменты сил роботов.

Авторы представляют подход к решению оптимального по времени следования по пути для двух роботов, выполняющих задачи совместного захвата. Оптимальный по времени путь определяется с помощью метода динамического программирования. Предлагается схема управления по принципу податливости в пространстве задач и используется для генерации силы контакта. Этот метод применим к захвату общих объектов, которые находятся в поверхностном контакте с роботом.

Synchronous Minimum-Time Cooperative Manipulation using Distributed Model Predictive Control

  • Авторы: Tika Argtim Bajcinca Naim
  • Год: 2020

В статье Tika et al., 2020 авторы предлагают иерархический алгоритм, включающий в себя двухуровневые политики управления на основе оптимизации с различной степенью абстракции, включая верхний уровень планирования задач (task scheduling) и нижний уровень локального планирования пути (path planning). Рассматривается сценарий с двумя роботизированными руками, выполняющими совместные задачи по перемещению объектов.

Основное внимание в статье уделено нижнему уровню иерархической схемы управления, а именно онлайн-генерации синхронных траекторий роботов с использованием алгоритмов распределенного модельного предиктивного управления (DMPC) с минимальным временем. Для этого авторы вводят замедляющий связующий член в функции стоимости (value function) индивидуальных распределенных алгоритмов оптимизации, чтобы синхронизировать общее движение роботов. Эффективность алгоритма иллюстрируется многочисленными симуляциями с высокоточными динамическими моделями роботов.

Distributed Synchronization Control to Trajectory Tracking of Multiple Robot Manipulators

  • Авторы: Bouteraa Yassine, Ghommam Jawhar, Poisson Gérard, Derbel Nabil
  • Год: 2011

Статья Bouteraa et al., 2011 исследует вопрос разработки методов децентрализованного управления для группы манипуляторов. Цель исследования состояла в том, чтобы синхронизировать их движения, отслеживая общую желаемую траекторию. Основанная на хорошо известном алгоритме консенсуса, стратегия управления заключается в синхронизации положения суставов и скорости каждого робота в сети относительно суставов и скоростей соседних роботов.

Сеть роботов, моделируемая неориентированным графом, требует локального обмена информацией только между соседями-манипуляторами. Таким образом, она не предполагает наличие явного лидера в команде. Прежде всего на основе комбинации прямого метода Ляпунова и стратегии кросс-связи, предложенный метод децентрализованного управления расширяется до адаптивного управления синхронизацией, учитывающего неопределенность параметров.

Для решения проблем с задержкой времени в коммуникационных каналах сети предложенный метод управления синхронизацией устойчиво синхронизирует роботов для отслеживания заданной траектории. Для этого метод функционала Красовского был использован для решения проблемы стабильности, зависящей от задержки. Был разработан программный симулятор в реальном времени для визуализации координации манипуляторов-роботов.

Decentralized Ability-Aware Adaptive Control for Multi-Robot Collaborative Manipulation

  • Авторы: Yan Lei, Stouraitis Theodoros, Vijayakumar Sethu
  • Год: 2021

В статье Lei et al., 2021 авторы предлагают использовать подход, названный Decentralized Ability-Aware Adaptive Control ( DA3CDA^3C ), который основан на двух ключевых особенностях. Во-первых, общая задача манипулирования представляется в виде номинального эллипсоида задачи, который оптимизируется онлайн для максимизации способности каждого робота к силовому воздействию путем изменения его конфигурации. Во-вторых, разрабатывается децентрализованный адаптивный контроллер, обладающий устойчивостью по Ляпунову, несмотря на различные ограничения активации роботов и неопределенные физические параметры объекта и окружающей среды. В предлагаемом методе децентрализованная координация и распределение нагрузки между роботами достигаются без потребности в коммуникации. Передается только сообщение о недостатке управления, если какой-либо из роботов достигает своих пределов силы. При этом децентрализованно модифицируется ссылочная траектория объекта, чтобы обеспечить стабильное взаимодействие. Авторы провели численные и физические симуляции для анализа и проверки предложенного метода в различных сценариях совместной манипуляции множеством роботов.

Dynamic collision avoidance for multiple robotic manipulators based on a non-cooperative multi-agent game (planning)

  • Авторы: Gafur Nigora, Kanagalingam Gajanan, Ruskowski Martin
  • Год: 2022
  • Стек: ROS Noetic, Gazebo, DMPC

В работе Gufar et al., 2022 представлен новый подход к планированию траекторий для множества роботов-манипуляторов, работающих в общем рабочем пространстве. Авторы предлагают алгоритм управления движением в реальном времени, основанный на нелинейном распределённом модельном прогностическом управлении (Distributed Model Predictive Control, DMPC), который учитывает статическое и динамическое избегание столкновений. Этот алгоритм формулируется как некооперативная игра, где каждый робот рассматривается как агент, оптимизирующий свое собственное движение и учитывающий предсказанное движение окружающих агентов.

Авторы также предлагают новый подход к формулированию динамических ограничений на столкновения и учитывают возможные тупики, которые могут возникнуть при работе нескольких роботов-манипуляторов. На примере сценария "взять и положить" (pick & place) для четырех совместно работающих роботов, авторы демонстрируют, что их подход работает в реальном времени и легко масштабируется для произвольного числа роботов-манипуляторов в общем пространстве благодаря распределенной природе подхода.

A scheduling method for multi-robot assembly of aircraft structures with soft task precedence constraints

  • Авторы: Tereshchuk Veniamin, Bykov Nikolay, Pedigo Samuel, Devasia Santosh Banerjee Ashis G.
  • Год: 2021

В статье Tereshchuk et al., 2021 рассматривается проблема планирования задач для совместной работы несколькими роботами при сборке крупных узлов самолётов. Авторы подходят к этой проблеме как к задаче распределения задач между роботами с учетом ограничений по приоритетности, где ограничения слабо применяются в целях приоритизации задач для избежания ненужных смен инструментов. Основной вклад авторов заключается в разработке двухступенчатого, основанного на данных подхода для автоматического выбора подходящих отношений приоритетности. Экспериментальные результаты показывают, что лучшие эвристики дают более эффективные последовательности по сравнению с базовым планировщиком на основе разделения почти на 17%19%17\%-19\% , в зависимости от профилей отказов роботов. Обученные политики также могут выбирать эвристики, которые работают лучше, чем жадный выбор, без дополнительных вычислительных затрат.

Мобильные роботы, БПЛА, планирование маршрутов

Decentralized Path Planning for Multiple Robots Using a Priority Rule

  • Авторы: Wenying Wu, Bhattacharya Subhrajit, Prorok Amanda
  • Год: 2019

В статье Wu et al., 2019 рассматривается проблема планирования непересекающихся траекторий для мобильных роботов в условиях заполненных пространств. Поскольку централизованные алгоритмы планирования становятся вычислительно неприемлемыми для большого числа роботов, авторы исследуют децентрализованный подход, при котором каждый робот планирует свой путь последовательно в порядке приоритета. Выбор приоритетности роботов является ключевым вопросом.

Существующие эвристики приоритетности не учитывают связь между подвижностью робота и его окружением. В статье предлагается правило приоритетности, которое может быть вычислено каждым роботом независимо и обеспечивает согласованные планы пути без конфликтов. Инновация состоит в формализации перспектив пути робота для достижения его цели от текущего местоположения. В этом контексте авторы рассматривают количество гомологических классов траекторий и используют его в качестве правила приоритетности в децентрализованном алгоритме планирования пути, когда роботы вступают в переговоры для разрешения конфликтов планов пути. Это правило приоритетности гарантирует частичное упорядочение набора роботов.

Авторы представили результаты симуляций, в которых данный метод сравнивается с пятью другими методами, и показали, что он достигает наивысшей успешности (с точки зрения полноты) и обеспечивает наилучший баланс между временем выполнения и временем потока.

Distributed Model Predictive Control for Platooning of Heterogeneous Vehicles with Multiple Constraints and Communication Delays

  • Авторы: Maode Yan, Wenrui Ma, Lei Zuo, Panpan Yang
  • Год: 2020

В статье Yan et al., 2020 рассматриваются проблемы управления группой разнородных транспортных средств с учетом множественных ограничений и задержек в коммуникации. Предлагается распределенная схема модельного предиктивного управления (DMPC), которая позволяет эффективно управлять разнородными транспортными средствами и привести их к желаемому плацдарму. В рамках данной схемы DMPC используются множественные ограничения, включая ограничения управления, состояния и рывка, для описания прикладных характеристик транспортных средств. Задержки в коммуникации рассматриваются как временные переменные с ограничениями. Статья также содержит строгий анализ возможности и стабильности предложенной системы управления автомобильным плацдармом. Кроме того, предоставлены численное моделирование и эксперименты с мобильными роботами TurtleBot3 для подтверждения эффективности предложенных подходов.

Learning Interaction-Aware Trajectory Predictions for Decentralized Multi-Robot Motion Planning in Dynamic Environments (planning)

  • Авторы: Zhu Hai, Claramunt Francisco Martinez, Brito Bruno, Alonso-Mora Javier
  • Год: 2021

Статья Zhu et al., 2021 представляет основанный на данных подход к оптимизации траектории для децентрализованного планирования движения нескольких роботов в динамической среде. При навигации в общем пространстве каждому роботу требуются точные прогнозы движения соседних роботов для предиктивного избегания столкновений. Эти прогнозы движения могут быть получены роботами путем обмена информацией о своих будущих запланированных траекториях друг с другом через коммуникацию. Однако такая коммуникация может быть недоступна или ненадежна на практике.

В этой статье авторы представляют новую модель прогнозирования траектории, основанную на рекуррентных нейронных сетях (RNN), которая может обучаться движениям из продемонстрированных траекторий, сгенерированных с помощью централизованного последовательного планировщика. Обученная модель может эффективно работать в режиме онлайн для каждого робота и предоставлять прогнозы траектории, учитывающие взаимодействие своих соседей на основе наблюдений за их предыдущими состояниями.

Затем авторы включают модель прогнозирования траектории в децентрализованную схему модельного предиктивного управления (MPC) для избегания столкновений множества роботов. Результаты моделирования показывают, что данный децентрализованный подход может достичь сопоставимого уровня производительности с централизованным планировщиком, оставаясь при этом свободным от коммуникации и масштабируемым для большого числа роботов. Подход также проверяется на команде квадрокоптеров в реальных экспериментах.

Мобильные манипуляторы

Multi-robot grasp planning for sequential assembly operations

  • Авторы: Dogar Mehmet, Spielberg Andrew, Baker Stuart, Rus Daniela
  • Год: 2019
  • Прикладная сфера: сборка мебели

В статье Dogar et al., 2017 рассматривается проблема поиска конфигураций роботов для захвата деталей сборки в ходе последовательных операций взаимодействия. Авторы формулируют поиск таких конфигураций как задачу удовлетворения ограничений (Constraint satisfaction problem, CSP). Ограничения столкновений в ходе выполнения задач и ограничения передачи между ними определяют наборы допустимых конфигураций роботов.

Авторы показывают, что решение связанного графа ограничений с помощью готовых алгоритмов CSP может быстро стать невыполнимым даже для нескольких последовательных операций сборки. В ответ на это предлагается алгоритм, который, предполагая возможность выполнения повторных захватов (regrasp), разделяет задачу на независимые подзадачи, которые могут быть решены экспоненциально быстрее. Этот алгоритм также использует техники локального поиска для улучшения этого решения, постепенно удаляя из плана число повторных захватов. Алгоритм позволяет пользователю остановить планировщик в любое время и использовать наилучший план на текущий момент. В статье представлены эксперименты с моделированием для сравнения производительности предложенного алгоритма с наивным алгоритмом, который напрямую решает связанный граф ограничений. Авторы также подтверждают эксперимент на реальном оборудовании.

Long-Horizon Multi-Robot Rearrangement Planning for Construction Assembly

  • Авторы: Hartmann Valentin Noah, Orthey Andreas, Driess Danny, Oguz Ozgur S., Toussaint Marc
  • Год: 2023
  • Прикладная сфера: строительство

Статья Hartmann et al., 2023 представляет систему планирования для больших, гетерогенных команд роботов, расширяя предыдущие исследования в области планирования роботизированной сборки. Это позволяет учитывать процесс сборки на этапе проектирования и эффективно использовать различные способности роботов. В работе представлен подход, который позволяет распараллелить сложные задачи планирования движения и задач (task & motion planning) путем итеративного решения меньших подзадач. Этот подход сочетает методы оптимизации для решения ограничений манипуляции с двунаправленным планировщиком пути в пространстве-времени на основе выборки, что позволяет планировать кооперативную манипуляцию нескольких роботов с неизвестными временами прибытия. Это позволяет выполнить подзадачи и задачи с различными временными масштабами и эффективно их синхронизировать. Подход был продемонстрирован на нескольких примерах, чтобы показать устойчивость на длительные горизонты планирования и масштабируемость на множество объектов и агентов. В статье также показано выполнение вычисленных планов на двух роботизированных руках, подтверждая их осуществимость в реальном мире.

Коллаборативные системы, взаимодействие с человеком

Multi-robot multi-operator collaborative assembly systems: a performance evaluation model

  • Авторы: Boschetti Giovanni, Bottin Matteo, Faccio, Maurizio and Minto, Riccardo
  • Год: 2021

Статья Boschetti et al., 2021 рассматривает тему коллаборативных систем сборки (CAS). На основе разработки прототипа многороботной многооператорной коллаборативной рабочей ячейки была разработана среда моделирования для оценки времени выполнения и степени сотрудничества в многороботных многооператорных CAS. Из среды моделирования была концептуализирована математическая модель. Представленная модель позволяет с определенной степенью точности оценивать производительность системы.

Результаты показали как различные характеристики процесса, такие как количество и тип ресурсов, расположение ресурсов, метод распределения задач и количество устройств подачи, влияют на степень взаимодействия между ресурсами. Наконец, авторы предлагают компактную аналитическую формулировку, основанную на экспоненциальной функции, и определяют методы и факторы влияния для определения ее параметров.

Reward shaping in multiagent reinforcement learning for self-organizing systems in assembly tasks

  • Авторы: Huang Bingling, Jin Yan
  • Год: 2022

Статья Huang et al., 2022 предлагает применение стратегий формирования наград в многоагентном обучении с подкреплением (MARL) в контексте задач сборки, решаемых самоорганизующимися системами. Самоорганизующиеся системы характеризуются гибкостью и устойчивостью к изменениям, которые могут произойти в задачах со временем.

Были предложены различные методы, включая использование тактических и социальных полей, для моделирования сложности окружающей среды, что позволяет упростить дизайн агентов.

многоагентное обучение с подкреплением (MARL) используется для обучения команд агентов, делая их более способными и интеллектуальными, что в свою очередь позволяет упростить описание задач. Однако, MARL требует тщательного проектирования функций наград, что является сложной задачей.

В этой работе авторы исследуют влияние формирования наград в контексте "L"-образной задачи сборки, которая требует избегания столкновений. После представления универсальной формы функции формирования награды, авторы эмпирически исследуют различные типы полей формирования награды с использованием команд агентов разного размера.

Результаты экспериментов показывают, что формирование наград может быть весьма эффективным. В особенности, подходящие формы полей и корректные градиенты полей формирования награды играют ключевую роль в успешном обучении команды агентов. Кроме того, авторы обнаружили, что влияние функций формирования наград значительно зависит от размера команды агентов.

Планирование multiagent-задач в производственных системах

Dynamic scheduling of tasks in cloud manufacturing with multi-agent reinforcement learning

  • Авторы: Wang Xiaohan, Zhang Lin, Liu Yongkui, Li Feng, Chen Zhen, Zhao Chun, Bai Tian
  • Год: 2022

В статье Wang et al., 2022 исследовано динамическое планирование задач в облачном производстве с использованием мульти-агентного обучения с подкреплением. Облачное производство (Cloud manufacturing, CMfg) предоставляет собой облачную платформу для предоставления услуг по запросу для выполнения задач потребителей, но назначение задач предприятиям с различными услугами требует многопользовательского планирования. Динамическая облачная среда предъявляет более высокие требования к алгоритмам планирования в отношении реального времени и обобщаемости. Кроме того, сложные производственные задачи с гибкими последовательностями обработки также увеличивают сложность принятия решений.

Существующие подходы либо имеют трудности в удовлетворении требований динамичности и быстрого реагирования, либо сталкиваются с проблемами при эффективном выявлении особенностей задач с гибкими последовательностями обработки. Чтобы преодолеть эти ограничения, авторы разрабатывают новый алгоритм планирования для решения проблемы динамического планирования в среде облачного производства с групповым сервисом. Их предложение формулируется и обучается с помощью многопользовательского обучения с подкреплением.

Сеть графовой свертки кодирует графо-подобные особенности задач, а рекуррентная нейронная сеть записывает траектории обработки каждой задачи. Авторы независимо проектируют пространство действий и функцию вознаграждения и обучают алгоритм с помощью смешанной сети в архитектуре централизованного обучения и децентрализованного исполнения. Многоагентное обучение с подкреплением (multiagent reinforcement learning, MARL) и сети графовой свертки редко используются для проблем планирования облачного производства. Контрастные эксперименты на примере кейса показывают, что предложение авторов превосходит другие шесть алгоритмов планирования на основе многопользовательского обучения с подкреплением с точки зрения производительности планирования и обобщаемости.

Multi-agent collaborative conceptual design method for robotic manufacturing systems in small and mid-sized enterprises

  • Авторы: Zheng Chen, Du Yuyang, Sun Tengfei, Eynard Benoît, Zhang Yicha, Li Jing, Zhang Xinwei
  • Год: 2023

В статье Zheng et al., 2023 рассматривается проблема разработки подходящих роботизированных систем производства для малых и средних предприятий (MSP), учитывая их финансовые нагрузки и текущие проблемы с поставками компонентов от поставщиков. С целью решения этих проблем, авторы предлагают метод совместного концептуального проектирования на основе многоагентной системы, включающей дизайнеров и поставщиков, чтобы помочь MSP в внедрении роботизированных систем производства.

Авторы предлагают общую модель данных, которая позволяет обмениваться знаниями между различными агентами в процессе совместного концептуального проектирования. Затем, на основе предложенной модели данных, разрабатывается процесс совместного концептуального проектирования на основе агента, который позволяет различным агентам общаться, взаимодействовать и вести переговоры друг с другом в соответствии с их опытом и знаниями. В-третьих, для поддержки процесса принятия решений многоагентной системы реализован интегративный алгоритм на основе 2-дополнительных нечетких мер, интеграла Шоке и стохастического многокритериального анализа приемлемости для надежного выбора альтернатив архитектуры.

В качестве примера авторы применяют реальный проект индустриального дизайна роботизированной системы производства, требуемой их промышленным партнером, чтобы продемонстрировать эффективность предложенного метода.

Distributed multi-agent scheduling and control system for robotic flexible assembly cells

  • Авторы: Maoudj Abderraouf, Bouzouia Brahim Hentout Abdelfetah, Kouider Ahmed, Toumi, Redouane
  • Год: 2019

В статье Maoudj et al., 2019 рассматривается разработка распределенной многоагентной системы (DMAS) для планирования и контроля роботизированных гибких сборочных ячеек (RFAC). Авторы предлагают подход к решению одной из наиболее сложных проблем принятия решений в RFAC, связанных с планированием операций изделий, которые требуют их распределения и последовательности на роботах, с учетом ограничений изделий и роботов при минимизации производственного цикла.

Предложенная DMAS решает эту проблему, используя кооперативный подход, поддерживаемый тремя видами автономных агентов контроля: надзорными агентами, локальными агентами и удаленными агентами. Эти агенты взаимодействуют посредством протокола переговоров на основе общих правил распределения для координации своих индивидуальных решений, удовлетворения своей локальной цели и предоставления оптимизированного глобального решения.

Кроме того, из-за динамической природы сборочных систем необходимо учитывать внешние помехи при планировании производства и решать с ними связанные проблемы. В результате, DMAS способна реагировать и управлять некоторыми динамическими событиями, которые могут произойти в ячейках, такими как неожиданный сбой робота или динамическое появление продуктов. Вычислительные результаты на эталонах показывают эффективность и надежность предложенной системы.

Multi-Agent Reinforcement Learning for Real-Time Dynamic Production Scheduling in a Robot Assembly Cell

  • Авторы: Johnson Dazzle, Chen Gang, Lu Yuqian
  • Год: 2022

Статья Johnson et al., 2022 рассматривает применение многоагентного обучения с подкреплением (MARL) для планирования в реальном времени динамически прибывающих сборочных заданий в роботизированной сборочной ячейке. В контексте быстрого перехода промышленности к массовой персонализации, авторы подчеркивают необходимость децентрализованной многоагентной системы, способной к динамическому гибкому планированию рабочих мест (FJSP).

Традиционные эвристические и метаэвристические методы планирования не могут достичь удовлетворительных результатов и имеют ограниченное применение к статическим средам. Недавние подходы к обучению с подкреплением (RL), которые учитывают динамическое FJSP, не обладают гибкостью и автономией, поскольку они используют централизованную модель с одним агентом, предполагая глобальную наблюдаемость.

В ответ на эти проблемы авторы предлагают систему MARL для планирования динамически прибывающих сборочных заданий в роботизированной сборочной ячейке. Они применяют алгоритм на основе Double DQN и предлагают обобщенное наблюдение, действие и награду для настройки динамического FJSP. Используя централизованную фазу обучения, каждый агент (то есть робот) в сборочной ячейке выполняет децентрализованные решения по планированию на основе локальных наблюдений.

Их решение показало улучшенную производительность по сравнению с эвристическими методами, основанными на правилах, для оптимизации производственного цикла. Они также отмечают влияние различных размеров наблюдений каждого агента на производительность оптимизации.

Выводы

Значимую область в исследованиях занимает Распределённое Управление с Прогнозирующими Моделями (Distributed Model Predictive Control, DMPC), в значительной степени обусловленное проблемой синхронизации. Поддержка DMPC позволит осуществлять совместные/кооперативные операции, распределять нагрузку между роботами для увеличения общей грузоподъемности, обеспечить масштабируемость (сложность алгоритмов не зависит от количества агентов) и возможность применять как подходы с обучением, так и с использованием теории управления с учётом различных критериев оптимизации. Для проверки алгоритмов DMPC можно использовать активно разрабатывающийся в настоящее время (конец 2023 года) набор библиотек и утилит ChoiRbot (A ROS 2 Toolbox for Cooperative Robotics), использующий аналогичный Robossembler Framework стек технологий: ROS 2, RViz, Gazebo.

Также в исследованиях затрагивается планирование движений, чтобы роботы-манипуляторы не повреждали друг друга, разделяя одно рабочее пространство. Развитие в этом направлении позволит разрабатывать более надежные производственные ячейки. Планирование производства позволит комбинировать навыки роботов (предобученные операции методами RL) для конфигурации более эффективных производств.

Приведённые в обзоре статьи позволяют получить общее предоставление о текущем состоянии исследований в этой отрасли и выявить наиболе значимые проблемы. Проблемы можно классифицировать на следующие категории: проблема безопасности, когда роботы делят единое рабочее пространство, а также проблема синхронизации, включая управление, так как без синхронизации невозможно ни то, ни другое.