Application of the computer vision system reconstructing the three-dimensional form of space technology objects

Pavel E. Koshelev; Кошеле Павел Евгеньевич; Aleksey A. Yuev; Юев Алексей Андреевич; Yuriy V. Konoplev; Коноплев Юрий Вячеславович; Aleksandr S. Tolmachev; Толмачев Александр Сергеевич; Aleksandr I. Tishkov; Тишков Александр Игоревич

doi:10.31772/2712-8970-2022-23-1-8-20

Application of the computer vision system reconstructing the three-dimensional form of space technology objects

Авторлар: Koshelev P.E.¹, Yuev A.A.¹, Konoplev Y.V.¹, Tolmachev A.S.¹, Tishkov A.I.¹
Мекемелер:
1. Baltic State Technical University “Voenmeh” named after D. F. Ustinova
Шығарылым: Том 23, № 1 (2022)
Беттер: 8-20
Бөлім: Section 1. Computer Science, Computer Engineering and Management
##submission.datePublished##: 25.03.2022
URL: https://journals.eco-vector.com/2712-8970/article/view/532721
DOI: https://doi.org/10.31772/2712-8970-2022-23-1-8-20
ID: 532721

Дәйексөз келтіру

Толық мәтін

Аннотация
Толық мәтін
Авторлар туралы
Әдебиет тізімі
Қосымша файлдар
Статистика

Аннотация

Trends in the development of the spacecraft (SC) industry present increasingly complex tasks for mechatronic systems. Due to the complexity of the assembly processes of large-sized transformable structures and solar panels, the current methods of opening structures are becoming less reliable and relevant. The development of orbital stations in addition leads to a whole range of new tasks. Using mechatronic manipulators is one of the promising approaches. However, the functionality of their application is severely limited by the algorithms for moving the executive body and manipulating objects, predetermined during development. In this regard, there is a need to develop new approaches to finding and determining the shape of the target object, for further calculation of the algorithm for its interaction with the mechatronic manipulator gripper.

The article presents a method for reconstructing the three-dimensional shape of objects, based on using a machine vision system. A stereo camera is used to obtain the scene's spatial characteristics. Based on the data obtained, the scene is divided into several independent geometric surfaces, followed by staged processing by neural network algorithms. The required parameters of the target objects are extracted at each stage of the algorithm. YolactEdge is used as a neural network architecture, which performs semantic segmentation and classification of objects. A separate task can be the correlation of the spatial characteristics of the target objects and the replacement three-dimensional model. To ensure this correlation, the neural network architecture was supplemented with a keypoint detection branch which provides a prediction of the positions of the reference points of objects that uniquely determine the spatial characteristics of the target object.

As a result, the system obtained is able to provide the construction of a three-dimensional map of the turning radius area in real time. In addition, based on the received telemetric information, it is possible to calculate the trajectory of the manipulator's executive body and its interaction with objects.

Негізгі сөздер

computer vision system, machine learning, stereo vision, objects detection

Толық мәтін

Введение

В настоящее время в космической области все большее применение находят робототехнические манипуляторы, выполняющие вспомогательную работу по ремонту, транспортировке и обслуживанию модулей космических станций. Ярким примером является используемая на МКС мобильная система обслуживания, состоящая из управляемых вручную манипуляторов Canadarm-2 и Dextre, выполняющая вышеперечисленные функции [1].

С другой стороны, в области перспективных проектов акцент все больше смещается на автономное робототехническое сервисное обслуживание, трактуемое в широком смысле и подразумевающее также роботизированные монтажные операции применительно к весьма широкому классу объектов, в том числе не приспособленных изначально к такому обслуживанию. При этом предполагаемые автономные робототехнические средства, являясь существенно более сложными по сравнению с использующимися на текущий момент на орбите устройствами, не только не имеют эксплуатируемых аналогов, но нацелены при этом на надежное решение весьма сложных комплексных задач [2].

Существенным ограничением в работе текущих автономных мехатронных устройств является то, что их функционирование строго ограничено заранее определяемыми при разработке алгоритмами перемещения и манипуляций над объектами [3]. Подобные ограничения не позволяют добиться автономности и гибкости функционального применения, а также оставляют необходимость в перестройке существующих алгоритмов управления при изменении условий эксплуатации и поставленных задач.

В связи с этим возникает необходимость в разработке новых подходов к нахождению и определению формы целевого объекта, для дальнейшего просчета алгоритма оптимального взаимодействия со схватом мехатронного манипулятора. Одним из перспективных подходов является применение системы технического зрения, основанной на искусственных нейронных сетях, с применением стереокамеры [4].

Предлагаемый подход предполагает обработку входящего видеопотока с последующим обнаружением и реконструкцией трехмерной формы искомых объектов, получением информации о положении их в пространстве относительно манипулятора, а также определение опорных точек на моделях объектов для дальнейшей генерации алгоритма перемещения исполнительного органа и захвата манипулятором объектов [5].

1. Применяемые подходы и методы

На текущей момент в области решения задачи реконструкции трёхмерной карты окружающего пространства предложено несколько перспективных решений. Однако каждое из них основывается на устоявшихся подходах, лишь прорабатывая и совершенствуя их использованием новых технологий. Подобный подход позволяет добиться улучшения показателей качества и скорости реконструкции, но при этом не решает задачу глобально.

Предложенный метод в статье [6] решает сразу несколько задач – это сегментация и классификация объектов, а также реконструкция трехмерной сцены при наличии на ней не статичных объектов (изменяющих свое положение). Посредством работы стереокамеры считываются пространственные характеристики, на основе которых система разделяет сцену с помощью сверточных нейронных сетей на несколько поверхностей. Полученные поверхности обрабатываются с помощью статичных или не статичных методов ICP и реконструируются с помощью инкрементного слияния карт глубины. Предложенная система показывает хорошие результаты в условиях реконструкции нестатичных сцен. Однако полученная трехмерная карта имеет зашумления, а также пустые зоны, так как с помощью заполнения вокселями реконструируется только видимая стереокамерой поверхность объектов.

Вторым примечательным проектом является [7]. Авторами был разработан мобильный робот-манипулятор, оснащенный 2D-камерой и стереокамерой. Полученная система предназначена для реализации автономного процесса производства небольших изделий на нескольких удаленных друг от друга станках. Ключевой особенностью является применение нейронной сети PointVoxel-RCNN [8], основывающейся на обнаружении объектов на карте глубины со стереокамеры. Помимо обнаружения и классификации, нейросеть также способна восстановить трехмерную форму объектов методом подбора наиболее подходящего по габаритам параллелепипеда. Недостатками предложенного подхода является достаточно высокая сложность подготовки набора данных и обучения сети (так как осуществляется на основе облака трехмерных точек), а также низкая точность реконструкции трёхмерной формы объектов.

2. Предлагаемый метод реконструкции трехмерной карты

В приведенной статье представляется более совершенный подход, позволяющий реконструировать трёхмерную карту зоны обметания для робототехнической системы. Полученная карта содержит достоверно воссозданные трёхмерные модели целевых объектов с сохранением габаритных показателей, а также объекты-препятствия. Приводимый в статье метод разбивает сцену на несколько независимых геометрических поверхностей с последующей поэтапнойобработкой нейросетевыми алгоритмами для извлечения требуемых параметров целевых объектов. На рис. 1 представлена обобщенная схема алгоритма реконструкции сцены по видеопотоку, которую «семантически» можно разделить на 5 этапов обработки.

Рис. 1. Схема предлагаемого метода реконструкции трёхмерной карты

Fig. 1. Scheme of the proposed method of reconstruction of the three-dimensional map

Получение пространственных и «цветовых» данных сцены в виде двух независимых слоев: RGB-видеопотока и карты глубины.
Декомпозиция сцены на целевые объекты и фоновую поверхность.
Определение замещающей трехмерной модели и пространственных характеристик целевых объектов.
Расчет характеристик замещающей модели.
Комплексирование полученных данных в единую трехмерную сцену.

2.1. Получение характеристик сцены

Задача определения пространственных характеристик зоны обметания манипулятора решается посредством применения стереокамеры [9]. Подобные устройства состоят из пары камер, равноудаленных от центральной оптической оси, что позволяет на основе аппарата триангуляции получить облако трехмерных точек. Полученное облако представляет собой массив значений и содержит расстояние для каждого пикселя от камеры до видимых объектов. Однако рассматриваемый метод содержит и проблемы, связанные с неравномерным распределением и структурной неоднозначностью между целевыми объектами и фоном. Для их решения предлагается использовать дополнительный метод определения целевых объектов по RGB-видеопотоку с модуля стереокамеры.

2.2. Декомпозиция сцены

Одним из эффективных методов решения является применение сверточных нейронных сетей, позволяющих классифицировать и сегментировать контуры объектов на RGB-видеопотоке. Нейронная сеть обучается до необходимого уровня минимизации функции ошибки на подготовленном вручную наборе изображений с уже классифицированными и сегментированными объектами [10]. Представленный метод был выбран исходя из того, что, по сравнению с другими алгоритмами обнаружения объектов, обладает несколькими важными преимуществами [11]. Первое – достаточно высокая робастность к изменениям условий функционирования, таким как масштабирование, сдвиг, деформация и частичное перекрытие объектов, а также изменение уровня освещенности. Вторым достоинством является высокая точность классификации и сегментации объектов при правильном обучении нейросети.

На данный момент разработано множество различных архитектур нейронных сетей, каждая из которых имеет свои достоинства и недостатки. Однако спектр выбора сильно ограничен, так как следует учитывать специфику условий функционирования. Выполнение задачи управления манипулятором требует от системы достаточно высокой скорости обработки информации, а применение в космической области накладывает существенные ограничения на массогабаритные показатели аппаратной части.

Наибольшего прогресса в области скорости обработки добились в архитектуре YOLACT [12]. В ней разделяют сегментацию экземпляра на две параллельные задачи. В первой задаче используются сверточные сети для генерации набора масок-прототипов одинакового размера для каждого изображения, а в выходных данных используется функция ReLU для нелинеаризации. Вторая задача – обнаружение объектов на основе якоря. Он содержит три ветви: первая ветвь используется для прогнозирования коэффициентов маски для каждого прототипа, вторая – для прогнозирования достоверности категорий экземпляров, а третья – для прогнозирования координат ограничивающей рамки.

Однако сеть YOLACT требует достаточно высокой вычислительной мощности, что сказывается на необходимости использования затратной аппаратной части. Поэтому предлагается использовать модифицированную архитектуру YOLACT EDGE, способную на небольших периферийных устройствах (например, Jetson AGX Xavier) в режиме реального времени обрабатывать (классифицировать и сегментировать) до 80 типов объектов на 2D-изображениях [13]. В архитектуру YOLACT внесено несколько ключевых изменений. Первое – на уровне алгоритмов используются возможности механизма оптимизации Nvidia TensorRT для квантования параметров сети до меньшего количества битов. Второе – изменение затрагивает системный уровень, используя кадровую избыточность видеопотока для переработки и распространения признаков на следующие кадры видеопотока, чтобы дорогостоящие вычисления опорных признаков нейронной сети не вычислялись полностью для каждого кадра.

2.3. Определение замещающей модели

Как отмечалось ранее, задачей алгоритма является повышение гибкости функционирования системы управления манипулятором. Однако для достижения этой цели недостаточно обнаружить объект, необходимо также определить оптимальный алгоритм манипуляций над ним, что требует учета его геометрической формы и центра масс. Для решения такой задачи комплекса данных с нейронной сети и стереокамеры может быть недостаточно, так как при попытке прямой реконструкции сцены могут возникнуть пустые области у реконструированного объекта. На рис. 2, а, б приведен пример образования пустых областей, выделенных красным цветом.

Рис. 2. Пример образования пустых областей

Fig. 2. An example of the formation of empty areas

Подобная особенность вызвана тем, что система имеет представление только о видимой части сцены, что приводит к большим неточностям в построении трёхмерной формы объекта (облако трёхмерных точек также является зашумленным) либо к необходимости кругового рассмотрения объекта стереокамерой.

Как видно на рис. 3, а, в, метод прямой реконструкции не всегда обеспечивает достаточную плотность покрытия поверхности объекта трехмерными точками, что особенно заметно при видимости только одной стороны объекта. Также видно, что при изменении пространственного положения объекта или стереокамеры, итоговая плотность находится в большой зависимости от уровня перпендикулярности плоскости объекта относительно стереокамеры. Так, на рис. 3, а информация о верхней поверхности объекта сильно зашумлена, однако, при изменении положения камеры, реконструкция становится все более плотной (рис. 3, б, в).

Рис. 3. Пример прямой реконструкции объекта

Fig. 3. Example of direct reconstruction of an object

Для решения приведенной проблемы предлагается, вместо попытки прямой реконструкции формы объекта, использовать замещающую трёхмерную модель, подобранную в соответствии с классифицированным объектом. Подобный подход позволит не только упростить реконструкцию сцены и объектов на ней (так как система будет способна реконструировать видимые объекты при единичном осмотре), но и повысить гибкость алгоритма захвата объекта, что обеспечивается наличием полной трёхмерной модели, на основе которой лучше просчитывается траектория, по сравнению с зашумленной приблизительной воксельной моделью. Рассматриваемый подход предполагает решение трех задач: определение метода реконструкции объекта, соотнесение положения и габаритов замещающей модели и целевого объекта.

2.4. Реконструкция трехмерной формы

Обнаруженные целевые объекты реконструируются на трёхмерной карте робототехнического манипулятора с помощью замены на аналогичную трехмерную модель. Рассматриваемый метод предполагает подготовку необходимого набора данных, позволяющих сформировать трехмерную модель.

Одним из методов формирования является использование полностью идентичной трехмерной модели, позволяющей добиться высокой точности воспроизведения целевого объекта. Однако такой подход имеет существенный недостаток, так как модель формируется заранее и является цельной. Поэтому, в случае воспроизведения объекта сложной формы, трехмерная модель будет иметь множество деталей, необходимых только для просчета непосредственного взаимодействия манипулятора с самим объектом, а в случае присутствия большого количества сложных объектов на сцене существенно увеличатся ресурсные затраты.

В связи с этим предлагается осуществлять реконструкцию целевого объекта с помощью геометрических примитивов на основе подготовленного шаблона воспроизведения. Предлагаемое решение имеет следующие достоинства: сокращение количества требуемой памяти для хранения моделей (так как хранится лишь описание их структуры); возможность в режиме реального времени варьировать степень детализации реконструкции объекта в зависимости от требований к системе. Например, при просчете общих траекторий движения манипулятора не требуется точное (детализированное) представление об окружающих объектах. Однако на этапе взаимодействия с целевым объектом более точные детали могут существенно повлиять на построение алгоритма взаимодействия с объектом. Еще одним преимуществом является возможность соотнесения точечных деталей трехмерной модели объекта (кнопка, переключатель, разъем) с их функциональным назначением, что позволяет реализовывать боле прогрессивные алгоритмы взаимодействия с объектами.

2.5. Объект-препятствие

Также следует учитывать вероятность возникновения объектов на сцене, отсутствующих в обучающей выборке, вследствие чего не распознанных нейронной сетью. При штатной работе подобные объекты не представляют интерес и не учитываются системой. Однако в случае, когда подобный объект пересекается с траекторией движения манипулятора или визуально перекрывает целевые объекты, он классифицируется как объект-препятствие и требует учета при построении трёхмерной карты и просчете траектории движения манипулятора. В связи с этим возникает дополнительная задача обнаружения и определения формы подобных объектов.

Так как распознавание объектов-препятствий изначально не предусмотрено системой, обнаружение возможно только по косвенным признакам. Таковые признаки могут быть обнаружены в двух случаях: 1) когда объект-препятствие частично перекрывает целевой объект (вследствие чего объект будет распознан, но с меньшим процентом идентификации нейронной сети); 2) когда объект-препятствие полностью перекрывает целевой объект, где он реконструирован на трехмерной карте.

В независимости от косвенного признака, реконструкция объекта-препятствия происходит на основе остаточного слоя (слой без целевых объектов). Представленный слой получается после применения операции симметрической разности между слоями карта глубины и сегментированные объекты. Область возникновения косвенного признака сопоставляется с остаточным слоем, в результате чего рассчитывается приблизительный контур объекта-препятствия, который дополнительно обрабатывается алгоритмом Min-Cut. Описанный принцип кратко продемонстрирован на рис. 4, где синим контуром выделена область возникновения косвенного признака, позволяющая распространить маску сегментации на объект-препятствия.

Рис. 4. Определение формы объекта-препятствия

Fig. 4. Determining the shape of the obstacle object

2.6. Опорные точки

Для дальнейшей реконструкции трехмерной карты необходимо определить пространственные характеристики (ориентация и габариты) целевых объектов. Важно учесть, что нейронные сети классифицируют и сегментируют объект как единое целое, «семантически» не различая его поверхности, в связи с чем необходимо разработать дополнительный метод обнаружения отличительных признаков объекта, однозначно определяющих пространственные характеристики целевого объекта.

Представленную задачу предлагается решить методом определения опорных точек. В качестве точек могут выступать различные области геометрического изменения поверхности объекта (грани, углы и прочие визуально выраженные места) (рис. 5).

Рис. 5. Опорные точки объекта

Fig. 5. Keypoint object

Модели глубокого обучения могут быть способными прогнозировать местоположение опорных точек. В такой постановке речь идет о решении задачи регрессионного анализа. В этом случае в качестве независимых входных параметров выступают пиксели изображения целевого объекта, а зависимыми входными параметрами являются координаты опорных точек объекта, для чего архитектуру нейронной сети необходимо модифицировать дополнительным выходным слоем «Маска опорных точек». Полученная архитектура представлена на рис. 6.

Рис. 6. Модифицированная архитектура сверточной нейронной сети

Fig. 6. Modified convolutional neural network architecture

Таким образом, метод расчета характеристик замещающей модели принимает на вход три слоя: карту сегментации объектов, карту признаков опорных точек и карту глубины. Для получения карты признаков опорных точек на вход нейронной сети подается слой RGB-изображения, выходными данными является массив значений

${[N \times k]}_{f},$ (1)

где N – количество обнаруженных нейронной сетью целевых объектов; k – список обнаруженных опорных точек каждого из объектов, представляющий собой карту вероятности присутствия на RGB-изображении.

Каждый элемент массива (1) состоит из трех подэлементов: x, y, p. Переменные x, y являются координатами опорной точки на RGB-изображении, элемент p Î (0,1] определяет вероятность существования опорной точки.

Для дальнейшего преобразования в трехмерную поверхность используется карта глубины, на которую проецируются данные из массива (1). В результате получается слой приблизительной оценки объектов, на основе которого уже можно приблизительно оценить пространственные и габаритные характеристики целевых объектов.

Однако следует учитывать, что полученная маска сегментации с помощью YOLACT EDGE может быть зашумлена и неизбежно возникновение несоответствия между RGB-изображением и картой глубины. Поэтому сегментация на полученном слое 2 дополнительно уточняется на основе метода геометрической постобработки карты глубины, для чего применяется кластеризация облака трехмерных точек с помощью алгоритма Min-Cut [14].

Представленный метод предназначен для сегментации объектов в облаке трехмерных точек, каждая отдельная точка рассматривается как вершина. При объединении соседних вершин ребрами образуется поверхность объекта. Учитывая некоторые вершины как приоритеты переднего плана, метод вырезает объект переднего плана из облака трехмерных точек на основе результатов вычислений веса ребер. На вход Min-Cut подаются данные обнаруженных опорных точек массива (1) в качестве приоритета переднего плана, а также слой сегментированных объектов для ограничения области обработки в пределах целевого объекта. Для оценки веса ребер необходимо определить два параметра уравнения: стоимость сглаживания ребер и фоновый штраф P

$C = e^{- {(\frac{l}{σ})}^{2}},$ (2)

где l – длинна ребра (чем удаленнее вершины друг от друга, тем больше вероятность того, что они не будут соединены); σ – параметр, определяемый пользователем.

Фоновый штраф – это вес точек, связанных с точками переднего плана. При этом для совместной точки J(Jx, Jy, Jz) задается входной параметр r – максимальный горизонтальный (плоскость X–Y) радиус объектов переднего плана, тогда для соседней точки J (x, y, z) ее фоновый штраф равен

$P = \frac{\sqrt{{(x - J_{x})}^{2} + {(y - J_{y})}^{2}}}{r} .$ (3)

После применения метода Min-Cut на выходе получается слой итоговой оценки характеристик объектов, на основе которого уже можно проводить точную оценку пространственных и габаритных показателей обнаруженных объектов.

2.7. Метрика для оценки обнаружения опорных точек

Задача обнаружения опорных точек объекта является относительно новым направлением в области нейронных сетей, поэтому необходимо обозначить методики оценки результатов их работы. Для оценки обнаружения опорных точек используется метрика, называемая сходством опорных точек объекта (OKS). Метрика количественно оценивает близость предсказанного положения опорной тоски, относительно истинной (ожидаемой) позиции. Значение OKS приближается к 1 по мере приближения предсказанной опорной точки к истинному положению. Формула для оценки выглядит следующим образом:

$O K S = \exp (- \frac{d_{i}^{2}}{2_{s}^{2} k_{i}^{2}}),$ (4)

где d_i – евклидово расстояние между предсказанным и истинным положением; s – масштаб объекта и k_i – константа для конкретной опорной точки (мера стандартного отклонения конкретной опорной точки от ожидаемого местоположения).

Переменная s относится к масштабу объекта. Чем больше объект, тем менее строго должна оцениваться ошибка определения позиции опорной точки. Подобный метод обеспечивается тем, что, если объект большой, то допустимо предсказать опорную точку немного в стороне от истинной опорной точки. Однако, если объект маленький, небольшое отклонение от истины может привести к тому, что предсказанная опорная точка окажется вне объекта.

Особенность метрики OKS заключается в том, что для всех предсказанных опорных точек, находящихся на определенном радиальном расстоянии от истинного положения, оценка метрики будет равнозначна. На рис. 7 представлен наглядный пример оценки обнаружения опорной точки «кнопка».

Рис. 7. Пример оценки метрикой OKS

Fig. 7. An example of an assessment by the OKS metric

На рис. 7 зеленая точка отражает желаемое положение опорной точки (в качестве примера была выбрана кнопка), а каждая из трех синих точек – возможные примеры положения предсказанной опорной точки. Таким образом, на приведенном примере предсказанным опорным точкам соответствуют три концентрических круга.

2.8. Определение пространственных характеристик

Как отмечалось в главе 2.3, после проведения реконструкции трёхмерной формы объекта, необходимо также соотнести пространственное положение и габариты замещающей модели и целевого объекта.

Решение первой задачи основывается на обработке полученного с выхода нейронной сети слоя опорных точек, а также карты глубины. Пространственное положение обнаруженных опорных точек целевого объекта сопоставляется с аналогичными точками на полученной трехмерной модели, что позволяет определить ее ориентацию. В свою очередь, позиция вычисляется исходя из преобразования локальных координат карты глубины (так как положение считается относительно стереокамеры) в глобальные с помощью классического подхода на основе матриц перехода [15; 16].

Схема алгоритма решения второй задачи представлена на рис. 8. Алгоритм определения габаритов объекта заключается в следующем: на основе сегментированного контура целевого объекта определяется искомая область проведения расчетов на карте глубины, после чего рассматриваемая область сопоставляется с расположением опорных точек, что позволяет определить длину граней объекта, на основе которых вычисляется коэффициент масштабирования замещающей трехмерной модели.

Рис. 8. Схема алгоритма определения габаритов замещающей модели

Fig. 8. Schematic of the algorithm for determining the dimensions of the replacement model

Заключение

В представленной работе предложен подход к реконструкции трехмерной формы объектов, на основе системы технического зрения. Благодаря применению современных методов на основе свёрточных нейронных сетей и камеры стереозрения, система способна в режиме реального времени отслеживать пространственное положение целевых объектов зоны обметания манипулятора, вместе с тем реконструируя трёхмерную карту. Кроме того, на основе полученной телеметрической информации возможен просчет алгоритмов управления и взаимодействия исполнительного органа с объектами.

Полученная система позволяет расширить спектр возможного применения в космической области робототехнических систем, за счет высокого уровня функциональной адаптивности и робастности к изменениям условий эксплуатирования, благодаря чему может использоваться в составе мехатронного манипулятора при раскрытии солнечных панелей или КТК в качестве вспомогательной и/или экстренной системы. Наличие системы распознавания обеспечивает анализ окружающего пространства, тем самым предоставляя обратную связь процесса раскрытия элементов конструкции, обеспечивая возможность устранения неполадок в случае возникновения внештатных ситуаций. Например, в случае некорректного раскрытия какой-либо части конструкции, система способна подстроить алгоритм управления манипулятором, что позволит исправить возникшие неполадки и нивелировать возможные последствия.