Non-contact gesture control systems as a basis for building of H2C-interfaces in automatic control systems



Cite item

Full Text

Abstract

The authors consider the problems of creation and operation of human oriented control systems that use contactless gestural interfaces. There is an analysis of existing approaches done and assumptions about the most effective approaches to the construction of such systems.

Full Text

Создание человеко-машинных интерфейсов продолжает оставаться актуальным с момента появления первых паровых и электрических машин и до наших дней. Обеспечение возможности выдать оператору какую-либо информацию о состоянии машины и предоставить ему возможность выполнить управляющие действия – это залог разработки эффективных систем управления. Конечно, первые интерфейсы были весьма примитивными и требовали специальной и весьма длительной подготовки. Оператор должен был понимать суть происходящих в системе машине процессов, чтобы в зависимости от показаний достаточно примитивных индикаторов, таких как стрелочные манометры, управлять ей, переводя бесчисленные рычаги и вентили в нужные позиции. И при этом достаточно часто цена ошибки была весьма велика – ни о каком автоматизированном интеллектуальном контроле, естественно, не могло быть и речи. В этом контексте, конечно, крайне завораживающе выглядят фантастические стимпанковские механизмы, которые с помощью рычагов, часовых механизмов, паровых, пневматических и гидравлических приводов могут выполнять весьма сложные и разнообразные движения. Вершиной инженерной мысли "доэлектронной" эры стали автоматоны и, как ни странно, автомобильные коробки передач. И если автоматоны по своей сути - это очень сложные часовые механизмы, то гидромеханические автоматические коробки переключения передач способны реагировать на значительное число внешних факторов и могут включать даже системы кратковременной памяти в виде гидроаккумуляторов. С приходом электрических, а впоследствии и электронных систем появились возможности по снижению трудоёмкости управления механизмами и машинами, стали внедряться автоматизированные и даже автоматические системы управления. Но по-прежнему консоль управления, основной элемент интерфейса между человеком и машиной, оставалась перегруженной. Оператор должен был понимать принципы функционирования устройства, которым должен был управлять. Именно поэтому возникло большое число специальностей «оператор чего-нибудь» – без дополнительной подготовки многие, даже схожие по назначению механизмы, работали и управлялись по-разному. Хорошей иллюстрацией данной проблемы может служить кабина управления учебным самолётом последней четверти прошлого века, приведенной на рисунке 1. Хотя прогресс в области интерфейсов всё же был. Электрические лампочки позволили подсвечивать символические изображения действий на пультах управления, сложные переключатели позволяли менять поведение системы в разных режимах. А развитие датчиковой аппаратуры позволило создавать системы, реагирующие на действия пользователя, в том числе бесконтактным способом. Хорошим примером может являться механизм открытия дверей, снабженный инфракрасным датчиком движения - приближение человека приводит к срабатыванию электропривода раскрытия дверей. Однако настоящий прорыв наступил с появлением цифровой микропроцессорной техники. Способность синтезировать изображение произвольных объектов на графических мониторах дает возможность формировать интерфейсы практически для любых ситуаций. Появилась даже целая отрасль - проектирование пользовательских интерфейсов. Рисунок 1. Схема кабины самолёта Як-52 Высокая вычислительная мощность компьютеров позволяет создавать достаточно отзывчивые интерфейсы, которые хорошо сочетаются с сенсорными устройствами ввода. Кроме того, не представляет сложности добавить акселерометры, гироскопы и прочие устройства ввода информации, не считая различных клавиатур и позиционных указателей. Рассмотрим, как сейчас выглядит типичный процесс управления технической системой, снабжённой компьютеризированным интерфейсом. Первый и самый неочевидный для многих этап – это инициирование самого взаимодействия человека и вычислительной системы. «Неочевидный» потому, что, как правило, компьютеры большую часть своего времени занимаются тем, что ожидают действий пользователя. И это означает, что именно проектировщик пользовательского интерфейса влияет на возможные сценарии поведения оператора на первом этапе. Именно синтетические объекты, из которых состоит пользовательский интерфейс, а также доступные устройства ввода, определяют, какие действия может выполнить пользователь. И грамотно разработанная система представит ему однозначно интерпретируемые элементы управления. Например, нарисованные на экране кнопки или переключатели, скорее всего, служат для запуска каких-либо действий или для переключения состояний. Правильно подобранные ассоциации с реальными объектами позволяют разработчику программного обеспечения обрабатывать только ожидаемые действия пользователя над соответствующими виртуальными образами, а не изобретать способы реагирования на его нешаблонное поведение. И подобная детерминированность общения, конечно, значительно упрощает общую логику взаимодействия оператора и вычислительной системы. Но, что очень важно, работать ожидаемым образом данная система будет только, если взаимодействие инициировано со стороны вычислительной системы – именно она предлагает человеку выбрать действие из предложенных вариантов. Такую модель передачи управления можно обозначить как «компьютер-человек-компьютер» (C-to-H-to-C, C2H2C). Конечно, в очень большом числе случаев информационные системы не предполагают ответных действий пользователя. К примеру, различные мультимедийные панели или светофоры просто генерируют информацию и передают её человеку-потребителю. Это – модель «компьютер-человек» (C-to-H, C2H). Из повсеместного распространения этих моделей существует одно «технологическое» следствие – человек не может отдать «неожиданные» команды, а значит и квалификация пользователя может быть ниже, но так же и разработчик системы будет выбирать наиболее простые «устройства ввода», допускающие как можно меньше свободы оператора. И на настоящий момент графические сенсорные экраны практически вытеснили все остальные универсальные устройства ввода-вывода. Однако остаётся значительное количество ситуаций, когда описанные модели «не работают». Например, когда примитивный интерфейс предполагает переусложнённую схему действий из десятков последовательных элементарных шагов, как адресные книги в мобильных телефонах, которые требуют много «нажатий» для поиска нужного контакта. Или нужная операция оказывается неочевидной, или технической возможности использовать «удобный для разработчика» интерфейс не представляется возможным. Хороший пример – телефонные автоинформаторы: «Нажмите единицу, если Вы хотите дождаться ответа оператора». Такие схемы взаимодействия, в которых инициатором взаимодействия выступает именно человек, поскольку компьютер либо не может синтезировать понятные объекты управления, либо их использование не отвечает задачам пользователя, можно отнести к моделям «человек-компьютер-человек» (H-to-C-to-H, H2C2H) и «человек-компьютер» (H-to-C, H2C). Следует понимать, что внедрение бесконтактных и голосовых интерфейсов всё-таки не переводит информационную систему в разряд поддерживающих модели H2C2H и H2C. Требуется модификация логики взаимодействия системы и потенциального пользователя. Вычислительная система должна научиться определять желание человека начать взаимодействие, а затем отреагировать на его управляющие действия. И только если потребуется уточнение команды, может быть использован синтезированный интерфейс. При этом ничто не мешает компьютеризированной системе управления демонстрировать ожидание управления от потенциального пользователя, но, как правило, интерфейс должен показывать результаты текущего распознавания действий человека. Примерно в таком ключе функционируют современные системы голосового управления, такие как Apple Siri и Google Now. Стандартизованный интерфейс «ожидания» команд приведен на рисунке 2. Однако голосовой интерфейс не исчерпывает все возможные подходы к построению H2C и H2C2H систем. С развитием робототехники и, в частности, с появлением интеллектуальных систем управления всё больший интерес начинает привлекать возможность использовать естественные для человека невербальные действия. Ведь применение роботов, к примеру, в домашнем хозяйстве предполагает ориентацию на крайне низкий уровень специальной подготовки пользователей. В идеале – собственник робота вообще не должен изучать какие-либо «методы управления». А естественными для человека являются голосовые и жестовые методы коммуникации. Рисунок 2. Режим ожидания голосовых команд Apple Siri Однозначную полезность жестов для передачи информации и управления демонстрируют флажковая флотская азбука, сурдоперевод, жестикуляция строителей и спасателей. Существует множество областей жизнедеятельности, для которых люди изобретали свои системы жестикуляции, которые с некоторой степенью приближения можно интерпретировать как языки передачи команд. Естественными препятствиями на пути внедрения жестовых методов управления являются как неоднозначность значительного числа ситуативных движений человека, непосредственно не связанных с отдачей команд, так и задача детектирования самих движений. И если первая требует специальных исследований, то для преодоления второй существует два пути. Первый – создание экзоскелетов или каких-нибудь иных наборов носимых датчиков, а второй – анализ видеоизображения оператора с целью сопоставления его с виртуальной моделью скелета человека. Второй подход нашёл техническое воплощение в проекте Kinect компании Microsoft, который привёл к созданию одноимённого контроллёра для игровой приставки XBOX 360. К настоящему времени компания распространяет специальный комплект разработчика, позволяющий использовать этот контроллёр с компьютерами под управлением операционной системы Windows. Для большей определённости в технических описаниях весь комплекс принято разделять на сенсор Kinect, систему анализа сцены и систему трекинга фигур. Сам по себе сенсор Kinect является устройством для прямого дистанционного трехмерного измерения объектов и сцен, совмещенным с цветной видеокамерой (рисунок 3). Рисунок 3. Размещение основных элементов сенсора Kinect В процессе работы сенсор строит так называемую «карту глубины» для наблюдаемой сцены (рисунок 4). Kinect создает карту глубины в два этапа. Чтобы получать информацию о трехмерном представлении пространства, Kinect проецирует перед собой сетку из инфракрасных точек. Далее проводится считывание построенной сетки с помощью встроенной инфракрасной камеры. За счёт того что эмиттер сетки и камера разнесены на некоторое расстояние, считанная сетка имеет искажения, связанные с удалённостью освещаемых объектов. В дальнейшем с помощью метода триангуляции смещения преобразуются в оценку удалённости отражающей поверхности от сенсора (рисунок 5). Рисунок 4. Схема анализа сцены сенсором Kinect Рисунок 5. Расчёт удалённости объекта методом триангуляции На основании полученных данных программное обеспечение Kinect строит карту глубины (рисунок 6). Затем на основе этой карты может быть выполнено распознавание позы человеческого тела (рисунок 7). Рисунок 6. Пример анализа сцены с построением карты глубины Результаты трекинга фигуры представляют собой массив трёхмерных координат узлов скелета, которые могут быть использованы для анализа поз и жестов оператора, к примеру, в задаче жестового управления мобильной платформой. Наибольший исследовательский интерес для построения системы жестового управления представляет задача взаимодействия с летающей мобильной платформой, например квадрокоптером. Очень часто в реальной практике авиации возникают ситуации, когда для безопасной посадки необходимо взаимодействие пилота и наземного оператора, а в некоторых случаях передача управления вообще могла бы считаться оптимальным решением. И поскольку использование специального пульта для телеуправления не всегда возможно, то распознавание жестов бортовой вычислительной системой могло бы решить проблему передачи команд. Рисунок 7. Трекинг (отслеживание) виртуального скелета (фигуры) оператора Рисунок 8. Схема управления и интерфейс системы полётного контроля В режиме телеуправления движения рук оператора, стоящего напротив сенсора Kinect, интерпретируются как команды движения, поворота и тангажа. Например, подъем двух рук вверх приводит к взлёту коптера, а противоположное движение – к посадке на поверхность. В дальнейшем планируется внедрить в программное обеспечение робота возможность полноценного управления всеми перемещениями с помощью различных жестов и наклонов корпуса, а также продолжить исследования на других типах робототехнических систем.
×

About the authors

T. T Idiatullov

Moscow State University of Mechanical Engineering

Email: timid@mami.ru
Ph.D. T.T.; 8 (495) 223-05-23

E. B Chabanenko

Moscow State University of Mechanical Engineering

Email: abc437@rambler.ru
8 (495) 223-05-23

M. A Nechushkina

Moscow State University of Mechanical Engineering

Email: mart@mail.ru
8 (495) 223-05-23

References

  1. Войцеховский Я. Дистанционное управление моделями. Пособие моделиста и радиолюбителя. Пер. с польск. Под ред. А.П. Павлова и Н.Н. Путятина. – М.: Связь, 1977, 432 с.
  2. Готшальк О.А. Системы автоматизации и управления. Конспект лекций. – С.-Пб.: СЗПИ, 1998, 35 с.
  3. Stephane Piskorski, Nicolas Brulez, Pierre Eline. AR.Drone Developer Guide. Parrot S.A. 2012, 107 с.
  4. US Patent Application № 20120278904, Microsoft corporation, Redmond, November 1, 2012.

Supplementary files

Supplementary Files
Action
1. JATS XML

Copyright (c) 2013 Idiatullov T.T., Chabanenko E.B., Nechushkina M.A.

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies