THEORY OF NONPARAMETRIC SYSTEMS. CONTROL-I


如何引用文章

全文:

详细

The author presents the information about the nonparametric control theory of discrete-continuous processes, in particular, the theory of control duality and nonparametric theory of adaptive systems. The question about the place of the nonparametric systems theory in the general theory of control is discussed. The paper offers new closed schemes of non-parametrical control systems. The main idea is in И-regulators design, that represents a prototype of the inverse operator of the object. The peculiarity of its search is motivated with the fact that a type of the object is unknown. It is restored on the basis of the «input-output» observations of the variables process. The nonparametric algorithms of dual control are given. The problems of the mathematical problems statements of modeling and control in the conditions of non-parametric uncertainty are discussed. The problems of variables control characterizing the state of the process are specially are analyzed. Some control algorithms are discussed and the computational results of experiments are presented.

全文:

Теория - в виду практики. Девиз конгрессов IFAC Строго говоря, действенность любого конкретного метода зависит от истинности имеющейся информации. К. Р. Рао Современная теория управления в значительной степени относится к классу параметрических. Это означает, что на этапе формулировки задачи идентификации и управления предполагается каким-то образом выбранная параметрическая структура, описывающая процесс, или некоторое уравнение, известное с точностью до параметров. Ранее [1] были описаны непараметрические алгоритмы управления, которые тесно связаны с имеющейся априорной информацией. Часто априорной информации бывает недостаточно для обоснованного выбора параметрического класса моделей. Это один из камней преткновения как в теории моделирования, так и в теории управления. Основное внимание в дальнейшем мы уделим задачам непараметрического дуального управления. Более того, нас будет интересовать прежде всего управление в условиях непараметрической неопределенности, а также случай, когда дискретно-непрерывный процесс может быть отнесен к классу как безынерционных с запаздыванием, так и динамических. Теория дуального управления. Феномен дуализма в системах управления был открыт в 1962 г. А. А. Фельд-баумом и в последующем существенно развит им и его последователями. Сущность дуализма состоит в том, что управляющие воздействия носят двойственный характер. Они, как замечает А. А. Фельдбаум, «должны быть в известной мере изучающими, но, в известной мере, направляющими» [2]. Приведем схему дуального управления (рис. 1) [2]. Введем следующие обозначения: х* - задающее 1 * воздействие, которое смешивается с шумом hs и поступает в качестве ys в регулятор; выход объекта xs также смешивается с шумом hs в виде ys и поступает в регулятор; управляющее воздействие us смешивается с помехой gs и поступает в виде vs на объект, который находится под воздействием помехи |s; s -дискретное время; H , H, G - каналы связи. Рис. 1. Общий вид системы управления Далее предполагается следующее: - рассматриваемая задача - байесова, h*, hs, gs -последовательности независимых случайных величин с неизменными плотностями вероятности P(hs), P(hs), P(gs); |s = |(s, ц), где ц - случайный вектор с известной априорной плотностью вероятности P(|a). Аналогично полагаем xs = x(X, s), где X - случайный вектор с заданной плотностью вероятности P(X) и все внешние воздействия - |s, h*, hs, gs, x* - статистически независимы; - объект не имеет памяти и описывается уравнением xs = F(|s, vs), где F - ограничена, однозначна и дифференцируема; - способы комбинации сигнала и шума считаются известными и неизменными, т. е. ys = y (xs, hs), vs = v(us, gs), y* = y*( x*, hs) вместо которых и вероятностных характеристик шумов можно сразу задать условные плотности вероятности P(vs / us), P(ys / xs), P( yj xs ). Введем удельную функцию потерь Ws = W (s, xs, x*), тогда общая функция потерь W имеет вид [2] W = £Ws (s, xs, x*). (1) s=0 Назовем оптимальной систему, для которой полный риск минимален, RS - удельный риск: R = M{W} = j^M{Ws(s,xs, x*)} = . (2) s=0 S=0 Будем считать, что регулятор в общем случае обладает памятью и характеризуется случайной стратегией. Введем временные векторы us = (u0,...,us), xs = (x0,...,xs) и по аналогии vs,x*,y*,ys,0 < s < n.. Теперь поставим задачу отыскания оптимальной случайной стратегии регулятора, т. е. оптимальных плотностей вероятности [2] Ps (us ) = Fs (us / us-1, .У*), 0 < s < n , (3) при которых полный риск R минимален. Поскольку Г s суть плотность вероятности, то Ts > 0, j Ts (us )dQ = 1. (4) Q(us ) Здесь Q(us) - область возможных значений us, а dQ -ее бесконечно малый элемент. Ts, s = 0,..., n называются удельными стратегиями, а их совокупность -полной стратегией. В подобной постановке задача управления была рассмотрена в [2]. Несколько иная трактовка теории дуального управления была дана Я. З. Цыпкиным в [3]. Непараметрическое дуальное управление. В теории дуального управления [2] и теории адаптивных систем [3] предполагается математическое описание объекта с точностью до вектора параметров. В большинстве случаев априорной информации недостаточно, чтобы обоснованно выбрать параметрическую модель исследуемого процесса. Поэтому приходится проводить серию экспериментов на объекте (часто длительных и дорогостоящих), чтобы качественно, с практической точки зрения, решить задачу идентификации. В условиях непараметрической неопределенности [4] уравнение процесса с точностью до вектора параметров не известно, но известны свойства объекта качественного характера, например однозначность характеристик или неоднозначность для безынерционных процессов; линейность или тип нелинейности для динамических. Если вид уравнения, описывающего процесс, не известен, то известные параметрические методы теории управления [2; 3] не применимы для решения задач идентификации и управления. Введем оператор объекта A , описывающий процесс, т. е. x(t) = A < u(t) > , (5) где u(t) - управляющее воздействие, x(t) - выходная переменная объекта. Если существует оператор, обратный A , т. е. A-1 , A—A = I - единичный оператор, то A_1x(t) = A"1 A < u(t) >, u(t) = A_1x(t). (6) Задавая теперь траекторию x(t) = x*(t), находим из (6) идеальное значение u*(t). Таким образом (6) может быть отнесен к категории идеальных регуляторов. В дальнейшем будем его называть И-регулятор, чтобы отличить от многих известных. Однако проблема состоит в том, что в большинстве случаев его построить нельзя, тем более что оператор A - неизвестен. Попытка, как-то, хотя бы частично, решить эту проблему введением в УУ корректирующих цепочек, компенсирующих звеньев предпринимались. В некоторых технических системах это приводило к успеху. Рассмотрим частный случай. Пусть объект описывается линейным дифференциальным уравнением неизвестного порядка. В этом случае при нулевых начальных условиях x(t) определится формулой [5]: t x(t) = j h(t -x)u(x)d т, (7) 0 где h(t -т) - весовая функция системы, является производной переходной функции k(t), т. е. h(t) = k'(t). Известно, что обратным оператором (7) является оператор [5] t u(t) = j v(t -т) x(T)d т, (8) 0 где v(t) - весовая функция объекта в направлении «выход-вход» и v(t) = w'(t), где w(t) - переходная функция системы в том же направлении. В этом случае A представлен оператором (7), а A-1 - выражением (8). Следовательно, теперь проблема состоит в отыскании весовых функций h(t), v(t). Один из возможных путей решения этого вопроса состоит в решении уравнения Винера-Хопфа. Другой - в снятии переходной характеристики на реальном объекте с последующей оценкой его весовой функции по результатам измерений {x, = ki, tt, i = 1, s}. Непараметрическая модель (7) будет иметь вид xs(t) = jhs(t-т,ks,ts)u(^dт . (9) где ks, ts - временные векторы ks = (kj,...,ks), Поскольку операторы A и A -1 по реальным данным будут оценены не точно, то возникает необходимость несколько изменить схему «включения» на входе объекта блок A-, добавив обратную связь (рис. 2). Отметим, что неизвестные операторы A и A -1 оценивались по исходным переходным характеристикам процесса (уравнение процесса было неизвестно) в классе непараметрических статистик [4]. На рис. 2: As-1 - непараметрическая оценка обратного оператора объекта, u* - выход (оценка A-1), помеха hx действует в канале обратной связи. Непараметрический алгоритм дуального управления имеет вид us+1 = us + Aus+1 = (13) ts = (t1,..., ts), а hs (•) равна 1s hs (t) =— £ ktH' здесь us определяется по формуле (12), а Aus+1 = = е(xs+1 - xs)- поисковые шаги. Таким образом, в us сосредоточены «знания» об объекте, а Aus+1 - «изучающие» поисковые шаги. В этом и состоит дуализм алгоритма (13). Поясним его на примере безынерционного объекта x = f (u, ц), в качестве оценки которого примем непараметрическую оценку функции регрессии по наблюдениям {x, , ui, ц, , i = 1, s}, где ц - контролируемое, но неуправляемое входное воздействие [4]: (10) °s i=1 H (•) - колоколообразные (ядерные) функции, cs -параметр размытости, удовлетворяющие некоторым условиям сходимости [4]. Весовую функцию v(t) в направлении «выход-вход», а также переходную w(t) на объекте «снять» нельзя. Было предложено переходную функцию v(t) снять на модели в направлении «выход-вход», т. е. «вспять». По-видимому, впервые это было сделано в [6]. Таким образом, из соотношения t xs, (t) = 1(t) = j hs (t - т, ks, ts )u Ct)d т (11) 0 можно получить выборки {uj, tj, j = 1, s} . Тогда непараметрический алгоритм управления линейной динамической системой примет вид (ц-цЛ Ф i=1 xs (u, ц) = (14) ц-ц, £Ф Ф I=1 где колоколообразные функции Ф() и параметр размытости cs удовлетворяют некоторым условиям сходимости [4]. Аналогом выражения (8) в этом случае будет u = f~l(x, ц), где f _1(x, ц) - функция, обратная f (u, ц), а u* из (13) будет равно t ( 1 s (t) = j I— £ J Qr. w,H' x (т)dт , (12) 0 V scs j =1 где x (т) - задающее воздействие, интегрирование выражений (11)-(12) осуществляется численно. Регулятор (8) и его численный аналог (12) назовем И-регулятором. Ясно, что объемы выборок при «снятии» переходных характеристик на реальном объекте и на модели могут не совпадать. Фрагмент работы алгоритма (12) будет представлен ниже. ( * x,+1 - x, Цs+1 -ц, £ u, ф i=1 Ф (15) u Цs+1 -ц, £Ф Ф i =1 где xs+1 - задающее воздействие. Рис. 2. Система дуального управления с обратной связью Ясно, что класс функций x = fu, д) - взаимнооднозначные и непрерывные. Проанализируем характер дуализма алгоритма (13). На начальной стадии управления основная роль принадлежит второму слагаемому Ди^ формулы (13). Это случай активного накопления информации в системе дуального управления, который начинается с появления первого наблюдения входной и выходной переменных объекта. По мере процесса обучения (накопления информации) все возрастающую роль при формировании управляющего воздействия us+1 начинает играть первое слагаемое, т. е. и*. Таким образом, в процессе дуального управления объектом фигурируют как этап изучения объекта, так и этап приведения его к цели. Более общая схема непараметрического дуального управления представлена на рис. 3. Здесь в результате функционирования замкнутого контура управления происходит уточнение оценки обратного оператора объекта. Вычислительные эксперименты. Приведем некоторые результаты вычислительных экспериментов, которые носят иллюстративный характер. Поэтому ниже не приводятся сведения о выборе параметра размытости на каждом этапе эксперимента, поискового шага, а показаны только итоговые результаты, из соображений краткости изложения. На рис. 4 показан случай, когда на вход объекта действуют управляемая переменная u(t) и неуправляемая, но контролируемая переменная ^(t). Обучение управляющей системы, включающей в себя блоки A— и УУ, может начинаться с первой триады наблюдения, т. е. выработка управляющего воздействия осуществляется при наличии триады (u1, ц1, x1). На рис. 4 показано обучение непараметрической системы дуального управления * при изменяющихся задающих воздействиях x и ц. На начальной стадии управления I необходимо некоторое время (накопление выборки) для приведения объекта в заданное состояние. На этапе II задающее значение x* выбиралось вне имеющихся наблюдений выхода объекта x , поэтому требовалось некоторое время для приведения объекта в заданное состояние * x . На этапе III задающее воздействие представляло собой траекторию, а на этапе IV - случайную величину. Как видно, на этапах III и IV процесс управления достаточно высокого качества. Приведенные выше результаты имеют иллюстративный характер, как и было отмечено выше, поскольку из соображений краткости не приводятся конкретные сведения о настройке параметров размытости, поисковых шагов. Результаты управления линейным динамическим объектом (было взято дифференциальное уравнение третьего порядка), представлены на рис. 5. Задающее воздействие xt* - случайная величина, генерируемая датчиком равномерно распределенных случайных чисел. Были проведены многочисленные эксперименты, один из которых и приведен. Эксперимент осуществлялся по следующей схеме: сначала на объекте (уравнения объектов были неизвестны) снимались переходные характеристики, и с использованием их оценивался оператор A по формуле (9) и обратный оператор A-1 по формуле (12). Из рисунков видно удовлетворительное качество управления даже в таком «экзотическом» случае. С подобной задачей не справится ни один из известных регуляторов. Приведем переходную и весовую функции объекта (рис. 6, 7), с которым проводился эксперимент, проиллюстрированный на рис. 4, 5. Рис. 3. Обучающаяся система дуального управления с обратной связью 5 - k х' ( I N rv ш Ai M-t п О 20 40 60 80 100 120 140 Рис. 4. Управление статической системой при наличии ^(t) Рис. 5. Управление динамической системой при случайном задании Рис. 7. Весовая характеристика Рис. 6. Переходная характеристика Рис. 9. Результат работы регулятора Рис. 8. «Обратная» переходная характеристика Как видно, оценки переходной и весовой функции системы вполне удовлетворительные при наличии помех, действующих в каналах связи. На рис. 8 представлена переходная характеристика объекта, полученная в направлении «выход-вход» на имеющейся непараметрической модели, т. е. переходная функция «вспять». Рис. 9 иллюстрирует работу И-регулятора при ступенчатых задающих воздействиях. Математические постановки задач моделирования и управления. При математической постановке задачи определяющим является объем априорной информации об исследуемом процессе. Как следствие этого - различные математические постановки задач, с точки зрения математической строгости. Одним из основных камней преткновения на этом пути является несоответствие наших предположений об исследуемом объекте самому объекту. После традиционно произносимого «Пусть процесс...» следуют такие предположения, гипотезы, которые, к сожалению, часто имеют отдаленное отношение к реальности. Наше незнание об исследуемом процессе приходится, к сожалению, заменять, говоря «Пусть.». Ясно, что если наши допущения достаточно близки к реальности, то в итоге можно рассчитывать на успех при решении той или иной задачи, если же нет, то неудача неизбежна. Действительно, многие процессы и объекты в основе функционирования которых лежат фундаментальные законы физических, химических, электрических, механических и других явлений, могут быть описаны с высокой степенью точности. Соответственно для них могут создаваться и модели, и системы управления достаточно высокого качества, что во многих случаях имеет место. Из этого следует, что возможно возникнет необходимость ухода от общепринятых на сегодняшний день методов исследования стохастических систем и систем управления стохастическими процессами. Контроль переменных, измерения. Здесь мы подчеркнем важность проблемы измерения «входных-выходных» переменных исследуемого объекта, процесса. Ясно, что отличающиеся средства контроля даже для одних и тех же процессов приводят к различным формулировкам задач идентификации. Главное, что следует выделить в этой проблеме, состоит в том, что нередко динамический объект мы вынуждены рассматривать как статический с запаздыванием из-за длительной процедуры контроля (измерения, анализа) некоторых переменных, существенно превышающей постоянную времени объекта. Безусловно, при моделировании и управлении дискретно-непрерывными процессами, целесообразно использовать все переменные объекта, доступные для измерения, но это требует тщательного анализа не только самого конкретного объекта, но и средств и технологии контроля всех доступных переменных, а также априорной информации, которая одновременно по различным каналам измерения переменных многомерной системы объекта может соответствовать различным уровням априорной информации. Неучет тех или иных переменных, параметров, характера измерения и контроля, априорной информации, а также некоторая «вольность» при принятии тех или иных допущений, неизбежных при математической постановке задачи, может привести в конечном счете к негативным последствиям. Вся эта сумма вопросов часто обходится при исследовании проблемы моделирования с теоретической точки зрения. При решении же прикладных задач, построении моделей конкретных процессов это просто невозможно, ибо «истина ничуть не страдает от того, если кто-либо ее не признает» (И. Ф. Шиллер). Если же допущения при математической постановке задачи управления слишком «грубые», то, видимо, есть два пути. Первый - восполнение нашего «незнания» о процессе, когда можно будет сделать аккуратную, с математической точки зрения, постановку задачи. Второй путь состоит в развитии математического подхода? адекватного тому уровню априорной информации, которым мы реально располагаем. Замечания о теории непараметрических систем. Термин «непараметрическая идентификация», «непараметрические методы обработки данных» встречаются в монографиях по идентификации и управлению, но непараметрических алгоритмов идентификации и управления, как правило, не приводЬтся. Обычно непараметрическую идентификацию линейных динамических процессов связывают с отысканием весовых или переходных функций системы в результате решения интегральных уравнений Фредгольма 1-го рода, в частности уравнения Винера-Хопфа. Вышеизложенное позволяет несколько иначе посмотреть и на определение адаптивной системы. Общепринятое определение: «Адаптивные автоматические системы - это управляющие устройства, функционирование которых изменяется в зависимости от неизвестных заранее характеристик объекта управления и внешних воздействий. Процесс обучения адаптивной системы определяется принятым алгоритмом обучения и состоит в приспособлении работы устройства к поступающей на его вход информации об объекте. Результат обучения - это способ функционирования, осуществляющий успешное или наилучшее в каком-либо смысле управление объектом, которое зависит не только и не столько от принятого алгоритма обучения, сколько от той информации, которая поступила в систему. В этом смысле адаптивная система может выполнять действия по правилам, не заложенным в нее конструктором заранее». Представляется необходимым отметить следующее: при создании адаптивной системы того или иного назначения целесообразно базироваться на триаде: первое -максимальный учет имеющейся разнотипной априорной информации и формулировка на ее основе постановки задачи; второе - всесторонний анализ текущей информации, необходимой для организации процесса адаптации и обучения и, наконец, третье - аккуратное применение теории адаптивных систем. Естественно ожидать, что несоблюдение любого из трех перечисленных выше этапов приведет к тому, что построенная система вряд ли будет адаптивная или обучающаяся. Вышеизложенное охватывает некоторые задачи управления при параметрической и непараметрической априорной информации. В отличие от хорошо развитой параметрической теории, непараметрическая теория управления ориентирована на уровень меньшей априорной информации об исследуемых объектах и процессах. Обращается специальное внимание на построение непараметрических систем дуального управления и подчеркиваются их отличия от систем байесового или параметрического типов. Введен новый тип регуляторов (И-регуляторы), базирующихся на восстановлении обратного оператора исследуемого процесса по наблюдениям «входа-выхода» объекта. Приводятся некоторые результаты вычислительных экспериментов.
×

作者简介

A. Medvedev

Siberian State Aerospace University named after academician M. F. Reshetnev

Email: Saor_medvedev@sibsau.ru

参考

  1. Медведев А. В. Теория непараметрических систем. Моделирование // Вестник СибГАУ. 2010. Вып. 4 (30). С. 4-10.
  2. Фельдбаум А. А. Основы теории оптимальных автоматических систем. М. : Физматгиз, 1963.
  3. Цыпкин Я. З. Адаптация и обучение в автоматических системах. М. : Наука, 1968.
  4. Медведев А. В. Непараметрические системы адаптации. Новосибирск : Наука, 1983.
  5. Куликовский Р. Оптимальные и адаптивные процессы в системах автоматического регулирования. М. : Наука, 1967.
  6. Medvedev A. V. Identification and control for linear dynamic System of unknown order // Optimization techniques IFIP Technical Conference. Berlin : Heidelberg : New-York : Springer-Verlag, 1975. P. 48-56.

补充文件

附件文件
动作
1. JATS XML

版权所有 © Medvedev A.V., 2013

Creative Commons License
此作品已接受知识共享署名 4.0国际许可协议的许可
##common.cookie##