About research of radio-electronic equipment diagnostics computer system on the basis of experimental data


Cite item

Full Text

Abstract

An algorithm for estimating the quality of classification is proposed. The task is considered in case of absence of the information about the classes in reality (no training sample). The algorithm is based on modeling of the sample that will be the most similar to the real data. Thus, the actual problem of classification quality evaluation is solved on the basis of the adequate models. Classification was carried out on the data of transistors quality. The task of diagnostics (estimation of quality) of various electronic, electromechanical and electromagnetic components (EEE components) is considered. The principle of EEE research with modeling method is formulated. The modeling of classification process is performed under the conditions which are close to real. The results of numerical researches are in the article. The results allow to hope that application of the proposed algorithm to automatically classification of EEE will be effective.

Full Text

Рассматривается задача автоматической классификации изделий по реальным данным в случае, когда число классов неизвестно. Основной проблемой при решении задачи классификации является то, как оценивать результаты группировки данных. Результат разделения на классы представляется в виде набора элементов выборки (изделий) с указанием того, к какому классу принадлежит каждый элемент, количества элементов в каждом классе и списка центров классов. При этом результат считается хорошим, когда для полученных классов выполняется гипотеза компактности. То есть расстояние между классами должно быть достаточно большое и центры классов выделяются явно. Однако в данном случае все зависит от качества выборки и природы данных. Часто значения переменных в выборке не могут быть явно разделены на группы по некоторым параметрам. Кроме того, существует множество алгоритмов классификации. Используя их, получаются разные классы. Тогда нужно оценивать качество группировки данных. Задача классификации. Пусть имеется совокупность некоторых объектов О1, О2, ..., Оs, свойства которых определены в пространстве признаков. Требуется разбить их на группы объектов, в некотором смысле близких между собой. Информация об объектах задана в виде матрицы m xn (m - количество входных параметров (признаков), s - объем выборки изделий). Таким образом, задача классификации заключается в разбиении пространства признаков на непересе-кающиеся области. Каждый элемент выборки (объект) характеризуется определенными значениями вектора параметров v = (vl, ...,vm), на основании которых осуществляется диагностика (объект может быть отнесен к одному из классов V1 или V2 ). Типичным для задач диагностики является наличие облачной структуры в пространстве признаков, определяющих тот или иной класс (например, удовлетворительный, среднего качества и высокого качества). Задача диагностики рассматривается как задача распознавания образов и сводится к построению решающего правила на основе имеющейся обучающей выборки fo = (v,, ...,v ), U }, где U - I s 1 s s) s указания учителя о принадлежности к V1 или V2 ; s - объем выборки. На рис. 1 это иллюстрируется для трехмерного вектора v, m = 3. При этом количество классов качества может быть различным, но независимо от их числа обязательно присутствуют области перемешивания представителей соседних классов (V3), что приводит к необходимости решения задачи распознавания образов в вероятностной постановке (рис. 1). Это порождает трехальтернативную задачу диагностики изделий [1]. Третий класс определяет некоторую пограничную область между классами, т. е. подобласть, в которой имеет место перемешивание изделий различных классов. Распознавание образов без учителя (самообучение) - это обучение без каких-либо указаний учителя о правильности или неправильности реакции системы в различных условиях [2]. Предположим, что множество объектов X состоит из нескольких непересе-кающихся подмножеств Xk (k = 1, l), соответствующих 25 Математика, механика, информатика различным классам объектов, характеризуемых векторами x e X . Поскольку объект x e X появляется в том или ином множестве Xk (k = 1,l) случайно, то естественно рассматривать вероятность появления объекта x в классе Xk (обозначим ее Pk) и условную плотность вероятности вектора x внутри соответствующего класса Xk, pk (x) = P(x / k), k = 1, l. * Vj Рис. 1. Иллюстрация задачи распознавания образов В этом случае максимумы плотностей вероятностей Pk (x) находятся над «центрами» классов, соответствующих подмножествам Xk. Однако когда неизвестно, к какому классу принадлежит объект x , эти условные плотности вероятности определить невозможно. Совместная плотность вероятности l P (x) = I Pkpk (x) содержит довольно полную инфорk=1 мацию о множествах. В частности, максимумы (моды) функции P(x) будут соответствовать «центрам» классов. Поэтому задача самообучения часто сводится к задаче восстановления совместной плотности вероятности P(x) и определению по ней «центров», а затем и границ классов [1]. Так, для случая x = (x^,x2) на рис. 2 представлен возможный вид плотности вероятности P(x). p(x1 ,x2) Рис. 2. Плотность распределения вероятности На рис. 2 показана плотность вероятности P(x), имеющая два максимума, а следовательно, и два класса. Центрами классов естественно считать координа ты максимумов (моды) распределения (xl(k), x2(k)), k = 1, 2. Далее рассматривается алгоритм, предлагаемый для группировки данных в случае, когда исходное число классов неизвестно. Алгоритм группировки данных. Пусть дана выборка наблюдений {x., i = 1,s} многомерной переменной x e Rm (m - размерность x), соответствующая характеристикам некоторых реальных объектов. Необходимо разделить имеющуюся выборку наблюдений на группы изделий (классы), в некотором смысле близких между собой по характеристикам. Количество таких классов неизвестно. Далее описывается предлагаемый алгоритм классификации, включающий следующие шаги: 1. Находятся расстояния между всеми точками выборки наблюдений. Расстояние r(xt, x.) между двумя многомерными точками xt и xj вычисляется следующим образом: m r(, xj) = I|xq - xj|. (1) q=1 2. Находятся точки, находящиеся на относительно большом расстоянии друг от друга. Здесь в качестве радиуса, определяющего «дальность», принимается среднее значение расстояния между всеми точками: m m rmean =IIr(xi-, xj ). i=1 j=i 3. Из имеющейся таблицы расстояний выбирается массив, состоящий из n элементов g = {r[i]/rtj < rmean}, i = 1,n таким образом, чтобы этот массив содержал пары точек, расстояние между которыми наибольшее. Далее предполагается, что выбранные элементы принадлежат различным классам. 4. На основании анализа массива g определяется число классов и центры масс (xj) выделенных классов. Массив разделяется в соответствии с анализом значений расстояний между его элементами. 5. Находятся все точки, удовлетворяющие условию r(x , x) < 5j, где 5j - задаваемый параметр. Предполагается, что такие точки лежат в одном клас- \У \У * се с начальной точкой x . 6. Выделенные точки объявляются классом и исключаются из выборки наблюдений. Ниже будут рассмотрены результаты группировки реальных данных, которая была проведена с применением вышеописанного алгоритма. Методика оценки результатов классификации. Как уже говорилось, главная проблема при проведении классификации заключается в том, что информации о реальных данных недостаточно для того, чтобы сделать однозначные выводы о существовании групп в исследуемом наборе объектов. В связи с этим требуется оценить правильность и точность проведенной классификации. Для этого существует несколько способов. 26 Вестник СибГАУ. № 1(53). 2014 Вывод о реальности Рис. 3. Схема проведения классификации и последующего анализа данных Кросс-проверка - это процедура оценки точности классификации на данных из тестового множества. Сравнивается точность классификации тестового и обучающего множеств. Если классификация тестового множества - результаты, по точности совпадающие с классификацией обучающего множества, считается, что данная модель прошла кросс-проверку. Разделение на обучающее и тестовое множества осуществляется путем деления выборки в определенной пропорции, например, обучающее множество - две трети данных и тестовое - одна треть данных. Кроме того, возможно оценивать эффективность классификации по расстоянию между классами или анализировать результаты классификации, проведенной различными методами [3; 4]. Может быть предложена также методика, основанная на моделировании данных, имитирующих реальные. Общая схема предлагаемого алгоритма представлена на рис. 3. Предлагается методом статистического моделирования сгенерировать выборку, которая была бы максимально приближена к реальным данным {x., i = 1,s}, т. е. имела те же объемы выборки, размерности и параметры классов. В соответствии со схемой, по результатам классификации можно задать центры и объем классов, сгенерировать выборку с некоторым законом распределения и вновь провести классификацию сгенерированных данных. Методика основана на том, чтобы подходить к истинному разделению имеющихся данных двумя способами. С одной стороны, часть информации может быть получена в результате классификации данных одним из известных методов. Таким образом получа ем представление о расположении и объеме классов, а также значения центров классов. Результатом классификации обычно являются следующие знания: 1. Исходный массив данных разделился на N классов, причем в каждом j-м классе (j = 1,n) содержится sj n объектов выборки: ^ sj = s . j=1 2. Каждый элемент xi первоначальной выборки относится к одному из классов: xt e Xj, i = 1, sj, j = 1, N. 3. Определяются центры классов , j = 1, n . Таким образом, в результате классификации множество данных разделяется на N различных подмножеств. Тогда исходной информацией для применения алгоритма являются следующие параметры: N, sj, xC. Их можно использовать для генерации модельной выборки {у, ,i = 1, s}, распределение и вид которой должны совпадать с аналогичными параметрами реальных данных. Генерация может проводиться следующим образом: y/ = fj ( xC, sj ), j = 1, N где yi - множество элементов j-го класса, сгенерированных таким образом, что центр этого класса находится в точке xj, j = 1, N; f() - неизвестный закон распределения, описывающий расположение точек в пространстве. Необходимо в ходе моделирования каким-то образом подобрать такой вид распределения данных, чтобы при классификации модельных и реальных данных результаты совпадали. В этом случае можно говорить 27 Математика, механика, информатика о том, что сгенерированные данные «имитируют» реальность. Такой алгоритм может быть достаточно хорошим для предварительного исследования реальных данных в случае необходимости их классификации. И в связи с этим вопрос об оценке результатов классификации решается на основании сравнения результатов, полученных в ходе группировки как реальных, так и модельных (сгенерированных) данных. Обработка данных испытаний ЭРИ. В качестве примера рассматривается классификация электрорадиоизделий. Космические аппараты (КА) представляют собой сложные технические системы. Бортовая аппаратура в космическом пространстве не подлежит ремонту, поэтому для эффективного функционирования необходимо, чтобы ее надежность была максимальной. Требуемый уровень надежности обеспечивается за счет различных факторов, главным из которых является использование высоконадежных электронных компонентов. Космический аппарат содержит от 100 до 200 тыс. элементов электроннокомпонентной базы (ЭКБ). К ним относятся микросхемы, транзисторы, диоды, конденсаторы, реле, резисторы и т. д. Таким образом, одной из основных задач современной космической отрасли является комплектация бортовой аппаратуры КА высоконадежной ЭКБ. В первую очередь, следует предотвратить попадание в аппаратуру продукции, которая не удовлетворяет требованиям надежности. В рамках решения этой проблемы необходимо обеспечить закупку ЭКБ у проверенных поставщиков, а также проведение входного контроля, дополнительных отбраковочных испытаний и разрушающего физического анализа ЭКБ [5]. Далее представлены результаты численных расчетов по диагностике ЭРИ по реальным данным, полу Виды измер ченным при измерении параметров транзисторов в ОАО «ИТЦ НПО ПМ». Рассматривались данные тестов проверки качества транзисторов Т866А аА0.339.431 ТУ от 2000 г. Переменными, определяющими качество изделий в данном случае, являются следующие (табл. 1). В табл. 1 1кбо - обратной ток коллектора, 1э - ток эмиттера, 1б - ток базы, 1к - ток коллектора, № - напряжение коллектора, Шб - напряжение «эмиттер- база», Шн - напряжение базы насыщения, №н - напряжение коллектора насыщения, h21 э - статический коэффициент передачи тока. Таким образом, дана выборка из 78 элементов, каждый из которых описывает определенный транзистор, качество которого определяется путем измерения 16 параметров. Пусть (x1,x2, ..., xn) - n-мерный вектор параметров, определяющий качество того или иного изделия. Тогда имеется выборка (x1,i,xv, ..., xn.) (где s - объем выборки), состоящая из измерений тестовых параметров группы s изделий. Требуется на основании имеющейся информации провести предварительный анализ данных, в ходе которого исследовать все возможные зависимости между переменными, и оценить необходимость проведения распознавания образов. В ходе предварительного анализа данных были построены оценки плотности распределения вероятности для каждой переменной. Ниже в качестве примера приведены графики оценок плотностей распределения по данным диагностических испытаний ужесточенного контроля показателя напряжения насыщения «коллектор-эмиттер» х13 (рис. 4, а) и статического коэффициента передачи тока х16 (рис. 4, б). Таблица 1 ий транзистора Обозначение переменной Пояснение - вид испытания х1 Обратный ток коллектора при № = 40 В 1кбо не более 2 мА х2 Обратный ток коллектора при № = 100 В 1кбо не более 3 мА х3 Обратный ток эмиттера при Us6 = 4 В 1кбо не более 4 мА х4 Напряжение насыщения «база-эмиттер» при 1б = 100 мА Шн не менее 0,05 В и не более 0,999 В х5 Напряжение насыщения «база-эмиттер» при 1б = 316 мА Шн не менее 0,05 В и не более 0,999 В х6 Напряжение насыщения «база-эмиттер» при 1б = 999 мА Шн не менее 0,7 В и не более 1 В х7 Напряжение насыщения «база-эмиттер» при 1б = 100 мА, 1к = 1 А Шн не менее 0,2 В и не более 0,98 В х8 Напряжение насыщения «база-эмиттер» при 1б = 316 мА, 1к = 3,16 А Шн не менее 0,3 В и не более 1 В х9 Напряжение насыщения «база-эмиттер» при 1б = 999 мА, 1к = 9,99 А Шн не менее 1 В и не более 1,6 В х10 Напряжение насыщения «коллектор-эмиттер» при 1б = 10 мА, 1к = 100 мА №н более 0,2 В х11 Напряжение насыщения «коллектор-эмиттер» при 1б = 100 мА, 1к = 1 мА №н не менее 0,01 В и более 0,9 В х12 Напряжение насыщения «коллектор-эмиттер» при 1б = 316 мА, 1к = 3,16 А Urn не менее 0,01 В и более 0,9 В х13 Напряжение насыщения «коллектор-эмиттер» при 1б = 999 мА, 1к = 9,99 А Urn не менее 0,3 В и более 1,19 В х14 Статический коэффициент передачи тока при № = 1 В, 1э = 10 мА К21э не менее 8 х15 Статический коэффициент передачи тока при № = 1 В, 1э = 3,16 А h2^ не менее 20 и не более 165 х16 Статический коэффициент передачи тока при № = 1 В, 1э = 9,99 А h2^ не менее 12 и не более 90 28 Вестник СибГАУ. № 1(53). 2014 Рис. 4. Гистограммы и оценки плотности распределения вероятности переменных х13 и х16 Анализ построенных распределений частот и оценки плотностей показывает смещенность основных числовых характеристик, отсутствие унимодальности распределений. Наличие многомодальности плотностей указывает на то, что имеет смысл разделение исходной выборки на группы объектов, сходные по некоторым свойствам. Результаты классификации реальных данных. Для диагностики транзисторов проведем классификацию всех имеющихся наблюдений с целью выявления групп транзисторов в пространстве диагностических показателей. Требуется собрать заданные 78 корпусов транзисторов в кластеры по l6 параметрам, характеризующим их качество. Приведены результаты классификации методом кристаллизации, приведенным ранее. Согласно результатам таблицы, полученной в результате классификации, можно сказать, что для данных, включающих 78 наблюдений, оптимальным является решение, где вся выборка делится на 2 класса, соответствующих транзисторам различного качества. Получим также таблицу принадлежности каждого элемента к конкретным кластерам, в которой можно увидеть, что к первому кластеру принадлежат 35 транзисторов, а ко второму - 43. Ниже приведены средние значения переменных для каждого кластера (табл. 2). Из табл. 2 видно, что при классификации наибольшее различие наблюдается по значениям признаков х2, х3, х10-х14. В результате можно сказать, что в наибольшей степени данное разделение по кластерам проявляется в различиях значений статического коэффициента передачи тока. При этом чем больше коэффициент Ь21э (переменные х14-х16), тем, естественно, больше усиление входного сигнала. Таким образом, транзисторы разделены на группы, где в первую группу попали более качественные транзисторы (с меньшим значением /кбо (что говорит об устойчивости транзистора в работе) и большими усилительными свойствами). Таким образом, выборки данных измерений качества транзисторов были разделены на классы, которые отличаются различными значениями большинства па раметров, что может соответствовать различным уровням качества рассматриваемых изделий (транзисторов). Таблица 2 Средние значения центров классов Признак Класс 1 2 Xl 0,0040 0,0040 X2 0,0404 0,0603 X3 0,0008 0,0007 X4 0,7065 0,7063 X5 0,7568 0,7576 X6 0,8322 0,8346 X7 0,7560 0,7613 X8 0,8837 0,8940 X9 1,2403 1,2615 X10 0,0359 0,0520 Xll 0,1056 0,1082 X12 0,2571 0,2531 X13 0,6890 0,6858 X14 45,9140 26,1286 X15 72,4023 41,4343 X16 50,0600 32,2189 При анализе различных реальных данных часто возникает необходимость в задаче группировки данных, что приводит к появлению кластеров в пространстве параметров, характеризующих качество изделия. В данном примере в классе годных изделий в результате диагностических испытаний транзисторов явно выделяются две группы, которые условно можно назвать «хорошими» и «очень хорошими». Исходя из этого, появляется возможность изготавливать ЭРИ того или иного заданного качества. Предложен алгоритм решения задачи кластеризации, который не требует знания количества классов. Кроме того, полученные результаты могут быть использованы для создания моделей «реальности», т. е. генерации данных, которые должны быть максимально подобными исследуемой выборке. На основании анализа результатов модельных и реальных данных могут быть сделаны выводы об обоснованности и качестве проведенной классификации.
×

About the authors

Nadezhda Vladimirovna Koplyarova

Siberian State Aerospace University named after academician M. F. Reshetnev

Email: koplyarovanv@mail.ru
engineer

Viktor Ivanovich Orlov

JSC “TTC-NPO PM”

Email: itcnpopm@atomlink.ru
director

References

  1. Медведев А. В. Теория непараметрических систем. Процессы // Вестник СибГАУ 2010. Вып. 3 (29). С. 4-9.
  2. Цыпкин Я. З. Основы теории обучающихся систем. М. : Наука, 1970. 252 с.
  3. Орлов А. И. Нечисловая статистика. М. : МЗ-Пресс, 2004.
  4. Загоруйко Н. Г. Прикладные методы анализа данных и знаний. Новосибирск : Изд-во Ин-та математики, 1999. 270 с.
  5. Данилин Н. С. Диагностика и контроль качества изделий цифровой микроэлектроники. М. : Изд-во стандартов. 1991. 176 с.

Supplementary files

Supplementary Files
Action
1. JATS XML

Copyright (c) 2014 Koplyarova N.V., Orlov V.I.

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies