Stages of realizationof the principal component method in processing of signals from analytical instruments

Abstract

The analytical device allows to register data with a large number of detectors for a long time. The process of compression and classification of a huge array of information received is relevant. Data compression methods based on the representation of the source data through new variables of smaller dimension are used to highlight significant information. One method of data compression is principal component method (PCM). In work presented the main stages of the PCM in the processing of signals from analytical instruments.

Full Text

Современные аналитические приборы могут производить огромное количество измерений. Однако из-за мультиколлинеарности доля полезной информации в таком массиве данных может быть относительно невелика. Для выделения значимой информации используются методы сжатия данных, основанные на представлении исходных данных через новые переменные существенно меньшей размерности, чем число исходных переменных. Сжатие данных позволяет представить полезную информацию в более компактном виде, удобном для визуализации и интерпретации. Одним из основных способов сжатия данных является метод главных компонент (МГК) [1]. МГК является разновидностью мультикорреляционного анализа и основан на обработке корреляционных матриц большой размерности. При использовании МГК предполагается, что несколько измеряемых переменных сильно коррелируют друг с другом. Это означает, что либо они взаимно определяют друг друга, либо связь между ними обусловливается третьей величиной, которую непосредственно измерить нельзя [2]. Модель главных компонент в большей степени связана с этим предположением и дает возможность получить числовые значения этих третьих величин в виде набора линейно-независимых факторов (ЛНФ), которые описывают и воспроизводят исходную матрицу данных с необходимой точностью. В общем случае представление данных в виде матрицы «объект - переменная» позволяет решать два вида задач: анализ взаимосвязей между переменными - столбцами матрицы (исследование структуры связей, снижение размерности) и выявление сходства между объектами - строками матрицы (классификация). В обоих случаях целью является «сжатие» информации. Методы снижения размерности «сжимают» матрицу по столбцам, выделяя группы связанных друг с другом переменных. Методы классификации «сжимают» матрицу данных по строкам, объединяя в кластеры схожие между собой объекты. Таким образом, речь идет об агрегировании столбцов или строк исходной матрицы данных. МГК базируется на геометрической интерпретации пространства переменных и состоит в том, чтобы выделить в многомерном пространстве группы тесно коррелирующих между собой переменных и заменить их интегральными индексами (главными компонентами), которые сохранили бы большую часть исходной информации. Другими словами, МГК позволяет заменить набор из k исходных переменных x1, x2 ... xk набором из mновых переменных (главных компонент) y1, y2... ym, причем m << k, и сохранить при этом большую часть исходной информации. Для конструирования главных компонент используется линейная модель в стандартизированных переменных: , (1) где - главная компонента с номером i( i=1,…,m ); - стандартизированнаяисходная переменная (); - оценка среднего,(j=1,…,k)); - коэффициент, отражающий вклад переменной в главную компоненту . Алгоритм МГК состоит из нескольких последовательных этапов. 1. Стандартизация исходных переменных, т.е. переход отисходного пространства переменных , , ... , к пространству стандартизированных переменных , , ... , по формуле вычисления z-оценок: ,(j=1,…,k). Среднее арифметическое стандартизированных переменных равно нулю (), дисперсия и стандартное отклонение равны единице (). Следовательно, стандартизированные переменные , , ..., имеют одинаковую информативность, а суммарный объем заключающейся в них информации равен k(). 2. Линейное преобразование пространствастандартизированных переменных с целью построения нового ортогонального пространства , , ...,. Линейное преобразование осуществляется по формуле ,(i=1,…,k), где - новая переменная с номером i (i=1,…,k); - стандартизированная переменная с номером j (j=1,…,k); - коэффициенты перехода от набора переменных , , ...,к набору переменных , , ...,. Более подробно формулу (1) можно представить в виде системы линейных уравнений: (2) Коэффициенты вычисляются таким образом, чтобы выполнялисьследующие условия: 1) дисперсии новых переменных численно равны собственным значениям исходной матрицы корреляций. Сумма собственныхзначений матрицы корреляций, а следовательно, информация, содержавшаяся в наборе стандартизированных переменных , , ...,, полностью сохраняется в наборе новых переменных , , ...,; 2) переменные , , ..., пронумерованы в порядке убывания дисперсий: ; 3) переменные (i=1,…,k)ортогональны, т. е. не коррелируют друг с другом. Таким образом, получено новое пространство переменных , , ...,, размерность которого совпадает с размерностью исходного пространства. Новое пространство ортогонально, и переменные в нем упорядочены по убыванию дисперсии. Заметим, что средние арифметические новых переменных равны нулю: (i= 1,…,k), а их суммарная дисперсия . 3. Определение числа главных компонент.Суть МГК состоит в том, чтобы сократить размерность пространства переменных посредством «отсечения» некоторого количества наименее информативных переменных с максимальными номерами. Оставшиесяm переменных , , ..., (m<<k) называются главными компонентами. В процессе выделения главных компонент система уравнений (1) сокращается до m уравнений: ,(i= 1,…,m). Очевидно, что сумма дисперсий главных компонент меньше, чем сумма дисперсий исходных переменных (k). Долю сохраненной информации можно определить по формуле. Соответственно доля утраченной информации составляет. Ключевым моментом выделения главных компонент является определение их количества (m). Эта задача не имеет однозначного решения. Можно использовать следующие критерии для определения числа главных компонент. Критерий, основанный на собственных числах матрицы корреляции, заключается в том, чтобы ограничить отбор главных компонент теми переменными , которым соответствуют собственные значения , т. к. их информационная ценность()заведомо выше информационной ценности отсеченных переменных (). Критерий, основанный на доле сохраненной дисперсии, состоит в том, чтобы суммарная дисперсия главных компонент составляла не менее заданной доли исходной суммы дисперсий k. При применении данного критерия рекомендуется использовать накопленные относительные величины собственных значений: ; ; … ; . Таким образом, все подходы к определению количества главных компонент основаны на дисперсии переменных , , ...,, а она, в свою очередь, определяется формальными характеристиками матрицы корреляций - ее собственными значениями , , …, . 4. Представление результатов МГК. Результаты МГК принято представлять в виде матрицы коэффициентов линейных преобразований из формул (1) и (2), которые называются нагрузками на главные компоненты, или факторными нагрузками (табл. 1). Заметим, что нагрузки нумеруются не так, как элементы большинства матриц: первый индекс здесь соответствует номеру столбца таблицы, а второй - номеру строки. Таблица 1 Полная матрица нагрузок Переменная … … … … … … … … … … … … … … Нагрузки на главные компоненты (i =1,…,m; j =1,…,k) выполняют в МГК три функции: 1) используются для определения качества построенной модели; 2) служат коэффициентами корреляции между исходными переменными и главными компонентами и в этом значении используются для интерпретации последних; 3) используются как коэффициенты линейных уравнений (1) при вычислении значений главных компонент. Для определения качества модели используются сохраненная дисперсия и общности, вычисляемые как суммы квадратов нагрузок на главные компоненты (табл. 2). Таблица 2 Показатели качества модели: сохраненная дисперсия и общности Стандартизированные исходные переменные Главные компоненты Общность … … … … … … … … … … Дисперсия … Доля сохраненной дисперсии … - Накопленная доля сохраненной дисперсии … - Сумма квадратов нагрузок по столбцу с номером i равна дисперсии главной компоненты и, соответственно, собственному значению матрицы корреляций: (i=1,…,m). После деления дисперсии на общий объем информации в исходном наборе переменных k получаем долю дисперсии, сохраненной в соответствующей главной компоненте . В последней строке табл. 2 указана накопленная доля сохраненной дисперсии для главных компонент с соответствующими номерами. Сумма квадратов нагрузок по строке с номером jназывается общностью исходной переменной (j =1, … , k) и показывает долю ее дисперсии, сохраненной в m главных компонентах. 5. Интерпретация главных компонент. Матрица нагрузок (см. табл. 1) используется также для интерпретации главных компонент. Поскольку нагрузки являются коэффициентами корреляции между главными компонентами и исходными переменными, для интерпретации используются переменные, имеющие максимальные по абсолютной величине нагрузки. При интерпретации нагрузок различают две основные ситуации: 1) если все значительные по абсолютной величине нагрузки имеют одинаковые знаки, главная компонента называется главной компонентой размера; она показывает степень выраженности у объектов одной латентной характеристики, которую и следует интерпретировать; 2) если значительные по абсолютной величине нагрузки имеют разные знаки, то говорят о главной компоненте формы, которая дифференцируетобъекты из выборки в соответствии с наличием у них двух свойств, в некоторой степени противоположных друг другу. Для облегчения восприятия факторной структуры может применяться графическое представление нагрузок. Для этого в пространстве двух, максимум трех главных компонент стандартизированные исходные переменные , , ...,изображаются в виде точек, в качестве координат используются соответствующие значения нагрузок. 6. Вычисление главных компонент.Наиболее распространенным методом вычисления главных компонент является регрессионное шкалирование, которое заключается в том, что для каждого объекта из выборки в уравнение (1) подставляются стандартизированные значения исходных переменных. Вычисление значений главных компонент фактически приводит к окончательному переходу из исходного пространства переменных в пространство главных компонент[3]. Одним из возможных преимуществ МГК является возможность представить сложные данные физического эксперимента в более простом виде, так чтобы исследователь смог увидеть результаты эксперимента в простой графической интерпретации. В общем случае, если структура данных такова, что в них имеются какие-то группы или кластеры, это видно при исследовании проекций, построенных для первых нескольких компонент. Поэтому при исследовании данных методом МГК особое внимание уделяется графикам нагрузок. Они несут в себе информацию для понимания того, как устроены данные.
×

About the authors

Rauhat T Saifullin

Samara State Technical University

(Dr. Sci. (Techn.)), Professor 244, Molodogvardeyskaya st., Samara, 443100, Russian Federation

Sergey S Aleksandrov

Samara State Technical University

Postgraduate Student 244, Molodogvardeyskaya st., Samara, 443100, Russian Federation

References

  1. Померанцев А.Л. Метод главных компонент [Электронный ресурс]// Российское хемометрическое общество. - 2008. - Режим доступа: http://rcs.chph.ras.ru/
  2. Гаврилина В.А., Сычев С.Н. Исходные гипотезы для распознавания многокомпонентных физико-химических систем комбинацией «высокоэффективная жидкостная хроматография - метод главных компонент»// Сорбционные хроматографические процессы. - 2012. - Т. 12. - Вып. 5. - С. 798-805.
  3. Терещенко О.В., Курилович Н.В., Князева Е.И.Многомерный статистический анализ данных в социальных науках: Учеб. пособие.- Минск: БГУ, 2012. - 239 с.

Statistics

Views

Abstract: 75

PDF (Russian): 33

Dimensions

Article Metrics

Metrics Loading ...

PlumX

Refbacks

  • There are currently no refbacks.

Copyright (c) 2018 Samara State Technical University

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies