USING THE PRINCIPAL COMPONENT ANALYSIS FOR SIGNAL PROCESSING IN THE MULTIDETECTOR IMS CHROMATOGRAPHY

Abstract


The process of signal formation in a multichannel chromatographic system is treated. The number of channels is determined either by the number of detectors (gas chromatography) or by the number of wavelengths of spectrometric detector signal (liquid chromatography). The algorithm of multi-channel signals processing using the principal-component method consists of the following stages: registrating chromatographic detector output (multi-channel chromatograms)t; forming a matrix of samples; obtaining the parameters from the matrix samples on the basis of the pair-correlation coefficients analysis and calculation, comparing the parameters, decision- making.

Full Text

Внедрение в исследовательскую практику многопараметрических информационно-измерительных систем (ИИС) на порядок увеличивает объем регистрируемой информации, при этом существенно усложняется анализ полученных данных. Особое место в структуре многопараметрических ИИС занимают приборы, позволяющие регистрировать данные большим количеством датчиков (детекторов) в течение длительного времени. Актуальным при этом является процесс автоматизации анализа и классификации огромного массива полученной информации. Одной из сфер применения подобного рода ИИС являются аналитические измерения. Современные аналитические приборы могут производить огромное количество измерений. Однако из-за мультиколлинеарности доля полезной информации в таком массиве данных может быть относительно невелика. Для выделения значимой информации используются методы сжатия данных, основанные на представлении исходных данных через новые переменные существенно меньшей размерности, чем число исходных переменных. Сжатие данных позволяет представить полезную информацию в более компактном виде, удобном для визуализации и интерпретации. Одним из основных способов сжатия данных является метод главных компонент (МГК) [1]. Заметим, что следует различать главную компоненту (жен. род), определяемую в МГК, и химический компонент (муж. род), присутствующий в исследуемом образце. В первом случае это абстрактная величина, характеризуемая вектором нагрузок; во втором это реальное вещество, имеющее свой спектр. МГК является разновидностью мультикорреляционного анализа и основан на обработке корреляционных матриц большой размерности. При использовании МГК предполагается, что несколько измеряемых переменных сильно коррелируют друг с другом. Это означает, что либо они взаимно определяют друг друга, либо связь между ними обусловливается третьей величиной, которую непосредственно измерить нельзя [2]. Модель главных компонент в большей степени связана с этим предположением и дает возможность получить числовые значения этих третьих величин в виде набора линейно-независимых факторов (ЛНФ), которые описывают и воспроизводят исходную матрицу данных с необходимой точностью. Алгоритм обработки мультиканальных сигналов с использованием МГК состоит из следующих этапов: регистрация многоканальных хроматограмм на выходе хроматографа; формирование на основе многоканальных хроматограмм матрицы отсчетов; получение факторов из матрицы отсчетов; сравнение факторов между собой на основе анализа и расчета коэффициентов парной корреляции. Пусть в результате эксперимента сформирована матрица данных X. Это могут быть, например, многоканальные хроматограммы, регистрируемые на выходах многоволнового детектора на основе диодной матрицы (жидкостная хроматография) [2], либо сигналы на выходах детекторов разного принципа действия, соединенных последовательно или параллельно (газовая хроматография) [3] (см. рисунок). Число каналов определяется либо числом используемых детекторов, либо числом длин волн, на которых регистрируются выходные хроматографические сигналы. ИИС для мультидетекторной хроматографии с параллельно подключенными детекторами представлена на рис. а, с последовательно подключенными детекторами - на рис. б. Автоматический пробоотборник подает в поток газа-носителя определенное количество анализируемой смеси. В хроматографической колонке осуществляется разделение смеси на отдельные составляющие компоненты, попадающие в детектор. Детектор регистрирует присутствие веществ, отличающихся по физическим или физико-химическим свойствам от газа-носителя, и преобразует возникающие изменения в электрический сигнал. Используют следующие типы детекторов: ПИД - пламенно-ионизационный детектор, ДТП - детектор по теплопроводности (катарометр), ЭЗД - электронно-захватный детектор, ПФД - пламенно-фотометрический детектор, ТИД - термоионный детектор, ФИД - фотоионизационный детектор. Детекторы могут объединяться в аналитическом модуле в различных комбинациях. Далее происходит нормировка и аналого-цифровое преобразование полученного сигнала. В мультидетекторном хроматографе выходные сигналы детекторов поступают на вход АЦП через мультиплексор, который осуществляет циклический поочередный опрос всех каналов хроматографа. Для каждого из детекторов ПК формирует зависимости сигнала от времени (хроматограммы). Сигнал каждого из детекторов с номерами (М - общее число детекторов) представляется в виде совокупности дискретных отсчетов, взятых в моменты времени с номерами , где N - общее число отсчетов. Тогда в векторной форме сигнал может быть представлен как , где - значение сигнала в момент времени с номером ; - значение m-й компоненты сигнала в указанный момент времени, ; T - знак транспонирования. П К … АЦП ПК Д 2 управление Д 1 Д M Р М П К Д 1 Д М Д 2 б а управление М АЦП ПК ИИС для мультидетекторной хроматографии: а - параллельное подключение детекторов; б - последовательное подключение детекторов; П - автоматический пробоотборник, К - колонка, Р - распределитель (делитель потока), Д1-ДМ - детекторы, М - мультиплексор, АЦП - аналого-цифровой преобразователь, ПК - персональный компьютер Таким образом, зарегистрированные хроматограммы могут быть представлены в виде матрицы отсчетов X. Например, при средней длительности хроматограммы 17,05 мин, интервале дискретизации с, использовании 8 детекторов (M=8) формируется матрица Х размера (8×1024). В терминах МГК для матрицы исходных данных Х размерностью M×N M - число образцов (число объектов наблюдения), N - число переменных. Исходная матрица данных Х подвергается предварительной обработке, которая включает операции центрирования и нормирования. Тогда для матрицы Z центрированных и нормированных значений переменных элементы матрицы Z вычисляют по формуле , где - m-е значения n-й компоненты вектора , ; ; - оценка математического ожидания компонент вектора : , - оценка среднеквадратического отклонения компонент вектора : . МГК заключается в нахождении для исходных данных такого их ортогонального преобразования в новую систему координат, для которого выполняются следующие условия: - выборочная дисперсия данных максимальна вдоль первой координаты; - выборочная дисперсия данных вдоль k-й координаты максимальна при условии ортогональности первым (k-1) координатам. Следовательно, направления базисных векторов будут выбраны так, что коэффициент ковариации между проекциями исходного набора данных на различные координатные оси будет равен нулю. В векторной форме проекция многоканального хроматографического сигнала на главные компоненты может быть представлена в виде , где Z - исходный многоканальный сигнал (центрированный и нормированный) размерности (M×N); A - матрица преобразования размерности (K×M) (матрица нагрузок); Y - некоррелированный многомерный временной ряд (размерности (K×N)), представляющий собой проекцию исходного сигнала на K главных компонентов. Процедура построения матрицы A включает в себя следующие шаги. 1. Для исходного многоканального хроматографического сигнала Z производится расчет ковариационной матрицы . Элементы ковариационной матрицы определяются как , , где и - строки матрицы Z. 2. Осуществляется поиск собственных значений и собственных векторов ковариационной матрицы C. 3. Матрица преобразования А формируется из первых K собственных векторов , расположенных в порядке убывания соответствующих собственных значений ковариационной матрицы C: , где , . МГК работает как фильтр: сигнал содержится в основном в проекции на первые главные компоненты, а в остальных компонентах пропорции шума намного выше. Оценку числа главных компонентов будем производить по правилу «сломанной трости» [4]. Набор нормированных собственных чисел , ( - след матрицы C) сравнивается с распределением длин обломков трости единичной длины, сломанной в (M-1)-й случайно выбранной точке (точки разлома выбираются независимо и равнораспределены по длине трости). Пусть () - длины полученных кусков трости, занумерованные в порядке убывания длины: . Математическое ожидание . По правилу сломанной трости K-й собственный вектор (в порядке убывания собственных чисел ) сохраняется в списке главных компонент, если . Сравнение многокомпонентных хроматограмм, соответствующих анализируемым образцам, осуществляется путем сравнения наборов расчетных ЛНФ с помощью матрицы коэффициентов корреляции ЛНФ исследуемых образцов и контрольного образца. Основным показателем сходства или различия факторов при их сравнении может быть выбран коэффициент корреляции. Пусть сравниваются факторы и . Коэффициент корреляции показывает, являются ли сравниваемые величины линейно зависимыми, т. е. справедливость выполнения уравнения , (1) где и - сравниваемые факторы, a и b - некоторые коэффициенты. Чем меньше коэффициент корреляции, тем менее похожи сравниваемые объекты; чем больше - тем более похожи. Согласно Джаффе [5] корреляция считается удовлетворительной, если ; хорошей, если , и отличной при . При уравнение (1) можно считать аналитической зависимостью. Исходные матрицы мультидетекторных хроматограмм обычно описываются тремя-четырьмя ЛНФ. Максимальный вклад четвертого, пятого факторов, как правило, находится на уровне ошибок проведения хроматографического эксперимента. При идентификации образцов целесообразно ограничиться числовыми значениями первых трех факторов. Таким образом, критерием идентичности образца являются коэффициенты парной корреляции, соответствующие данному образцу факторов . Полностью идентичными образцами можно считать образцы, для которых коэффициенты парной корреляции факторов не ниже 0,99; не ниже 0,98; не ниже 0,96. Пусть в результате эксперимента получены факторы , , для первого образца и факторы , , для второго образца. Пусть коэффициенты корреляции факторов, полученные для этих двух образцов, имеют значения, представленные в таблице: Значения коэффициентов парной корреляции Фактор 1,000 0,000 -0,220 0,996 -0,015 -0,125 0,000 1,000 -0,305 -0,012 0,984 -0,184 -0,220 -0,305 1,000 -0,270 -0,471 0,960 0,996 -0,012 -0,270 1,000 -0,015 -0,180 -0,015 0,984 -0,471 -0,015 1,000 -0,358 -0,125 -0,184 0,960 -0,180 -0,358 1,000 Следовательно, коэффициенты парной корреляции соответствующих факторов таковы: коэффициент корреляции между факторами и равен 0,996; между факторами и равен 0,984; между факторами и равен 0,960. Значения этих коэффициентов могут быть использованы для выявления идентичности образцов. Критерии сходства могут быть установлены по Джаффе: похожими считаются образцы, для которых коэффициенты парной корреляции соответствующих факторов выше 0,94.

About the authors

Rauhat T Saifullin

Samara State Technical University

244, Molodogvardeyskaya st., Samara, 443100, Russia
(Dr. Sci. (Techn.)), Professor.

Sergey S Aleksandrov

Samara State Technical University

244, Molodogvardeyskaya st., Samara, 443100, Russia
Postgraduate Student.

References

  1. Померанцев А.Л. Метод главных компонент // Российское хемометрическое общество. - 2008 [Электронный ресурс]. - Режим доступа: http://rcs.chph.ras.ru/
  2. Гаврилина В.А., Сычев С.Н. Исходные гипотезы для распознавания многокомпонентных физико-химических систем комбинацией «высокоэффективная жидкостная хроматография - метод главных компонент» // Сорбционные хроматографические процессы. - 2012. - Т. 12. - Вып. 5. - С. 798-805.
  3. Сайфуллин Р.Т., Александров С.С. Определение качественного и количественного состава компонентов сложных смесей с использованием мультидетекторного хроматографа // Вестник Самарского государственного технического университета. Сер. Технические науки. - 201. - № 4 (40). - С. 77-83.
  4. Cangelosi R., Goriely A. Component retention in principal component analysis with application to DNA microarray data // Biology Direct. - 2007. - 2:2 [Электронный ресурс]. - Режим доступа: http://biology-direct.com/content/2/1/2
  5. Jaffe H.H. Reexaminatio of the Hammett equation // Chem. Rev., 1953. - V. 53. - № 2. - p. 191-254.

Statistics

Views

Abstract - 39

PDF (Russian) - 8

Cited-By


Article Metrics

Metrics Loading ...

PlumX

Dimensions

Refbacks

  • There are currently no refbacks.

Copyright (c) 2015 Samara State Technical University

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies