Smoothing of chromatographic signals by their approximation in the basis of Chebyshev-Hermite functions

Abstract

The paper deals with assessing the scope of the approximation algorithm for smoothing chromatographic signals. The algorithm is based on Chebyshev-Hermite functions. For approximation, an algorithm is used that implies the calculation of the shift and scale factors for the basis functions, as well as the division of the signal into fragments. The smoothing error of the model signal is considered when it is approximated in the selected basis in comparison with the digital moving average filter. The error of smoothing the derivative of the signal and the position on the derivative of extremums is also investigated, a comparison is made, as in the previous case, with a digital moving average filter. As part of an experimental study, the nine most characteristic chromatographic peaks extracted from real chromatograms are processed in the work. To assess the quality of smoothing, the standard deviation of the noise and the residual are compared, and the distribution law of the residual is determined. According to the results of the study, restrictions are set on the maximum allowable value of the asymmetry coefficient of the processed chromatographic peaks. Thanks to the use of the chosen approximation approach, it is possible to solve the problem of smoothing chromatographic signals without attenuating the useful component. The computer algebra system Wolfram Mathematica 11.3 was used for calculations and graphical presentation of the simulation results.

Full Text

Введение

Одной из задач обработки хроматографических сигналов является сглаживание или подавление помехи. На практике сглаживание чаще всего реализуют различными цифровыми фильтрами. Проблемой цифровой фильтрации является тот факт, что частотный спектр пиков хроматограммы, как правило, частично совпадает со спектром помехи и вместе с подавлением помехи происходит ослабление полезной составляющей, приходится либо снижать сглаживающие свойства фильтра, либо пытаться восстановить потерянную при сглаживании информацию [1]. Фильтр Савицкого – Голея решает проблему ослабления полезной составляющей, но осуществляет сглаживание менее эффективно, причем степень сглаживания зависит от подхода к расчету параметров фильтра [2]. Фильтр Калмана имеет лучшие сглаживающие свойства, чем фильтр Савицкого – Голея, но подразумевает существенную зависимость от формы шума, выходной сигнал фильтра может иметь фазовые и прочие нелинейные искажения [3, 4]. Сплайн-фильтры эффективно подавляют помеху с учетом гладкости полезного сигнала и при сравнении превосходят фильтр Калмана, но имеют значительную зависимость погрешности от метода расчета коэффициентов сплайна [4–6]. Фильтр Винера также эффективно сглаживает пики хроматограммы, но вызывает осцилляции, обусловленные краевыми эффектами; трудностью являются одновременно хорошее сглаживание и низкие осцилляции [3]. Таким образом, актуальным является вопрос разработки нового математического метода сглаживания хроматографических сигналов.

В настоящей работе для создания такого метода предлагается воспользоваться аппроксимацией сигналов в базисе функций Чебышева – Эрмита (за рубежом просто Эрмита). При этом из коэффициентов аппроксимации в данном базисе возможно восстановить по другим, предварительно рассчитанным базисам не только сам сигнал [7], но и его производную различных порядков [7, 8], вейвлет-преобразование [9, 10] и т. п. Функции Чебышева – Эрмита находят широкое применение в науке и технике. Разложение по данным функциям используется для аппроксимации двухмерных [11] и одномерных [12] сигналов и аналитически заданных функций, обработки файлов мультимедиа форматов, в частности для выделения границ зашумленного изображения [13], биометрической идентификации по изображению радужки глаза человека [14], фильтрации и поиска изображения по базе данных, индексации говорящего по записи голоса [15], извлечения полезной медицинской информации из изображений компьютерной томографии [16] и распознавания речи [17]. Помимо этого, данные функции используются для построения банка фильтров [18], диагностики состояния оборудования [19] и здоровья человека [20], обнаружения полезных составляющих в сигнале [21], а также для решения дифференциальных уравнений [22, 23].

Аппроксимация сигналов в базисе функций Чебышева – Эрмита

Функции Чебышева – Эрмита определяются следующим образом:

φnx=1αnex22Hnx, (1)

где αn=2nn!π – нормирующая константа; Hnx – полином Эрмита n-го порядка;

Hnx=1nex2dnex2dxn. (2)

Набор функций φnx (1) задает базис для кодирования и декодирования сигналов. Представление сигнала fx с помощью N+1 функций разложения (алгоритм кодирования) заключается в нахождении коэффициентов cn. В силу локализации функций Чебышева – Эрмита нахождение данных коэффициентов можно свести к формуле:

cn=τnτnfxφnxdx, n=0,1,,N, (3)

где τn,τn – отрезок, на котором локализована функция φnx.

Алгоритм декодирования с помощью N+1 коэффициентов, в результате которого восстанавливается аппроксимированный сигнал, выражается формулой:

f^(x)=n=0Ncnφnx. (4)

Описанный алгоритм кодирования-декодирования обладает сглаживающим свойством [18] и позволяет получить не только сглаженный сигнал, но также и его сглаженную производную k порядка при наличии соответствующего базиса. Формируя различные базисы перехода от коэффициентов разложения (4) к различным преобразованиям, можно получить универсальный аппарат для быстрого получения также коэффициентов непрерывного вейвлет-преобразования, устранения аппаратной функции прибора и т. д. Для восстановления необходимого преобразования сигнала требуется заменить в (4) φnx на соответствующее преобразование данной функции и вычислить полученную формулу относительно рассчитанных для исходного сигнала коэффициентов разложения (4) [7].

Одной из отличительных черт функций Чебышева – Эрмита является их локализация на временной оси. Данное обстоятельство может создать трудности при кодировании сигналов большой длительности – даже при простой их конфигурации (6 и менее точек перегиба) для кодирования в рассматриваемом базисе потребуются функции высоких порядков, вычисление которых затруднительно; трудность вычисления только нарастает с ростом порядка функции.

Очевидным решением является масштабирование функций Чебышева – Эрмита на некоторый коэффициент γ. Помимо этого наилучших результатов кодирования можно достичь, если положение максимума в сигнале будет совпадать с началом координат базисных функций, что обусловлено наибольшим перекрытием областей локализации исследуемого сигнала и базисных функций. Следовательно, требуется ввести и коэффициент сдвига для данных функций, в настоящей работе обозначенный как x0. Тем самым формируется новый базис функций φnxx0γ. Для восстановления нормировки базиса был рассчитан коэффициент 1/γ, на который умножается и результат кодирования, и результат декодирования. Тем самым можно вынести множитель 1/γ в выражение для вычисления коэффициентов кодирования, которое при этом следует записать:

cn=1γτnτnfxφnxx0γ dx. (5)

С учетом описанных масштабных коэффициентов был разработан алгоритм аппроксимации сигналов в базисе функций Чебышева – Эрмита (рис. 1). Помимо вычисления коэффициентов масштаба и сдвига в ходе данного алгоритма происходит деление сигнала на фрагменты, что снижает погрешность аппроксимации [24].

 

Рис. 1. Алгоритм аппроксимации

 

Для решения различных задач первичной обработки в хроматографии используются сглаженные производные хроматографических сигналов. Как было сказано выше, при аппроксимации сигналов в базисе функций Чебышева – Эрмита можно аппроксимировать также преобразования этого сигнала; для получения производной требуется вычислить производную функций Чебышева – Эрмита, получив выражение

dkφnxx0γdxk=1γkm=0mink,nCkm1km2mn!nm!Hekmxx0γφnmxx0γ, (6)

которое задает базис производной k порядка n-й функции Чебышева – Эрмита с учетом масштаба γ и сдвига x0 и может быть использовано для восстановления k-й сглаженной производной исходного сигнала по рассчитанным заранее коэффициентам разложения в базисе Чебышева – Эрмита, если вынести за знак суммы нормировочный коэффициент:

dkf^(x)dxk=1γkn=0Ncndkφnxx0γdxx0γk, (7)

где dkf^(x)dxk – оценка k-й сглаженной производной сигнала f(x); cn – коэффициенты кодирования (5) сигнала f(x) в базисе функций Чебышева – Эрмита.

Подавление случайной помехи

Аппроксимация сигналов в базисе функций Чебышева – Эрмита обладает сглаживающими свойствами, что позволяет устранять случайную помеху. На рис. 2 представлен пример сглаживания реального хроматографического сигнала c предварительным его делением на фрагменты по алгоритму рис. 1. Начальный и конечный фрагменты классифицируются как шум, поэтому на рис. 2 данные области обнулены.

 

Рис. 2. Пример сглаживания хроматографического сигнала

 

Для оценки эффективности устранения помехи относительно описанных в первой главе методов было произведено сравнение результата декодирования сглаженного сигнала по коэффициентам базиса функций Чебышева – Эрмита со сглаженным сигналом, полученным при использовании наиболее распространенного на практике метода сглаживания – фильтра скользящего среднего:

LkN=1Nk=0,5N10,5N1ςi,kSik, (8)

где

ςi,k=1, если i-k>0i-kM,иначе 0, (9)

N – порядок фильтра (только нечетное число); Δx – интервал дискретизации сигнала.

При исследованиях был задан сигнал S, полученный дискретизацией пика, заданного выражением

ft=Aetμ22σ2, (10)

где A – амплитуда пика; µ – время удерживания пика; σ – среднеквадратичная ширина пика [25].

На полученный сигнал накладывалась сгенерированная псевдослучайная помеха с нормальным законом распределения и различным СКО помехи σ. При разных σ достигалось разное отношение сигнал/шум (ОСШ):

ОСШ=20lgSСКЗnСКЗ, (11)

где SСКЗ – среднеквадратическое значение сигнала; nСКЗ – среднеквадратическое значение помехи.

Оценка погрешности сглаженного сигнала производилась по выражению

δ=maxS^iSimaxSi100%, (12)

где S^ – сглаженный сигнал; S – исходный сигнал до наложения помехи; S^iSi – разность i-х значений сглаженного и исходного сигналов.

На рис. 2 данное сравнение представлено в виде графиков, где а – сглаживание с применением цифрового фильтра N порядка, б – путем восстановления сигнала по коэффициентам кодирования N порядка (максимальный порядок функции) в базисе функций Чебышева – Эрмита.

По рис. 3, б можно видеть, что при больших значениях ОСШ цифровой фильтр малого порядка обеспечивает низкую погрешность δ<1%, но со снижением ОСШ повышение порядка не дает снижения погрешности, поскольку, как было сказано в первой главе, вместе с помехой происходит ослабление полезной составляющей. Для сглаживания в базисе функций Чебышева – Эрмита видна иная картина – по достижении минимально необходимого порядка (в данном случае – N=8) обеспечивается δ<1% и со снижением ОСШ погрешность растет значительно медленнее, чем при использовании цифрового фильтра.

 

Рис. 3. Сравнение сглаживания с цифровым фильтром

 

Поскольку помимо самих сигналов сглаживание требуется (и в большей степени) при вычислении их производных, для того же S была оценена погрешность вычисления производных первого и второго порядка относительно численно определенной производной [26] по сглаженному цифровым фильтром сигналу. Для оценки погрешности использовалось выражение (12) с заменой сигнала на его производную (как в случае исходного, так и в случае сглаженного сигнала). Результаты представлены на рис. 4, где а и в – соответственно первая и вторая производные, полученные численно по сглаженному цифровому сигналу, б и г – восстановленные по базису (7) сглаженные производные.

По данному рисунку можно видеть, что применение цифрового фильтра не позволяет обеспечить погрешность δ<50% для обеих производных даже при больших значениях ОСШ, а с его уменьшением ситуация меняется только в сторону ухудшения. Увеличение порядка фильтра не дает существенных результатов, позволяя вернуться лишь к начальному значению погрешности δ50%. Применение сглаживания в базисе функций Чебышева – Эрмита дает иные результаты: при достижении минимально необходимого порядка (в данном случае – N=8) обеспечивается δ<1% для обеих производных, но при снижении ОСШ погрешность возрастает до δ10%.

 

Рис. 4. Сравнение погрешности восстановления производной

 

Тем не менее для производной имеет значение не только погрешность аппроксимации (см. рис. 4), но и погрешность положения экстремумов, по которым производится определение положения вершины и границ пиков. Поэтому ниже рассматривается погрешность восстановления экстремумов производных первых двух порядков с применением цифрового фильтра и базиса функций Чебышева – Эрмита, для чего используется выражение

δ=exS^nexSnexSn100%,

где ex – функция для вычисления положения экстремума; S^n – восстановленная по функциям Чебышева – Эрмита производная n порядка; Sn – полученная при цифровой фильтрации производная n порядка.

В качестве экстремумов рассматриваются наиболее применяемые на практике точки: положение прохода через ноль для первой производной и положение минимума второй производной [1]. Результаты представлены на рис. 5.

 

Рис. 5. Сравнение погрешности восстановления экстремумов производных

 

Можно видеть, что применение цифровой фильтрации позволяет сохранить положение экстремумов при достижении определенного N (при котором согласно рис. 5 возрастает погрешность аппроксимации производной) с δ<5% для первой производной и с δ<10% для второй. Восстановление сглаженной производной в базисе функций Чебышева – Эрмита при достижении N=8 обеспечивает для большинства значений ОСШ близкую к нулю погрешность, которая на малых его значениях растет до δ<3% для первой производной и δ<5% для второй. Таким образом, подавление помехи в используемом базисе обеспечивает снижение погрешности относительно традиционного метода.

Погрешность восстановления одиночных пиков

Для оценки погрешности представленного метода были аппроксимированы пики реальных хроматограмм. Хроматограммы были извлечены из программы Хроматэк Аналитик 3.1. Все они были получены на хроматографе Кристалл-5000 с пламенно-ионизационным детектором.

Из полученных хроматограмм были извлечены 9 наиболее характерных пиков, конфигурация которых наиболее часто встречается в реальных хроматограммах (рис. 6). Многие пики на практике близки по форме к гауссиане, но с небольшой разницей в крутизне фронтов; при выборе пиков для обработки были собраны наиболее часто встречаемые асимметричные конфигурации, которые, как правило, являются одиночными. Для оценки зависимости погрешности отличия пика от симметричной гауссианы (как наиболее простой для обработки модели) был использован метод моментов, на основе которого вычислялись коэффициенты асимметрии γ1 и эксцесса γ2 [27]:

m0=Δxi=1MSi, m1=Δx2m0i=1MSii1, mn=Δxm0i=1MSii1Δxm1n, n>1,

γ1=m3m23/2, γ2=m4m223.

 

Рис. 6. Исследуемые реальные пики

 

Для оценки эффективности сглаживания проведена проверка закона распределения шума остатка, являющегося разностью исходного и аппроксимированного в базисе функций Чебышева – Эрмита сигналов (при отсутствии существенных отклонений аппроксимированного сигнала от действительного закон распределения остатка должен совпадать с законом распределения помехи и быть нормальным). Эффективность сглаживания также оценена численно посредством сравнения СКО шума в пустой области исходного сигнала и СКО озвученного остатка, а также по закону распределения остатка.

Результаты приведены в таблице. Закон распределения помехи в пустых областях исходных сигналов совпадает с законом распределения остатка. Математическое ожидание равно нулю во всех случаях, поэтому в таблице не приводится. Почти для всех рассматриваемых сигналов помеха описывается нормальным законом, для других – законом Коши или логистическим законом, которые отличны от нормального плавностью фронтов, но приближенно являются сопоставимыми с нормальным. Гистограммы распределения помехи для некоторых сигналов приведены на рис. 7.

 

Разделение симметричных пиков

Пик

γ1

γ2

СКО шума сигнала

СКО остатка

Закон распределения

шума сигнала

№ 1

0,10

0,42

1,72∙10-2

1,47∙10-2

Нормальный

№ 2

–0,69

–3,59

1,54∙10-2

1,76∙10-2

Нормальный

№ 3

0,79

1,02

1,50∙10-2

1,59∙10-2

Нормальный

№ 4

0,96

0,41

1,97∙10-2

1,57∙10-2

Нормальный

№ 5

0,97

0,78

1,71∙10-2

1,44∙10-2

Нормальный

№ 6

1,34

3,83

0,91∙10-1

1,14∙10-1

Нормальный

№ 7

1,53

3,38

1,39∙10-2

1,79∙10-2

Нормальный

№ 8

1,86

3,85

1,55∙10-2

3,18

Коши

№ 9

2,37

8,78

4,70∙10-2

6,35∙10-1

Логистический

 

Рис. 7. Гистограммы распределения помехи: а, б – для пика № 8, распределение Коши; в, г – для остатка хроматограммы, нормальное распределение; д, е – для пика № 9, логистическое распределение

 

Выводы

Анализируя результаты, приведенные в таблице, можно видеть, что СКО шума совпадает порядком с СКО остатка во всех случаях, кроме пиков 8 и 9. Поскольку согласно рис. 6 помеха имеет существенно меньшую амплитуду по сравнению с полезным сигналом, можно положить, что совпадение порядков СКО шума и остатка говорит о низкой погрешности сглаживания. Следовательно, конфигурации пиков, подобных номерам 8 и 9, не могут быть аппроксимированы с достаточно низкой погрешностью, что является ограничением представленного метода. Соответственно предельным значением асимметрии для аппроксимированных одиночных пиков можно считать наибольшую асимметрию в таблице, не считая параметров пиков 9 и 10, γ1max=1,53, а влияния γ2 на качество аппроксимации не выявлено. С учетом сравнения качества сглаживания сигнала при использовании предложенного аппроксимационного метода и цифрового фильтра можно заключить, что аппроксимационный подход позволяет совместить высокую степень сглаживания и низкую погрешность.

×

About the authors

Andrey V. Bochkarev

Samara State Technical University

Email: bochkarevpubliciit@gmail.com
ORCID iD: 0000-0003-1615-5659

Postgraduate Student

Russian Federation, 244, Molodogvardeyskaya st., Samara, 443100

Raukhat T. Sayfullin

Samara State Technical University

Author for correspondence.
Email: bochkarevpubliciit@gmail.com
SPIN-code: 4594-4229

Professor

Russian Federation, 244, Molodogvardeyskaya st., Samara, 443100

References

  1. Felinger A. Data Analysis and Signal Processing in Chromatography / A. Felinger. – Amsterdam, Netherlands: Elsevier Science B.V., 1998. 413 p.
  2. Savitzky A. Smoothing and Differentiation of Data by Simplified Least Squares Procedures / A. Savitzky, M.J.E. Golay // Anal. Chem. 1964. Vol. 36. P. 1627–1639.
  3. Kalman R.E. A New Approach to linear Filtering and Prediction Problems // Trans ASME, Series D, J. BasicEng. 1960. Vol. 82. P. 35–45.
  4. Gutorov A.S. Mathematical modeling and research of filtering algorithms for trajectory processing of data by goals // Automation of management processes. 2015. No. 1(39). P. 34–40.
  5. Lange P.K. Spline approximation of discrete values of signals using digital filtering methods // Bulletin of the Samara State Technical University. Series "Physical and mathematical sciences". 2003. Issue 18. P. 87–93.
  6. Spiridonov A.V., Time I.V. Application of smoothing splines for filtering highly noisy signals // Avtomat. and telemech. 1998. 7. P. 75–82.
  7. Saifullin R.T., Bochkarev A.V. Use of Chebyshev-Hermite functions in signal processing of analytical instruments // Bulletin of the Samara State Technical University. Series "Technical Sciences". 2019. 1(61). P. 68–81.
  8. Saifullin R.T., Bochkarev A.V. Calculation of derivatives of an analytical signal in the basis of Che-byshev-Hermite functions // Proceedings of the XI All-Russian Scientific Conference with international participation "Mathematical modeling and boundary value problems", May 27-30, 2019, Samara. Samara, 2019. V. 2. P. 137–139.
  9. Saifullin R.T., Bochkarev A.V. Calculation of continuous wavelet transform of signals in the basis of Chebyshev-Hermite functions // Bulletin of the Samara State Technical University. Series "Technical Sciences". 2019. 2 (62). P. 99–113.
  10. Saifullin R.T., Bochkarev A.V. Algorithm for calculating the coefficients of the wavelet transform of signals using the basis of the Chebyshev-Hermite functions // Bulletin of the Samara State Technical University. Series "Technical Sciences". 2019. 4(64). P. 113–124.
  11. Beliczynski B. A method of multivariable Hermite basis function approximation // Neurocomputing. 2012. Vol. 96. P. 12–18.
  12. Jung S.-M. Approximation of analytic functions by Hermite functions // Bulletin des Sciences Mathématiques. 2009. Vol. 133, 7. P. 756–764.
  13. Najafi M.M. Projection method for solving some problems of image processing and analysis: specialty 05.13.18 "Mathematical modeling, numerical methods and software packages": thesis for the degree of candidate of physical and mathematical sciences. Moscow State University M.V. Lomonosov. Moscow, 2004. 110 p.
  14. Paveleva E.A. Analysis and restoration of images by projection methods using Hermite functions: specialty 05.13.18 "Mathematical modeling, numerical methods and software packages": dissertation for the degree of Candidate of Physical and Mathematical. Moscow State University M.V. Lomonosov. Moscow, 2015. 130 p.
  15. Korchagin D.N. Fast projection method for processing multimedia information: specialty 05.13.18 "Mathematical modeling, numerical methods and software packages": dissertation for the degree of candidate of physical and mathematical sciences. Moscow State University M.V. Lomonosov. Moscow, 2005. 180 p.
  16. Mamaev N.V., Lukin A.S., Yurin D.V., Glazkova M.A., Sinitsin V.E. Algorithm of non-local average based on expansion in terms of Ermit functions in problems of computed tomography // GRAFIKON'2013. Proceedings of the 23rd International Conference on Computer Graphics and Vision, September 16-20, 2013, Vladivostok. Vladivostok, 2013. P. 254–258.
  17. Bayakovsky Yu.M., Zhirkov A.O., Korchagin D.N., Krylov A.S., Lukin A.S. Neural network analysis and comparison of time-frequency vectors based on short-term spectral representation and adaptive Hermite transform // Preprints IPM them. M. V. Keldysh. 087. 2001.
  18. Balakin D.A., Shtykov V.V. Construction of an orthogonal filter bank based on Ermit's transformations for signal processing // Journal of radio electronics. 2014. 9. P. 1–15.
  19. Balakin D.A., Shtykov V.V. Diagnosis of cyclic systems using an algorithm based on Gauss-Hermite functions // Digital signal processing. 2018. 2. P. 59–62.
  20. Balakin D.A., Shtykov V.V., Churkin S.S. The use of the phase-metric complex of the EHF range for the diagnosis of human life // Electronics and microwave microelectronics. 2017. V. 1. P. 127–132.
  21. Balakin D.A., Churkin S.S., Shtykov V.V. Detection of signals using the orthogonal basis of Gauss-Hermite functions // Infocommunication and radio-electronic technologies. 2018. V. 1(1). P. 48–61.
  22. Yaremko N.N. Hermite functions with discontinuous coefficients and their applications for solving inverse problems of heat conduction // Proceedings of the Penza State Pedagogical University. V.G. Belinsky. 2011. 26. P. 326–330.
  23. Paranda K., Dehghanb M., Rezaei A.R., Ghaderi S.M. An approximation algorithm for the solution of the nonlinear Lane–Emden type equations arising in astrophysics using Hermite functions collocation method // Computer Physics Communications. 2010. Vol. 181(6). P. 1096–1108.
  24. Saifullin R.T., Bochkarev A.V. Algorithm for determining the position of the boundaries of chromatographic peaks in the signals of analytical devices // Youth and science: a step to success: collection of scientific articles of the 5th All-Russian scientific conference of promising developments of young scientists (March 22-23, 2021), in 4 volumes. 2021. V. 3. P. 200–204.
  25. Gurevich A.L., Rusinov L.A., Syagaev N.A. Automatic chromatographic analysis. L.: Chemistry, 1980. 192 p.
  26. Slabnov V.D. Numerical methods. St. Petersburg: Lan, 2020. 392 p.
  27. Misra S., Wahab M., Patel D. The utility of statistical moments in chromatography using trapezoidal and Simpson's rules of peak integration // Journal of Separation Science. 2019. Vol. 42. doi: 10.1002/jssc.201801131

Supplementary files

Supplementary Files
Action
1. JATS XML
2. Fig. 1

Download (140KB)
3. Fig. 2

Download (40KB)
4. Fig. 3

Download (87KB)
5. Fig. 4

Download (204KB)
6. Fig. 5

Download (188KB)
7. Fig. 6

Download (114KB)
8. Fig. 7

Download (97KB)

Copyright (c) 2022 Samara State Technical University

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies