MODIFIED MULTIPLY AND ACCUMULATE UNIT TO INCREASING OF DIGITAL FILTERS PERFORMANCE


Cite item

Full Text

Abstract

This paper proposes a modified architecture of the multiply and accumulate units and their application for increasing the performance of digital filters with a finite impulse response. The paper provides a theoretical analysis of the proposed modified multipliers and implements hardware simulation.The theoretical analysis has shown that replacing traditional multiply and accumulate units by modified ones as the basis for the implementation of digital filters can theoretically reduce the filtering time to 29 %. Hardware simulation has shown that modified multiply and accumulate units increase the performance of digital filters by up to 11 % compared to digital filters using traditional multiply and accumulate units by increasing hardware costs. The results of this research can be used in the theory of digital signal processing to solve practical problems, such as noise reduction, amplification and suppression of the frequency spectrum, interpolation, decimation, equalization, etc.

Full Text

Введение Цифровая фильтрация является фундаментом Устройство цифровых фильтров На вход КИХ-ЦФ подается последовательцифровой обработки сигналов, так как она лежит ность отсчетов сигнала X ( N ), формируемая анав основе решения большинства практических за- дач этой области: шумоподавления [1], усиления и подавления спектра частот [2], интерполяции [3], лого-цифровым преобразователем из аналогового сигнала либо поступающая по вычислительной шине из цифрового источника. На выходе КИХдецимации [4], эквализации [5] и многих других. Инструментом реализации цифровой фильтрации являются цифровые фильтры (ЦФ), которые при- ЦФ формируется сигнал формулой K Y ( N ), определяемый нято делить на фильтры с конечной импульсной характеристикой (КИХ-ЦФ) и фильтры с беско- Y ( N )  bi X  N - i , i 0 (1) нечной импульсной характеристикой (БИХ-ЦФ). где bi - коэффициенты фильтра; K - порядок В цифровой схемотехнике существует по- требность в увеличении производительности фильтра. На рисунке 1 изображена схема КИХ-ЦФ. устройств. Обычно выделяют два подхода к Символами z-1 обозначены блоки задержки повышению производительности цифровых устройств: конвейеризация [6] и распараллелисигнала на один отсчет, которые на практике реализуются при помощи буферов. Другими словавание [7]. В данной работе представлен модими, при поступлении на вход блока z-1 сигнала фицированный умножитель с накоплением для X ( N ) на выходе этого блока формируется сигувеличения производительности КИХ-ЦФ. Пронал X ( N -1). Основой схемы, изображенной на изведены теоретический анализ и аппаратное моделирование на FPGA КИХ-ЦФ, содержащих предлагаемые модифицированные умножители с накоплением, а также сравнительный анализ с КИХ-ЦФ, использующими традиционные умно- жители с накоплением. рисунке 1, является повторяющееся выполнение операции умножения с прибавлением к некото- рому промежуточному значению. В современной цифровой обработке сигналов принято объеди- нять эти две операции в один блок - умножитель с накоплением (multiply and accumulate, MAC). Рисунок 1. Схема КИХ-ЦФ порядка K «Infokommunikacionnye tehnologii» 2020, Vol. 18, No. 4, pp. 403-410 битов Gi , генерирующих перенос, битов Pi , передающих перенос, и полусумм го i, 0  i  k -1: Hi , для любо- Gi  Ai & Bi , Pi  Ai  Bi , Hi  Ai  Bi . (3) Вторая стадия сложения, называемая парал- лельно-префиксной сетью, вычисляет сигналы переноса Ci , для 0  i  k -1, c использованием Gi и Pi . Для этого используется оператор , который связывает пары генерирующих и передающих бит и определен как: G, P G ', P '  G  P & G ', P & P '. (4) Рисунок 2. Логическая схема полного сумматора Последовательное вычисление пар генериру- Поскольку для первого блока МАС нет уже имеющих и передающих бит G, P чать как   будем обознающегося сигнала для сложения, на вход, предна- Gi: j , Pi: j , где соответствующая пара значенный для суммирования, подается ноль. вычислена на основе бит i,i -1,..., j следующим образом: Сумматоры Gi: j , Pi: j   Gi , Pi   Gi -1 , Pi -1   ...  Gj , Pj . (5) Базовым устройством при выполнении ариф- метических операций является полный сумматор (full adder, FA) [8], показанный на рисунке 2. На Так как перенос Ci  Gi:0 для всех i  0, то все переносы могут быть вычислены с использова- нием только оператора  [9]. вход устройства поступают биты Ai , Bi и Cin , На третьей стадии вычисляется сумма: которые преобразуются в выходные сигналы Si S0  H0  Cin , Si  Hi  Ci -1 , Sk  Ck -1 (6) и Cout по формулам: Si  Ai  Bi  Cin , Cout   Ai & Bi   Cin &  Ai  Bi . (2) для 0  i  k -1. На рисунке 4 показаны базовые блоки для параллельно префиксного суммирования. Блок 4а реализует формулу (3). Блок 4б реализует Выходной сигнал Si является суммой, а выформулу (4). В блоке 4в не происходит никаких ходной сигнал Cout - переносом, полученным в действий. Блок 5г реализует формулу (6). На полном сумматоре. На рисунке 3 изображен сумматор с сохране- нием переноса (carry save adder, CSA) [8]. Ос- новная идея CSA состоит в преобразовании трех рисунке 5 представлена схема параллельно-пре- фиксного сумматора с организацией параллель- но-префиксной сети по методу Когге - Стоуна. входных векторов входных данных A, B и D в Умножители с накоплением два выходных вектора устройства: сумму S и пе- Рассмотрим реализацию блока МАС для узла ренос C. При этом количество информации для КИХ-ЦФ, соответствующего коэффициенту bi . обработки на последующем шаге сокращается в 1,5 раза. Этот блок должен выполнить вычисления по формуле Другой модификацией сумматоров являют- Yi  bi X  N - i   Yi -1 , (7) ся параллельно-префиксные сумматоры Когге - где Yi - результат текущего блока МАС, а Yi -1 - Стоуна (Kogge-Stone adder, KSA) [9]. Идея параллельно-префиксной реализации реализуется в три последовательных этапа. На первой стадии результат предыдущего блока МАС. Для получения результата по формуле (7) нет необходимости выполнять полностью умножеосуществляется предварительное вычисление ние bi X  N - i , а достаточно лишь использо- Рисунок 3. Логическая схема 8-битного сумматора с сохранением переноса а б в г Рисунок 4. Устройство базовых блоков параллельно-префиксного сумматора: а - блок первой стадии; б, в - блоки второй стадии; г - блок третьей стадии Рисунок 5. Структура 8-битного параллельно-префиксного сумматора Когге - Стоуна вать генератор k частичных произведений, где а выходы этого дерева A и B уже суммировать k  log2 bi  - разрядность коэффициента фильв KSA. MAC-блок, функционирующий по такому тра bi и дерево сумматоров CSA без испольпринципу, представлен на рисунке 6. При помозования окончательного суммирования в KSA. Вместо этого к дереву сумматоров CSA можно щи обозначения ((k + 1):2) показано, что на вход дерева сумматоров CSA подается (k + 1) слагаеподать на вход дополнительное слагаемое Yi -1 , мое, а на выходе формируется два слагаемых. Теоретическая оценка параметров цифрового фильтра, содержащего умножители с накоплением Для теоретической оценки параметров цифро- вых устройств будем использовать абстрактную модель подсчета задержки и площади СБИС, из- вестную как unit-gate модель [10]. Если обозна- чить рассчитанную по указанной модели задержку логического устройства, U delay , а площадь логического устройства Uarea , то будем иметь следующее описание для логических вентилей: U delay  NOT   0, U delay  AND  1, U delay OR  1, U delay  XOR  2, U delay  XNOR  2, Uarea  NOT   0; Uarea  AND  1; Uarea OR  1; Uarea  XOR  2; Uarea  XNOR  2. (8) (9) (10) (11) (12) Рисунок 6. Структура MAC-блока ме задержек и площадей MAC-блоков соответ- Тогда, учитывая формулы (2) и (8)-(12), задержка и площадь FA может быть записана как ственно. Если обозначить вычислительную часть КИХ-ЦФ K-го порядка с k-битными коэффициен- K ,k U delay  FA  4, Uarea  FA  7. (13) тами на основе МАС-блоков через FIRMAC , то Сумматоры CSA состоят из блоков FA (см. ри-  K ,k     1    сунок 3), следовательно, параметры задержки и U delay FIRMAC K U delay MAC (20) площади определяются следующим образом: U delay CSA  U delay  FA  4; (14)  8,8K log2 k  8,8log2 k  5K  5, K ,k Uarea FIRMAC    K  1Uarea  MAC   Uarea CSA  kUarea FA  7k. (15)  3kK log 2 k  3k log2 k  8k 2 K  (21) Для сумматоров KSA при выполнении усло- вия Cin  0, не требующего логической операции  8k 2 - 4kK - 4k  K  1. Анализ формул (20) и (21) показывает, что  вычисления S0 по формуле (6), параметры задержки и площади определяются по формулам U delay  KSA  основную долю задержки и площади ставляют сумматоры KSA. FIR K ,k MAC со-  2  2 log2 k   2  2 log2 k  4, Uarea  KSA  (16) Модифицированные умножители с накоплением Число сумматоров KSA в MAC-блоке можно  4k  3k log2 k  - 2log2 k  -1  2k -1  (17) уменьшить до одного, если использовать итера- тивность схемы на рисунке 1 и принцип функ-  3log2 k  3k  1. Знак приближенного равенства в (16)-(17) озционирования блока МАС на рисунке 6. Выход каждого внутреннего МАС-блока на рисунке 1 начает допущение log2 k   log2 k и не вносит подается на вход дерева сумматоров CSA поникакой погрешности при рассмотрении наи- более распространенных на практике случаев суммирования 8-битных, 16-битных, 32-битных и т. д. чисел. Произведем оценку параметров задержки и пощади блока МАС, представленного на рисунке следующего MAC-блока. Вместо этого на вход дерева сумматоров последующего MAC-блока можно подать слагаемые A и B из предыдуще- го MAC-блока без их суммирования в сумматоре KSA. Будем называть такой блок усеченным ум- ножителем с накоплением (truncated multiply and 6 для наихудшего случая, когда bi вестно. В этом случае имеем: заранее неизaccumulate, TMAC), принцип его работы показан на рисунке 7. На вход каждого ТМАС-блока поступают: сигнал U delay  MAC   8,8log2 k  5; (18) X  N - i , коэффициент фильтра bi и слагаемые Uarea  MAC   3k log2 k  8k 2 - 4k  1. (19) Ai -1 и Bi -1 с выхода предыдущего ТМАС-блока. Задержка и площадь вычислительной части КИХ-ЦФ, показанного на рисунке 1, равны сум- Выходом ТМАС-блока является пара чисел Ai и Bi , которая подается на вход последующего Если обозначить вычислительную часть КИХ- ЦФ K-го порядка с k-битными коэффициентами TMAC на основе ТМАС-блоков через FIRK ,k , то FIR U   K ,k delay TMAC   K  1U delay TMAC   U delay  KSA   6,8K log2 k  8,8log2 k  K  5, (24) FIR U   K ,k area TMAC   K  1Uarea TMAC   Uarea KSA  (25) Рисунок 7. Структура TMAC-блока  3k log2 k  8k 2 K  8k 2  3k  1. ТМАС-блока или суммируется в сумматоре KSA, если данный блок ТМАС является последним в КИХ-ЦФ. Теоретический сравнительный анализ цифровых фильтров MAC Для сравнительного анализа устройств FIRK ,k и K ,k FIRTMAC зафиксируем поочередно параметры Основным отличием блока ТМАС от блока K и k. Рассмотрим сначала случай фильтра 15- МАС является отсутствие сумматора KSA, трего порядка, то есть K  15. Для рассмотренного бующего наибольших затрат задержки и площади, и немного более широкое дерево сумматоров CSA, преобразующих на одно слагаемое больше. На рисунке 8 представлена схема КИХ-ЦФ на случая будем изменять разрядность k, перебирая наиболее популярные форматы данных: 8, 16, 32 и 64 бита. В таблице 1 приведены полученные значения основе блоков ТМАС. На входы первого блока параметров U delay и Uarea для соответствующих ТМАС необходимо подавать два нулевых сигнаустройств. После этого зафиксируем разрядность ла, а выходы AK и BK последнего блока ТМАС k  16 бит и будем перебирать порядки K для необходимо суммировать отдельным сумматором КИХ-ЦФ: 3, 7, 15 и 31. В таблице 2 приведены KSA. полученные значения параметров для соответствующих устройств. U delay и Uarea Теоретическая оценка параметров цифрового фильтра, содержащего модифицированные умножители с накоплением Чтобы описать устройство, изображенное на рисунке 8 в терминах задержки и площади, Анализ данных, полученных в таблицах 1 и 2, показывает, что переход от блоков MAC к блокам TMAC в качестве основы реализации КИХ-ЦФ позволяет теоретически сократить время выпол- нения фильтрации на 22-29 % и уменьшить аппа- ратные затраты на 2-6 %. Аппаратное моделирование найдем сначала параметры ТМАС: U delay и Uarea блока цифровых фильтров U delay TMAC   6,8log2 k  1; (22) Аппаратное моделирование произведено на FPGA Artix xc7a200tffg1156-3 в Xilinx Vivado Uarea TMAC   8k 2 . (23) 18.3 с использованием языка описания аппарату- Задержка и площадь вычислительной части КИХ-ЦФ, показанного на рисунке 5, равны сум- ме задержек и площадей ТМАС-блоков и сумма- тора KSA соответственно. ры VHDL. Целью моделирования было сравнение тех- нических характеристик КИХ-ЦФ, содержащих блоки TMAC, с КИХ-ЦФ, использующими тра- Рисунок 8. Схема КИХ-ЦФ порядка K на основе блоков TMAC MAC Таблица 1. Сравнение устройств FIR15,k и FIR 15,k TMAC с разной разрядностью данных Разрядность данных, k Udelay Uarea FIR15,k MAC FIR15,k TMAC Различие, % FIR15,k MAC FIR15,k TMAC Различие, % 8 502 352 -29,86 8848 8289 -6,32 16 643 463 -27,99 34832 33009 -5,23 32 784 574 -26,79 136720 131649 -3,71 64 925 685 -25,95 538640 525633 -2,41 Таблица 2. Сравнение устройств FIRK ,16 и FIRK ,16 разного порядка MAC TMAC Порядок фильтра, K Udelay Uarea FIRK ,16 MAC FIRK ,16 TMAC Различие, % FIRK ,16 MAC FIRK ,16 TMAC Различие, % 3 161 125 -22,39 8708 8433 -3,16 7 322 238 -26,12 17416 16625 -4,54 15 643 463 -27,99 34832 33009 -5,23 31 1286 914 -28,92 69664 65777 -5,58 MAC Таблица 3. Результаты аппаратного моделирования устройств FIR15,k и FIR 15,k TMAC с разной разрядностью данных Разряд- ность данных, k Максимальная частота, МГц Число LUT Энергопотребление, Вт FIR15,k MAC FIR15,k TMAC Разли- чие, % FIR15,k MAC FIR15,k TMAC Разли- чие, % FIR15,k MAC FIR15,k TMAC Разли- чие, % 8 248 275 10,89 244 271 11,07 0,294 0,274 -6,80 16 130 139 6,92 748 801 7,09 0,301 0,315 4,65 32 68 71 4,41 2298 2637 14,75 0,389 0,396 1,80 64 33 29 -12,12 9585 9645 0,63 0,385 0,376 -2,34 Таблица 4. Результаты аппаратного моделирования устройств FIRK ,16 и FIRK ,16 различного порядка MAC TMAC Порядок фильтра, K Максимальная частота, МГц Число LUT Энергопотребление, Вт FIRK ,16 MAC FIRK ,16 TMAC Разли- чие, % FIRK ,16 MAC FIRK ,16 TMAC Разли- чие, % FIRK ,16 MAC FIRK ,16 TMAC Разли- чие, % 8 140 149 6,43 365 433 18,63 0,265 0,337 27,17 16 138 132 -4,35 488 426 -12,70 0,282 0,331 17,38 32 130 139 6,92 748 801 7,09 0,301 0,315 4,65 64 130 135 3,85 1207 1283 6,30 0,334 0,372 11,38 диционные блоки MAC. Для достижения данной цели было проведено аппаратное моделирование устройств, для которых был проведен теоретиче- ский анализ данных в таблицах 1 и 2. Результаты аппаратного моделирования КИХ-ЦФ, представленные в таблицах 3 и 4, по- казывают, что использование блоков TMAC при реализации КИХ-ЦФ позволяет увеличить такто- вую частоту устройства на 4-11 %, но при этом растут аппаратные затраты: число использован- ных LUT больше на 1-19 %, а энергопотребление на 2-27 %. Разница в теоретических и практических ре- зультатах объясняется особенностями FPGA и недостатком unit-gate модели, который заклю- чается в игнорировании эффектов нагрузочной способности выходов как отдельных логических элементов, так и микросхемы в целом. Заключение В статье представлена модифицированная архитектура умножителя с накоплением TMAC, которая способна увеличить производительность КИХ-ЦФ до 11 %, но требует больше аппаратных затрат по сравнению с традиционными умножи- телями КИХ-ЦФ, использующими традиционные умножители с накоплением MAC. Результаты ис- следования могут быть использованы в теории цифровой обработки сигналов и для решения практических задач, таких как шумоподавление, усиление и подавление спектра частот, интерпо- ляция, децимация, эквализация и др.
×

About the authors

P. A Lyakhov

North-Caucasus Federal University

Email: ljahov@mail.ru
Stavropol, Russian Federation

A. S Ionisyan

North-Caucasus Federal University

Email: asion@mail.ru
Stavropol, Russian Federation

M. V Valueva

North-Caucasus Federal University

Email: mriya.valueva@mail.ru
Stavropol, Russian Federation

A. S Larikova

North-Caucasus Federal University

Email: larikova@gmail.com
Stavropol, Russian Federation

References

  1. Bhaskar P.C., Uplane M.D. FPGA based digital FIR multilevel filtering for ECG denoising // 2015 International Conference on Information Processing (ICIP). Pune, 2015. P. 733-738
  2. Хуако Р.А. Исследование возможности построения одноантенного ретранслятора с коэффициентом усиления больше единицы // Инфокоммуникационные технологии. 2012. Т. 10, № 2. С. 76-80
  3. Porshnev S.V., Kusaykin D.V., Klevakin M.A. On accuracy of periodic discrete finite-length signal reconstruction by means of a Whittaker- Kotelnikov-Shannon interpolation formula // Ural Symposium on Biomedical Engineering, Radioelectronics and Information Technology (USBEREIT). Ekaterinburg, 2018. P. 165-168
  4. An area-efficient column-parallel digital decimation filter with Pre-BWI topology for CMOS image sensor / F. Tang [et al.] // Circuits and Systems I: Regular Papers, IEEE Transactions on (IEEE T CIRCUITS-I). 2018. Vol. 65, no. 8. P. 2524-2533
  5. Modeling of ADC-based serial link receivers with embedded and digital equalization / S. Kiran [et al.] // Circuits and Systems I: Regular Papers, IEEE Transactions on (IEEE T CIRCUITS-I). 2019. Vol. 9, no. 3. P. 536-548
  6. Lakkadi A., DeBrunner L.S. Radix-4 modular pipeline fast Fourier transform algorithm // 51st Asilomar Conference on Signals, Systems, and Computers. Pacific Grove. 2017. P. 440-444
  7. A novel systolic parallel hardware architecture for the FPGA acceleration of feedforward neural networks / L.D. Medus [et al.] // IEEE Access. 2019. Vol. 7. P. 76084-76103
  8. Parhami B. Computer Arithmetic: Algorithms and Hardware Designs. New York: Oxford University Press, 2009. 672 p
  9. Kogge P.M., Stone H.S. A parallel algorithm for the efficient solution of a general class of recurrence equations // IEEE Transaction on computers. 1973. Vol. C-22, no. 8. P. 786-793
  10. Zimmermann R. Binary Adder Architectures for Cell-Based VLSI and Their Synthesis. Konstanz: Hartung-Gorre, 1998. 205 p

Supplementary files

Supplementary Files
Action
1. JATS XML

Copyright (c) 2020 Lyakhov P.A., Ionisyan A.S., Valueva M.V., Larikova A.S.

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies