SAS Enterprise Guide 6.1 for physicians: getting started

Cover Page


Cite item

Full Text

Abstract

Objective. To develop algorithm of data analysis of prospective non-randomized clinical trial AMIRI–CABG (ClinicalTrials.gov Identifier: NCT03050489) using SAS Enterprise Guide 6.1.

Materials and methods. Data collection was performed according prospective non-randomized clinical trial AMIRI–CABG in Pavlov First Saint Petersburg State Medical University, Saint Petersburg, Russia between 2016–2019 years with 336 patients. There is database with clinical, laboratory and instrumental data. Statistical analysis was performed with SAS Enterprise Guide 6.1.

Results. There was developed algorithm of data analysis of prospective non-randomized clinical trial AMIRI–CABG. This algorithm could be useful for physicians and researchers for data analysis.

Conclusion. Presented algorithm of data analysis could make easier and improve efficient data analysis. SAS Enterprise Guide 6.1 allows fast and accurate process big data.

Full Text

Введение

В повседневной работе врачи и ученые сталкиваются с задачами анализа данных. С развитием науки и техники требования, предъявляемые к методологии и принципам проведения исследований с участием пациентов, становятся все более строгими. Так, с целью повышения объективности результатов исследования должны быть выполнены в соответствии с принципами доказательной медицины [1]. Следование стандартам надлежащей клинической практики (good clinical practice — GCP) общепринято среди авторов публикаций в ведущих международных журналах [2]. Повышаются требования не только к качеству проведения исследований, но и к обработке полученных данных, а для этого необходимы определенные знания статистики. Для врача, а тем более хирурга, приоритетной областью приложения усилий является клиническая работа, что подразумевает проведение значительного времени в операционной. Глубокое погружение врача-хирурга в математическую статистику на уровне профильных специалистов, имеющих математическое образование, вряд ли целесообразно и осуществимо с учетом объема клинической работы. Таким образом, врач оказывается в ситуации, когда, с одной стороны, результаты его работы необходимо обрабатывать с использованием все более сложного математического аппарата, а с другой — изучение методов обработки данных может начать конкурировать по временным затратам с основной деятельностью.

К счастью, современные программы статистической обработки данных позволяют решить дилемму постоянно возрастающих требований к методам обработки данных и оптимальным погружением врача в статистический анализ. Так, например, в программном пакете SAS Enterprise Guide 6.1 для статистического анализа данных достаточно знать границы применимости критерия и название процедуры, что дает возможность врачу избегать использования сложного математического аппарата с большим количеством формул и в то же время получать качественные расчеты.

Цель данной работы состояла в написании алгоритма обработки данных проспективного нерандомизированного исследования Assessment of Myocardial Ischemic-Reperfusion Injury during Off- and On- Pump CABG AMIRI–CABG (ClinicalTrials.gov Identifier: NCT03050489) в программном пакете SAS Enterprise Guide 6.1.

Материалы и методы

В проспективное нерандомизированное исследование AMIRI–CABG, проведенное на базе Научно-исследовательского центра сердечно-сосудистой хирургии ПСПбГМУ им. И.П. Павлова с 2016 по 2019 г., было включено 336 пациентов с ишемической болезнью сердца, имевших показания к операции коронарной реваскуляризации. Создана база данных с клиническими данными, результатами лабораторных и инструментальных исследований. Статистическая обработка базы данных выполнена с использованием лицензионного программного обеспечения SAS Enterprise Guide 6.1. Все анализируемые переменные проверяли на нормальность распределения следующими способами:

  • визуально анализировали график (типичный колокол);
  • применяли критерий Колмогорова – Смирнова и Шапиро – Уилка.

Для переменных, имеющих нормальное распределение, применяли параметрические методы статистики. Если переменная имела распределение, отличное от нормального и являлась лабораторным показателем (например, уровень тропонина I), проводили логарифмирование (натуральный логарифм или десятичный). Проверяли на нормальность логарифмированную переменную. Если нормальность подтверждалась, то использовали методы параметрической статистики, если нет — непараметрической. Если распределение отличалось от нормального, то такую статистику по переменной представляли в виде медианы (верхний и нижний квартили). Если распределение было нормальное, то статистику представляли в виде среднего (стандартное отклонение или ошибка среднего) [3]. Создание файла проекта представлено на рис. 1.

 

Рис. 1. Создание файла проекта

Fig. 1. New project creating

 

Результаты и их обсуждение

Загрузку базы данных из файла Excel в SAS Еnterprise guide 6.1 (все переменные должны быть на латинице и не содержать конфликтных символов) выполняли через меню «Файл»«Импорт данных» (рис. 2, 3).

В открывшемся окне выбирали файл Excel (см. рис. 3).

 

Рис. 2. Импорт файла с базой данных

Fig. 2. Excel database import

 

Рис. 3. Выбор файла с базой данных

Fig. 3. File Excel import

 

Примечание. Название каталогов и файлов должно быть только на латинице. Если в пути к файлу будет хотя бы один каталог на кириллице, программа выдаст ошибку. Кроме того, файл Excel должен быть в версии 98-2003, более поздние версии могут не читаться. В Excel нужно выбрать сохранение таблицы в версии 98-2003.

После выбора файла в открывшемся окне нажимали «Вперед» (рис. 4).

 

Рис. 4. Выбор файла с базой данных (продолжение)

Fig. 4. File Excel import (next step)

 

Ставили галочку напротив «Переименовать столбцы в соответствии с требованиями SAS Enterprise Guide 6.1», отмечали лист Excel, с которым будем работать (в нашем случае In hospital), нажимали «Вперед» (рис. 5).

 

Рис. 5. Выбор листа в файле Excel

Fig. 5. List Excel selection

 

В появившемся окне проверяли, что числовым переменным соответствует число, а строковым — строка (рис. 6).

 

Рис. 6. Проверка типа переменных

Fig. 6. Variables type checking

 

Иногда SAS Enterprise Guide 6.1 определял числа как строки, в таком случае в колонке «Тип» нажимали на «Строка», выбирали «Число» (рис. 7).

 

Рис. 7. Исправление типа переменных

Fig. 7. Variables type correction

 

Проверив и исправив, если требуется, типы переменных, нажимали «Вперед» (рис. 8).

 

Рис. 8. Завершение импорта базы данных

Fig. 8. Completing database import

 

Отмечали галочку напротив «Удалить символы, которые могут привести к ошибкам», нажимали «Готово» (рис. 9).

 

Рис. 9. Базы данных SAS Enterprise Guide 6.1

Fig. 9. SAS Enterprise Guide 6.1 Dataset

 

Загруженные в SAS Enterprise Guide 6.1 данные обрабатывали при помощи методов статистики.

Для статистической обработки можно использовать интуитивно понятный графический интерфейс или текстовый ввод процедур. Каждый из способов имеет свои преимущества и недостатки. Мы выбрали текстовый ввод процедур, так как этот метод является более гибким. Для этого выбирали «Файл»«Создать»«Программа» (рис. 10).

 

Рис. 10. Создание программы

Fig. 10. Program list creating

 

Теперь в открывшемся окне можно записать процедуры для статистических расчетов. Возьмем группу пациентов после коронарного шунтирования (КШ) без искусственного кровообращения (ИК), обработаем для примера переменную TnI1, которая содержит значения тропонина I на первые сутки после операции КШ, а также переменную Age (возраст).

В нашей таблице содержатся данные по трем группам: КШ без ИК, КШ с ИК и КШ на параллельном ИК.

При использовании процедур необходимо указывать название таблицы, с которой работаешь. Чтобы узнать название таблицы, нужно щелкнуть мышью два раза на вкладку «Импорт данных» (голубая рамка), выбрать «Код» (красная рамка), скопировать имя таблицы после слова DATA (зеленая рамка) (рис. 11).

 

Рис. 11. Указатель на базу данных

Fig. 11. DATASET pointer

 

Затем следует нажать два раза вкладку «Программа» и записать код, позволяющий оценить характер распределения:

ods graphics on; Proc UNIVARIATE DATA=WORK.’20_06_2019 work’n normaltest plots; where CPBType=1; VAR TnI1 Age; run; ods graphics off;

Примечание. CPBType — переменная, обозначающая тип КШ. Может принимать значения от 1 до 3 (1 — без ИК, 2 — с ИК, 3 — параллельное ИК).

normaltest — сообщает программе о том, что нужно проверить нормальность.

plots — сообщает программе о необходимости построить графики (можно не указывать, если достаточно числовых данных).

where — сообщает программе, по какому признаку осуществлять отбор подгруппы из совокупности данных. Если убрать where, будет обработано все количество пациентов.

VAR — сообщает программе о том, какие переменные анализировать, здесь можно перечислить большое количество переменных. В нашем случае для наглядности указано только две.

ods graphics on — включить графический режим, чтобы были красивые графики.

ods graphics off — выключить графический режим.

После этого следует нажать кнопку «Выполнить» (рис. 12).

 

Рис. 12. Запуск программы

Fig. 12. Run program

 

Получили результат в виде таблиц и графиков, при помощи которых можно установить характер распределения, медиану, квартили, среднее, моду, дисперсию и ряд других параметров. Наиболее быстрый способ определить нормальность распределения — визуально оценить графики (рис. 13).

 

Рис. 13. Анализ распределения

Fig. 13. Distribution analysis

 

В случае нормального распределения вид гистограммы приближается к форме колокола, а точки укладываются в прямую линию. Хорошо видно, что переменная Age (возраст) имеет нормальное распределение (точки легли на прямую линию, гистограмма похожа на колокол). Кроме того, признаком нормальности распределения является симметричный «ящик с усами» и небольшое количество выбросов (outliers). Переменная TnI1, напротив, характеризуется распределением, отличным от нормального, так как гистограмма не имеет формы колокола, несимметрична, много выбросов, точки легли в виде кривой.

Из множества табличных данных интерес представляют критерии нормальности для TnI1 (рис. 14).

 

Рис. 14. Критерии нормальности для переменной TnI1

Fig. 14. Normality tests for TnI1

 

Если p (Value) меньше 0,05, то распределение отличается от нормального, если больше 0,05, то распределение соответствует нормальному. Переменная TnI1 имеет распределение, отличное от нормального.

Распределение переменной Age соответствовало нормальному (рис. 15).

 

Рис. 15. Критерии нормальности для переменной Age

Fig. 15. Normality tests for Age

 

Все значения p больше 0,05, что говорит о нормальности распределения.

После определения характера распределения переменных можно выбрать соответствующий статистический метод и сравнить группы. Так, зная, что уровень тропонина I на первые сутки после КШ без ИК имеет характер распределения, отличный от нормального, мы не будем использовать для сравнения групп критерий Стьюдента (t-критерий). Применение критерия Стьюдента в такой ситуации может ложно показать отсутствие различия.

Выбор критериев и тестов для сравнения групп заслуживает отдельной статьи, здесь же ограничимся описанием практического использования программы SAS Enterprise Guide 6.1.

Следует отметить, что SAS Enterprise Guide 6.1 сохраняет схему процесса, но не сохраняет результаты всех процедур, поэтому при закрытии и новом открытии SAS Enterprise Guide 6.1 следует выполнять всю схему процесса. Для этого, открыв проект, нужно правой кнопкой мыши нажать на схему процесса, затем выбрать «Выполнить» (рис. 16).

 

Рис. 16. Выполнение схемы процесса

Fig. 16. Schema running

 

Приведем к нормальному виду распределение TnI1, чтобы можно было использовать методы параметрической статистики:

ods graphics on;

Proc UNIVARIATE DATA=WORK.’20_06_2019 work’n normaltest plots;

where CPBType=1;

VAR TnI1 Age;

run;

DATA LG; /* СОЗДАЕМ НОВУЮ ТАБЛИЦУ LG */

SET WORK.’20_06_2019 work’n;

/* КОПИРУЕМ ВСЮ НАШУ ТАБЛИЦУ В LG */

LGTnI1=LOG10(TnI1);

/* ВЫЧИСЛЯЕМ ДЕСЯТИЧНЫЙ ЛОГАРИФМ */

RUN;

Proc UNIVARIATE DATA=LG normaltest plots;

/* ТЕПЕРЬ МЫ РАБОТАЕМ С ТАБЛИЦЕЙ LG */

VAR LGTnI1;

run;

ods graphics off;

После нажатия кнопки «Выполнить» получаем результат (рис. 17).

 

Рис. 17. Распределение логарифмированной переменной

Fig. 17. Lognormal distribution

 

Нормальность распределения подтвердилась не только графиками, но и четырьмя критериями, p > 0,05 (рис. 18).

 

Рис. 18. Критерии нормальности для логарифмированной переменной

Fig. 18. Normality tests for lognormal distribution

 

Таким образом, для переменной LGTnI1 можно использовать методы параметрической статистики, например критерий Стьюдента.

Обсуждение

Представленные нами результаты являются итогом предварительного этапа обработки данных, обязательного для любого исследования, который позволяет выбрать адекватные статистические тесты. Следует отметить, что концентрация маркеров и ферментов очень часто имеет логнормальное распределение, поэтому с практической точки зрения переменные, содержащие концентрации, можно сразу логарифмировать, после чего проверять нормальность распределения. Несмотря на то что в случае распределения, отличающегося от нормального, можно использовать непараметрические тесты, предпочтительнее перейти к нормальному виду, взяв десятичный или натуральный логарифм, так как многие статические тесты были разработаны для нормального распределения. Проверка на нормальность является простой процедурой, которую можно выполнить в любой программе для статистических расчетов, однако приведенный пошаговый и подробный алгоритм может стать первым шагом к освоению программы SAS Enterprise Guide 6.1, имеющей мощные инструменты обработки данных, которые гораздо удобнее по сравнению с инструментами, предлагаемыми в других пакетах статистических расчетов. Реализованный алгоритм представлен с таким расчетом, чтобы читатели, никогда не работавшие с данной программой, могли сразу же использовать приведенный выше код для своей базы данных, поменяв названия переменных и файла в соответствии с базой данных. SAS — один из самых популярных программных пакетов, используемых для обработки данных медицинских исследований в США, и снабжен набором инструментов для работы с большими объемами данных [4]. По сравнению с другими статистическими программами SAS обладает следующими преимуществами:

1) построение схемы расчетов позволяет проверить правильность выбора и применения статистических методов. Таким образом, видны не только конечный результат расчетов, но и промежуточные результаты, что уменьшает вероятность ошибки в процессе обработки данных;

2) возможность использования не только графического интерфейса, но и программного кода, благодаря чему можно проводить более гибкие расчеты;

3) популярные статистические тесты выполняются автоматически, отсутствует необходимость в специальном вызове. Так, например, при выполнении дисперсионного анализа SAS автоматически проверяет равенство дисперсий, в случае их неравенства вносит необходимую поправку.

Выводы

  1. SAS Enterprise Guide 6.1 обладает гибкими и мощными инструментами статистической обработки данных с минимальными требованиями к владению математическим аппаратом, что делает этот программный пакет интересным для врачей.
  2. SAS Enterprise Guide 6.1 позволяет быстро и легко провести статистические расчеты.
  3. Алгоритм проверки на нормальность может быть применен для обработки различных баз данных научных и клинических исследований.

Дополнительная информация

Финансирование. Работа выполнена в рамках государственного задания по теме: «Оценка регенеративного потенциала пациента при операциях на сердце».

Соблюдение этических норм. Исследование одобрено локальным этическим комитетом ФГБНУ ПСПбГМУ им. И.П. Павлова.

Конфликт интересов. Авторы заявляют об отсутствии конфликта интересов.

Список сокращений

ИК — искусственное кровообращение; КШ — коронарное шунтирование; GCP — надлежащая клиническая практика (от англ. good clinical practice); TnI1 — переменная, содержащая значения концентрации тропонина I на первые сутки после операции; LGTnI1 — логарифм TnI1.

×

About the authors

Nikolay S. Bunenkov

Pavlov First Saint Petersburg State Medical University

Author for correspondence.
Email: bunenkov2006@gmail.com
ORCID iD: 0000-0003-4331-028X

Aspirant, Department of Faculty Surgery

Russian Federation, St. Petersburg

Gulnara F. Bunenkova

Pavlov First Saint Petersburg State Medical University

Email: gulnara533@gmail.com

Resident, Department of Hospital Therapy

Russian Federation, St. Petersburg

Sergey A. Beliy

Pavlov First Saint Petersburg State Medical University

Email: sabel1968@mail.ru
ORCID iD: 0000-0002-6415-4389

PhD, cardiac surgeon, Department of Cardiac Surgery #2

Russian Federation, St. Petersburg

Vladimir V. Komok

Pavlov First Saint Petersburg State Medical University

Email: vladimir_komok@mail.ru
ORCID iD: 0000-0002-3834-7566

PhD, cardiac surgeon, Department of Cardiac Surgery #2

Russian Federation, St. Petersburg

Oleg A. Grinenko

Pavlov First Saint Petersburg State Medical University

Email: klinika@spb-gmu.ru

MD, vice-rector

Russian Federation, St. Petersburg

Alexander S. Nemkov

Pavlov First Saint Petersburg State Medical University

Email: nemk_as@mail.ru
ORCID iD: 0000-0002-5152-0001

Doctor of Medical Science, professor, cardiac surgeon, Chief of Department of Cardiac Surgery #2

Russian Federation, St. Petersburg

References

  1. Koretz RL. Assessing the evidence in evidence-based medicine. Nutr Clin Pract. 2019;34(1):60-72. https://doi.org/10.1002/ncp.10227.
  2. May M. Twenty-five ways clinical trials have changed in the last 25 years. Nat Med. 2019;25(1):2-5. https://doi.org/10.1038/s41591-018-0314-1.
  3. Гржибовский А. М. Типы данных, проверка распределения и описательная статистика // Экология человека. – 2008. – № 1. – С. 52–58. [Grjibovski АМ. Data types, control of distribution and descriptive statistics. Ecology, human. 2008;(1):52-58. (In Russ.)]
  4. Dolezel D, McLeod A. Big data analytics in healthcare: investigating the diffusion of innovation. Perspect Health Inf Manag. 2019;16(Summer):1a.

Supplementary files

Supplementary Files
Action
1. JATS XML
2. Fig. 1. New project creating

Download (142KB)
3. Fig. 2. Excel database import

Download (141KB)
4. Fig. 3. File Excel import

Download (145KB)
5. Fig. 4. File Excel import (next step)

Download (200KB)
6. Fig. 5. List Excel selection

Download (205KB)
7. Fig. 6. Variables type checking

Download (219KB)
8. Fig. 7. Variables type correction

Download (235KB)
9. Fig. 8. Completing database import

Download (117KB)
10. Fig. 9. SAS Enterprise Guide 6.1 Dataset

Download (496KB)
11. Fig. 10. Program list creating

Download (168KB)
12. Fig. 11. DATASET pointer

Download (150KB)
13. Fig. 12. Run program

Download (80KB)
14. Fig. 13. Distribution analysis

Download (127KB)
15. Fig. 14. Normality tests for TnI1

Download (91KB)
16. Fig. 15. Normality tests for Age

Download (91KB)
17. Fig. 16. Schema running

Download (132KB)
18. Fig. 17. Lognormal distribution

Download (73KB)
19. Fig. 18. Normality tests for lognormal distribution

Download (99KB)

Copyright (c) 2019 Bunenkov N.S., Bunenkova G.F., Beliy S.A., Komok V.V., Grinenko O.A., Nemkov A.S.

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

СМИ зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор).
Регистрационный номер и дата принятия решения о регистрации СМИ: серия ПИ № ФС 77 - 74760 от 29.12.2018 г.


This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies