SAS Enterprise Guide 6.1 для врачей: начало работы

Обложка


Цитировать

Полный текст

Аннотация

Цель — разработать алгоритм обработки базы данных проспективного нерандомизированного исследования AMIRI–CABG Trial (ClinicalTrials.gov Identifier: NCT03050489) в программном пакете SAS Enterprise Guide 6.1.

Материалы и методы. В проспективное нерандомизированное исследование AMIRI–CABG, проведенное на базе ПСПбГМУ им. И.П. Павлова с 2016 по 2019 г., включено 336 пациентов. Создана база данных с клиническими данными, результатами лабораторных и инструментальных исследований. Статистическая обработка данных выполнена с помощью лицензионного программного обеспечения SAS Enterprise Guide 6.1.

Результаты. Реализован алгоритм обработки данных проспективного нерандомизированного исследования AMIRI–CABG. Данный алгоритм может быть использован врачами различных специальностей, научными сотрудниками для обработки результатов научных или клинических исследований.

Заключение. Реализованный алгоритм обработки базы данных научного исследования позволит врачам и научным сотрудникам упростить и ускорить анализ результатов исследований. SAS Enterprise Guide 6.1 дает возможность качественно и быстро обработать большие массивы данных.

Полный текст

Введение

В повседневной работе врачи и ученые сталкиваются с задачами анализа данных. С развитием науки и техники требования, предъявляемые к методологии и принципам проведения исследований с участием пациентов, становятся все более строгими. Так, с целью повышения объективности результатов исследования должны быть выполнены в соответствии с принципами доказательной медицины [1]. Следование стандартам надлежащей клинической практики (good clinical practice — GCP) общепринято среди авторов публикаций в ведущих международных журналах [2]. Повышаются требования не только к качеству проведения исследований, но и к обработке полученных данных, а для этого необходимы определенные знания статистики. Для врача, а тем более хирурга, приоритетной областью приложения усилий является клиническая работа, что подразумевает проведение значительного времени в операционной. Глубокое погружение врача-хирурга в математическую статистику на уровне профильных специалистов, имеющих математическое образование, вряд ли целесообразно и осуществимо с учетом объема клинической работы. Таким образом, врач оказывается в ситуации, когда, с одной стороны, результаты его работы необходимо обрабатывать с использованием все более сложного математического аппарата, а с другой — изучение методов обработки данных может начать конкурировать по временным затратам с основной деятельностью.

К счастью, современные программы статистической обработки данных позволяют решить дилемму постоянно возрастающих требований к методам обработки данных и оптимальным погружением врача в статистический анализ. Так, например, в программном пакете SAS Enterprise Guide 6.1 для статистического анализа данных достаточно знать границы применимости критерия и название процедуры, что дает возможность врачу избегать использования сложного математического аппарата с большим количеством формул и в то же время получать качественные расчеты.

Цель данной работы состояла в написании алгоритма обработки данных проспективного нерандомизированного исследования Assessment of Myocardial Ischemic-Reperfusion Injury during Off- and On- Pump CABG AMIRI–CABG (ClinicalTrials.gov Identifier: NCT03050489) в программном пакете SAS Enterprise Guide 6.1.

Материалы и методы

В проспективное нерандомизированное исследование AMIRI–CABG, проведенное на базе Научно-исследовательского центра сердечно-сосудистой хирургии ПСПбГМУ им. И.П. Павлова с 2016 по 2019 г., было включено 336 пациентов с ишемической болезнью сердца, имевших показания к операции коронарной реваскуляризации. Создана база данных с клиническими данными, результатами лабораторных и инструментальных исследований. Статистическая обработка базы данных выполнена с использованием лицензионного программного обеспечения SAS Enterprise Guide 6.1. Все анализируемые переменные проверяли на нормальность распределения следующими способами:

  • визуально анализировали график (типичный колокол);
  • применяли критерий Колмогорова – Смирнова и Шапиро – Уилка.

Для переменных, имеющих нормальное распределение, применяли параметрические методы статистики. Если переменная имела распределение, отличное от нормального и являлась лабораторным показателем (например, уровень тропонина I), проводили логарифмирование (натуральный логарифм или десятичный). Проверяли на нормальность логарифмированную переменную. Если нормальность подтверждалась, то использовали методы параметрической статистики, если нет — непараметрической. Если распределение отличалось от нормального, то такую статистику по переменной представляли в виде медианы (верхний и нижний квартили). Если распределение было нормальное, то статистику представляли в виде среднего (стандартное отклонение или ошибка среднего) [3]. Создание файла проекта представлено на рис. 1.

 

Рис. 1. Создание файла проекта

Fig. 1. New project creating

 

Результаты и их обсуждение

Загрузку базы данных из файла Excel в SAS Еnterprise guide 6.1 (все переменные должны быть на латинице и не содержать конфликтных символов) выполняли через меню «Файл»«Импорт данных» (рис. 2, 3).

В открывшемся окне выбирали файл Excel (см. рис. 3).

 

Рис. 2. Импорт файла с базой данных

Fig. 2. Excel database import

 

Рис. 3. Выбор файла с базой данных

Fig. 3. File Excel import

 

Примечание. Название каталогов и файлов должно быть только на латинице. Если в пути к файлу будет хотя бы один каталог на кириллице, программа выдаст ошибку. Кроме того, файл Excel должен быть в версии 98-2003, более поздние версии могут не читаться. В Excel нужно выбрать сохранение таблицы в версии 98-2003.

После выбора файла в открывшемся окне нажимали «Вперед» (рис. 4).

 

Рис. 4. Выбор файла с базой данных (продолжение)

Fig. 4. File Excel import (next step)

 

Ставили галочку напротив «Переименовать столбцы в соответствии с требованиями SAS Enterprise Guide 6.1», отмечали лист Excel, с которым будем работать (в нашем случае In hospital), нажимали «Вперед» (рис. 5).

 

Рис. 5. Выбор листа в файле Excel

Fig. 5. List Excel selection

 

В появившемся окне проверяли, что числовым переменным соответствует число, а строковым — строка (рис. 6).

 

Рис. 6. Проверка типа переменных

Fig. 6. Variables type checking

 

Иногда SAS Enterprise Guide 6.1 определял числа как строки, в таком случае в колонке «Тип» нажимали на «Строка», выбирали «Число» (рис. 7).

 

Рис. 7. Исправление типа переменных

Fig. 7. Variables type correction

 

Проверив и исправив, если требуется, типы переменных, нажимали «Вперед» (рис. 8).

 

Рис. 8. Завершение импорта базы данных

Fig. 8. Completing database import

 

Отмечали галочку напротив «Удалить символы, которые могут привести к ошибкам», нажимали «Готово» (рис. 9).

 

Рис. 9. Базы данных SAS Enterprise Guide 6.1

Fig. 9. SAS Enterprise Guide 6.1 Dataset

 

Загруженные в SAS Enterprise Guide 6.1 данные обрабатывали при помощи методов статистики.

Для статистической обработки можно использовать интуитивно понятный графический интерфейс или текстовый ввод процедур. Каждый из способов имеет свои преимущества и недостатки. Мы выбрали текстовый ввод процедур, так как этот метод является более гибким. Для этого выбирали «Файл»«Создать»«Программа» (рис. 10).

 

Рис. 10. Создание программы

Fig. 10. Program list creating

 

Теперь в открывшемся окне можно записать процедуры для статистических расчетов. Возьмем группу пациентов после коронарного шунтирования (КШ) без искусственного кровообращения (ИК), обработаем для примера переменную TnI1, которая содержит значения тропонина I на первые сутки после операции КШ, а также переменную Age (возраст).

В нашей таблице содержатся данные по трем группам: КШ без ИК, КШ с ИК и КШ на параллельном ИК.

При использовании процедур необходимо указывать название таблицы, с которой работаешь. Чтобы узнать название таблицы, нужно щелкнуть мышью два раза на вкладку «Импорт данных» (голубая рамка), выбрать «Код» (красная рамка), скопировать имя таблицы после слова DATA (зеленая рамка) (рис. 11).

 

Рис. 11. Указатель на базу данных

Fig. 11. DATASET pointer

 

Затем следует нажать два раза вкладку «Программа» и записать код, позволяющий оценить характер распределения:

ods graphics on; Proc UNIVARIATE DATA=WORK.’20_06_2019 work’n normaltest plots; where CPBType=1; VAR TnI1 Age; run; ods graphics off;

Примечание. CPBType — переменная, обозначающая тип КШ. Может принимать значения от 1 до 3 (1 — без ИК, 2 — с ИК, 3 — параллельное ИК).

normaltest — сообщает программе о том, что нужно проверить нормальность.

plots — сообщает программе о необходимости построить графики (можно не указывать, если достаточно числовых данных).

where — сообщает программе, по какому признаку осуществлять отбор подгруппы из совокупности данных. Если убрать where, будет обработано все количество пациентов.

VAR — сообщает программе о том, какие переменные анализировать, здесь можно перечислить большое количество переменных. В нашем случае для наглядности указано только две.

ods graphics on — включить графический режим, чтобы были красивые графики.

ods graphics off — выключить графический режим.

После этого следует нажать кнопку «Выполнить» (рис. 12).

 

Рис. 12. Запуск программы

Fig. 12. Run program

 

Получили результат в виде таблиц и графиков, при помощи которых можно установить характер распределения, медиану, квартили, среднее, моду, дисперсию и ряд других параметров. Наиболее быстрый способ определить нормальность распределения — визуально оценить графики (рис. 13).

 

Рис. 13. Анализ распределения

Fig. 13. Distribution analysis

 

В случае нормального распределения вид гистограммы приближается к форме колокола, а точки укладываются в прямую линию. Хорошо видно, что переменная Age (возраст) имеет нормальное распределение (точки легли на прямую линию, гистограмма похожа на колокол). Кроме того, признаком нормальности распределения является симметричный «ящик с усами» и небольшое количество выбросов (outliers). Переменная TnI1, напротив, характеризуется распределением, отличным от нормального, так как гистограмма не имеет формы колокола, несимметрична, много выбросов, точки легли в виде кривой.

Из множества табличных данных интерес представляют критерии нормальности для TnI1 (рис. 14).

 

Рис. 14. Критерии нормальности для переменной TnI1

Fig. 14. Normality tests for TnI1

 

Если p (Value) меньше 0,05, то распределение отличается от нормального, если больше 0,05, то распределение соответствует нормальному. Переменная TnI1 имеет распределение, отличное от нормального.

Распределение переменной Age соответствовало нормальному (рис. 15).

 

Рис. 15. Критерии нормальности для переменной Age

Fig. 15. Normality tests for Age

 

Все значения p больше 0,05, что говорит о нормальности распределения.

После определения характера распределения переменных можно выбрать соответствующий статистический метод и сравнить группы. Так, зная, что уровень тропонина I на первые сутки после КШ без ИК имеет характер распределения, отличный от нормального, мы не будем использовать для сравнения групп критерий Стьюдента (t-критерий). Применение критерия Стьюдента в такой ситуации может ложно показать отсутствие различия.

Выбор критериев и тестов для сравнения групп заслуживает отдельной статьи, здесь же ограничимся описанием практического использования программы SAS Enterprise Guide 6.1.

Следует отметить, что SAS Enterprise Guide 6.1 сохраняет схему процесса, но не сохраняет результаты всех процедур, поэтому при закрытии и новом открытии SAS Enterprise Guide 6.1 следует выполнять всю схему процесса. Для этого, открыв проект, нужно правой кнопкой мыши нажать на схему процесса, затем выбрать «Выполнить» (рис. 16).

 

Рис. 16. Выполнение схемы процесса

Fig. 16. Schema running

 

Приведем к нормальному виду распределение TnI1, чтобы можно было использовать методы параметрической статистики:

ods graphics on;

Proc UNIVARIATE DATA=WORK.’20_06_2019 work’n normaltest plots;

where CPBType=1;

VAR TnI1 Age;

run;

DATA LG; /* СОЗДАЕМ НОВУЮ ТАБЛИЦУ LG */

SET WORK.’20_06_2019 work’n;

/* КОПИРУЕМ ВСЮ НАШУ ТАБЛИЦУ В LG */

LGTnI1=LOG10(TnI1);

/* ВЫЧИСЛЯЕМ ДЕСЯТИЧНЫЙ ЛОГАРИФМ */

RUN;

Proc UNIVARIATE DATA=LG normaltest plots;

/* ТЕПЕРЬ МЫ РАБОТАЕМ С ТАБЛИЦЕЙ LG */

VAR LGTnI1;

run;

ods graphics off;

После нажатия кнопки «Выполнить» получаем результат (рис. 17).

 

Рис. 17. Распределение логарифмированной переменной

Fig. 17. Lognormal distribution

 

Нормальность распределения подтвердилась не только графиками, но и четырьмя критериями, p > 0,05 (рис. 18).

 

Рис. 18. Критерии нормальности для логарифмированной переменной

Fig. 18. Normality tests for lognormal distribution

 

Таким образом, для переменной LGTnI1 можно использовать методы параметрической статистики, например критерий Стьюдента.

Обсуждение

Представленные нами результаты являются итогом предварительного этапа обработки данных, обязательного для любого исследования, который позволяет выбрать адекватные статистические тесты. Следует отметить, что концентрация маркеров и ферментов очень часто имеет логнормальное распределение, поэтому с практической точки зрения переменные, содержащие концентрации, можно сразу логарифмировать, после чего проверять нормальность распределения. Несмотря на то что в случае распределения, отличающегося от нормального, можно использовать непараметрические тесты, предпочтительнее перейти к нормальному виду, взяв десятичный или натуральный логарифм, так как многие статические тесты были разработаны для нормального распределения. Проверка на нормальность является простой процедурой, которую можно выполнить в любой программе для статистических расчетов, однако приведенный пошаговый и подробный алгоритм может стать первым шагом к освоению программы SAS Enterprise Guide 6.1, имеющей мощные инструменты обработки данных, которые гораздо удобнее по сравнению с инструментами, предлагаемыми в других пакетах статистических расчетов. Реализованный алгоритм представлен с таким расчетом, чтобы читатели, никогда не работавшие с данной программой, могли сразу же использовать приведенный выше код для своей базы данных, поменяв названия переменных и файла в соответствии с базой данных. SAS — один из самых популярных программных пакетов, используемых для обработки данных медицинских исследований в США, и снабжен набором инструментов для работы с большими объемами данных [4]. По сравнению с другими статистическими программами SAS обладает следующими преимуществами:

1) построение схемы расчетов позволяет проверить правильность выбора и применения статистических методов. Таким образом, видны не только конечный результат расчетов, но и промежуточные результаты, что уменьшает вероятность ошибки в процессе обработки данных;

2) возможность использования не только графического интерфейса, но и программного кода, благодаря чему можно проводить более гибкие расчеты;

3) популярные статистические тесты выполняются автоматически, отсутствует необходимость в специальном вызове. Так, например, при выполнении дисперсионного анализа SAS автоматически проверяет равенство дисперсий, в случае их неравенства вносит необходимую поправку.

Выводы

  1. SAS Enterprise Guide 6.1 обладает гибкими и мощными инструментами статистической обработки данных с минимальными требованиями к владению математическим аппаратом, что делает этот программный пакет интересным для врачей.
  2. SAS Enterprise Guide 6.1 позволяет быстро и легко провести статистические расчеты.
  3. Алгоритм проверки на нормальность может быть применен для обработки различных баз данных научных и клинических исследований.

Дополнительная информация

Финансирование. Работа выполнена в рамках государственного задания по теме: «Оценка регенеративного потенциала пациента при операциях на сердце».

Соблюдение этических норм. Исследование одобрено локальным этическим комитетом ФГБНУ ПСПбГМУ им. И.П. Павлова.

Конфликт интересов. Авторы заявляют об отсутствии конфликта интересов.

Список сокращений

ИК — искусственное кровообращение; КШ — коронарное шунтирование; GCP — надлежащая клиническая практика (от англ. good clinical practice); TnI1 — переменная, содержащая значения концентрации тропонина I на первые сутки после операции; LGTnI1 — логарифм TnI1.

×

Об авторах

Николай Сергеевич Буненков

ФГБНУ «Первый Санкт-Петербургский медицинский университет им. акад. И.П. Павлова» Минздрава России

Автор, ответственный за переписку.
Email: bunenkov2006@gmail.com
ORCID iD: 0000-0003-4331-028X

аспирант кафедры факультетской хирургии

Россия, Санкт-Петербург

Гульнара Физулиевна Буненкова

ФГБНУ «Первый Санкт-Петербургский медицинский университет им. акад. И.П. Павлова» Минздрава России

Email: gulnara533@gmail.com

клинический ординатор кафедры госпитальной терапии

Россия, Санкт-Петербург

Сергей Алексеевич Белый

ФГБНУ «Первый Санкт-Петербургский медицинский университет им. акад. И.П. Павлова» Минздрава России

Email: sabel1968@mail.ru
ORCID iD: 0000-0002-6415-4389

к. м. н., кардиохирург отделения кардиохирургии №2

Россия, Санкт-Петербург

Владимир Владимирович Комок

ФГБНУ «Первый Санкт-Петербургский медицинский университет им. акад. И.П. Павлова» Минздрава России

Email: vladimir_komok@mail.ru
ORCID iD: 0000-0002-3834-7566

к. м. н., кардиохирург отделения кардиохирургии №2

Россия, Санкт-Петербург

Олег Александрович Гриненко

ФГБНУ «Первый Санкт-Петербургский медицинский университет им. акад. И.П. Павлова» Минздрава России

Email: klinika@spb-gmu.ru

д. м. н., проректор по лечебной работе

Россия, Санкт-Петербург

Александр Сергеевич Немков

ФГБНУ «Первый Санкт-Петербургский медицинский университет им. акад. И.П. Павлова» Минздрава России

Email: nemk_as@mail.ru
ORCID iD: 0000-0002-5152-0001

д. м. н., профессор, кардиохирург, руководитель отделения кардиохирургии

Россия, Санкт-Петербург

Список литературы

  1. Koretz RL. Assessing the evidence in evidence-based medicine. Nutr Clin Pract. 2019;34(1):60-72. https://doi.org/10.1002/ncp.10227.
  2. May M. Twenty-five ways clinical trials have changed in the last 25 years. Nat Med. 2019;25(1):2-5. https://doi.org/10.1038/s41591-018-0314-1.
  3. Гржибовский А. М. Типы данных, проверка распределения и описательная статистика // Экология человека. – 2008. – № 1. – С. 52–58. [Grjibovski АМ. Data types, control of distribution and descriptive statistics. Ecology, human. 2008;(1):52-58. (In Russ.)]
  4. Dolezel D, McLeod A. Big data analytics in healthcare: investigating the diffusion of innovation. Perspect Health Inf Manag. 2019;16(Summer):1a.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рис. 1. Создание файла проекта

Скачать (142KB)
3. Рис. 2. Импорт файла с базой данных

Скачать (141KB)
4. Рис. 3. Выбор файла с базой данных

Скачать (145KB)
5. Рис. 4. Выбор файла с базой данных (продолжение)

Скачать (200KB)
6. Рис. 5. Выбор листа в файле Excel

Скачать (205KB)
7. Рис. 6. Проверка типа переменных

Скачать (219KB)
8. Рис. 7. Исправление типа переменных

Скачать (235KB)
9. Рис. 8. Завершение импорта базы данных

Скачать (117KB)
10. Рис. 9. Базы данных SAS Enterprise Guide 6.1

Скачать (496KB)
11. Рис. 10. Создание программы

Скачать (168KB)
12. Рис. 11. Указатель на базу данных

Скачать (150KB)
13. Рис. 12. Запуск программы

Скачать (80KB)
14. Рис. 13. Анализ распределения

Скачать (127KB)
15. Рис. 14. Критерии нормальности для переменной TnI1

Скачать (91KB)
16. Рис. 15. Критерии нормальности для переменной Age

Скачать (91KB)
17. Рис. 16. Выполнение схемы процесса

Скачать (132KB)
18. Рис. 17. Распределение логарифмированной переменной

Скачать (73KB)
19. Рис. 18. Критерии нормальности для логарифмированной переменной

Скачать (99KB)

© Буненков Н.С., Буненкова Г.Ф., Белый С.А., Комок В.В., Гриненко О.А., Немков А.С., 2019

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

СМИ зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор).
Регистрационный номер и дата принятия решения о регистрации СМИ: серия ПИ № ФС 77 - 74760 от 29.12.2018 г.


Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах