Сравнение производительности библиотек Vaex и Dask
- Авторы: Пальмов С.В.1,2, Шаталов Н.В.1
-
Учреждения:
- Поволжский государственный университет телекоммуникаций и информатики
- Самарский государственный технический университет
- Выпуск: Том 22, № 1 (2024)
- Страницы: 88-93
- Раздел: Новые информационные технологии
- URL: https://journals.eco-vector.com/2073-3909/article/view/689827
- DOI: https://doi.org/10.18469/ikt.2024.22.1.12
- ID: 689827
Цитировать
Полный текст
Аннотация
Цель исследования заключалась в сравнении производительности библиотек Vaex и Dask, предназначенных для повышения эффективности процесса обработки данных. Для решения поставленной задачи были проведены эксперименты, связанные с оценкой временных затрат на выполнение различных классов операций. Исследование включало подготовку датасетов, формирование выборок данных, настройку исполнительных сред, установку и настройку указанных выше модулей, написание скриптов на языке Python, тестирование производительности и последующий анализ результатов. Было установлено, что Vaex демонстрирует высокое быстродействие в случае обработки больших наборов данных, состоящих из миллиона объектов, на одном локальном компьютере; показатели Dask уступают первой библиотеке. Сей факт указывает на то, что Vaex является более эффективным инструментом для обработки крупных датасетов в условиях, аналогичных использованным в настоящей работе. Результаты и выводы исследования подчеркивают значимость выбора оптимальной библиотеки при обработке данных большого объема, а также подтверждают преимущества библиотеки Vaex в данном контексте.
Об авторах
С. В. Пальмов
Поволжский государственный университет телекоммуникаций и информатики; Самарский государственный технический университет
Автор, ответственный за переписку.
Email: s.palmov@psuti.ru
к.т.н., доцент, доцент кафедры информационных систем и технологий (ИСТ), доцент кафедры информационных технологий
Россия, Самара; СамараН. В. Шаталов
Поволжский государственный университет телекоммуникаций и информатики
Email: nickit.schatalow@yandex.ru
студент кафедры ИСТ
Россия, СамараСписок литературы
- What is Vaex? URL: https://vaex.readthedocs.io/en/latest/index.html (дата обращения: 15.04.2024).
- Dask – Dask documentation. URL: https://docs.dask.org/en/stable/ (дата обращения: 15.04.2024).
- GitHub – dask/dask: Parallel computing with taskscheduling. URL: https://github.com/dask/dask (дата обращения: 16.04.2024).
- NumPy. URL: https://numpy.org/ (дата обращения: 16.04.2024).
- GitHub – vaexio/vaex. URL: https://github.com/vaexio/vaex (дата обращения: 17.04.2024).
- Dask vs Vaex – a qualitative comparison. URL: https://vaex.io/blog/dask-vs-vaex-a-qualitativecomparison (дата обращения: 17.04.2024).
- Как использовать HDF5-файлы в Python. URL: https://habr.com/ru/companies/otus/articles/416309/ (дата обращения: 17.04.2024).
- 52 датасета для тренировочных проектов. URL: https://habr.com/ru/companies/edison/articles/480408/ (дата обращения: 18.04.2024).
- Vaex и Dask: когда Pandas не может обработать большие данные. URL: https://python-school.ru/blog/analiz-dannyh/vaex-vs-dask/ (дата обращения: 18.04.2024).
- Использование библиотеки Vaex для обработки больших объемов данных. URL: https://newtechaudit.ru/ispolzovanie-biblioteki-vaexdlya-obrabotki-bolshih-obyomov-dannyh/ (дата обращения: 19.04.2024).
- Анализ данных с использованием библиотеки Dask. URL: https://habr.com/ru/companies/otus/articles/759552/ (дата обращения: 19.04.2024).
- Груздев А.В., Хейдт М. Изучаем pandas / пер. с англ. А.В. Груздева. М.: ДМК, 2019. 682 с.
- Уэс М. Python и анализ данных. Первичная обработка данных с применением pandas, Numpy и Jupiter / пер. с англ. А.А. Слинкина, 3-е изд. М.: ДМК, 536 с.
- Васильев Ю.А. Python для data science. СПб.: Питер, 272 с.
Дополнительные файлы
