Сравнение производительности библиотек Vaex и Dask

Обложка

Цитировать

Полный текст

Аннотация

Цель исследования заключалась в сравнении производительности библиотек Vaex и Dask, предназначенных для повышения эффективности процесса обработки данных. Для решения поставленной задачи были проведены эксперименты, связанные с оценкой временных затрат на выполнение различных классов операций. Исследование включало подготовку датасетов, формирование выборок данных, настройку исполнительных сред, установку и настройку указанных выше модулей, написание скриптов на языке Python, тестирование производительности и последующий анализ результатов. Было установлено, что Vaex демонстрирует высокое быстродействие в случае обработки больших наборов данных, состоящих из миллиона объектов, на одном локальном компьютере; показатели Dask уступают первой библиотеке. Сей факт указывает на то, что Vaex является более эффективным инструментом для обработки крупных датасетов в условиях, аналогичных использованным в настоящей работе. Результаты и выводы исследования подчеркивают значимость выбора оптимальной библиотеки при обработке данных большого объема, а также подтверждают преимущества библиотеки Vaex в данном контексте.

Об авторах

С. В. Пальмов

Поволжский государственный университет телекоммуникаций и информатики; Самарский государственный технический университет

Автор, ответственный за переписку.
Email: s.palmov@psuti.ru

к.т.н., доцент, доцент кафедры информационных систем и технологий (ИСТ), доцент кафедры информационных технологий

Россия, Самара; Самара

Н. В. Шаталов

Поволжский государственный университет телекоммуникаций и информатики

Email: nickit.schatalow@yandex.ru

студент кафедры ИСТ

Россия, Самара

Список литературы

  1. What is Vaex? URL: https://vaex.readthedocs.io/en/latest/index.html (дата обращения: 15.04.2024).
  2. Dask – Dask documentation. URL: https://docs.dask.org/en/stable/ (дата обращения: 15.04.2024).
  3. GitHub – dask/dask: Parallel computing with taskscheduling. URL: https://github.com/dask/dask (дата обращения: 16.04.2024).
  4. NumPy. URL: https://numpy.org/ (дата обращения: 16.04.2024).
  5. GitHub – vaexio/vaex. URL: https://github.com/vaexio/vaex (дата обращения: 17.04.2024).
  6. Dask vs Vaex – a qualitative comparison. URL: https://vaex.io/blog/dask-vs-vaex-a-qualitativecomparison (дата обращения: 17.04.2024).
  7. Как использовать HDF5-файлы в Python. URL: https://habr.com/ru/companies/otus/articles/416309/ (дата обращения: 17.04.2024).
  8. 52 датасета для тренировочных проектов. URL: https://habr.com/ru/companies/edison/articles/480408/ (дата обращения: 18.04.2024).
  9. Vaex и Dask: когда Pandas не может обработать большие данные. URL: https://python-school.ru/blog/analiz-dannyh/vaex-vs-dask/ (дата обращения: 18.04.2024).
  10. Использование библиотеки Vaex для обработки больших объемов данных. URL: https://newtechaudit.ru/ispolzovanie-biblioteki-vaexdlya-obrabotki-bolshih-obyomov-dannyh/ (дата обращения: 19.04.2024).
  11. Анализ данных с использованием библиотеки Dask. URL: https://habr.com/ru/companies/otus/articles/759552/ (дата обращения: 19.04.2024).
  12. Груздев А.В., Хейдт М. Изучаем pandas / пер. с англ. А.В. Груздева. М.: ДМК, 2019. 682 с.
  13. Уэс М. Python и анализ данных. Первичная обработка данных с применением pandas, Numpy и Jupiter / пер. с англ. А.А. Слинкина, 3-е изд. М.: ДМК, 536 с.
  14. Васильев Ю.А. Python для data science. СПб.: Питер, 272 с.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

© Пальмов С.В., Шаталов Н.В., 2025

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.