Сравнительный анализ систем хранения данных HDFS и Apache Ozone

Обложка

Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Доступ платный или только для подписчиков

Аннотация

За последние десятилетия значительно выросло не только количество цифровых данных в мире, но и способов их использования. Пионером и долгое время синонимом платформы для хранения и обработки больших данных являлась экосистема Hadoop, которая и по сей день активно используется во множестве крупнейших компаний. Однако, за почти 20 лет, прошедших с первого релиза Hadoop, был выявлен ряд существенных недостатков, такие как «проблема маленьких файлов» и неравномерное использование ресурсов кластеров. Во многих коммерческий и исследовательских организациях встает вопрос о модернизации стека работы с данными для повышения утилизации ресурсов и расширения возможностей для эффективной работы с данными. Цель данной работы – продемонстрировать достоинства и недостатки хранилища данных нового поколения – Apache Ozone и сделать вывод о готовности технологии для полноценной замены распределенной файловой системы Hadoop (HDFS).

Полный текст

Доступ закрыт

Об авторах

Кирилл Олегович Иевлев

Московский технический университет связи и информатики

Автор, ответственный за переписку.
Email: ievlev.k.o@yandex.ru
ORCID iD: 0009-0003-2723-3154
SPIN-код: 1380-5720
ResearcherId: IAN-1730-2023

аспирант, ассистент кафедры математической кибернетики и информационных технологий

Россия, Москва

Михаил Геннадьевич Городничев

Московский технический университет связи и информатики

Email: m.g.gorodnichev@mtuci.ru
ORCID iD: 0000-0003-1739-9831
SPIN-код: 4576-9642
Scopus Author ID: 55836031600
ResearcherId: D-3256-2019

кандидат технических наук, доцент, заведующий кафедры математической кибернетики и информационных технологий, декан факультета информационных технологий

Россия, Москва

Список литературы

  1. Aggarwal R., Verma J., Siwach M. Small files’ problem in Hadoop: A systematic literature review. Journal of King Saud University “Computer and Information Sciences”. 2022. No. 34 (10). Part A. Pp. 8658–8674. doi: 10.1016/j.jksuci.2021.09.007.
  2. Harby A.A., Zulkernine F. From data warehouse to lakehouse: A comparative review. In: IEEE International Conference on Big Data (Big Data). Osaka, 2022. Pp. 389–395. doi: 10.1109/BigData55660.2022.10020719.
  3. Jain E.P., Gupta E.A. Hadoop architecture and its issues. International Journal of Engineering Research and General Science. 2017. No. 5 (2). Pp. 211–217. doi: 10.1109/CSCI.2014.140.
  4. Niazi S., Ismail M., Haridi S. et al. HopsFS: Scaling Hierarchical File System Metadata Using NewSQL Databases. In: 15th USENIX Conference on File and Storage Technologies (FAST 17). USENIX Association, 2017. Pp. 89–104. doi: 10.48550/arXiv.1606.01588.
  5. Sharma G., Tripathi V., Srivastava A. Recent trends in Big Data ingestion tools: A study. In: Research in Intelligent and Computing in Engineering, Springer, 2021. Pp. 873–881. doi: 10.1007/978-981-15-7527-3_83.
  6. Shvachko K. HDFS scalability: The limits to growth. Login Usenix Mag. 2010. No. 35. Pp. 6–16.
  7. White T. Hadoop: The definitive guide. 4 ed. O’Reilly Media, Inc., 2015. 754 p.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рис. 1. Схема взаимодействия компонентов Apache Ozone

Скачать (76KB)
3. Рис. 2. Организация хранения объектов в Apache Ozone

Скачать (98KB)
4. Рис. 3. Результат тестирования скорости записи файлов размером 1 Кб (файлов/с)

Скачать (59KB)
5. Рис. 4. Результат тестирования скорости чтения файлов размером 1 Кб (файлов/с)

Скачать (77KB)
6. Рис. 5. Результат тестирования скорости записи файлов размером 20 Мб (файлов/с)

Скачать (78KB)
7. Рис. 6. Результат тестирования скорости чтения файлов размером 20 Мб (файлов/с)

Скачать (80KB)

© Юр-ВАК, 2025

Ссылка на описание лицензии: https://www.urvak.ru/contacts/