Технология хранения и обработки больших данных Hadoop. Тимур Машнин

Читать онлайн книгу.

Технология хранения и обработки больших данных Hadoop - Тимур Машнин


Скачать книгу
target="_blank" rel="nofollow" href="#_21.jpg"/>

      Еще один инструмент – это Impala, который был разработан специально для Cloudera, и это механизм запросов, работающий поверх Hadoop.

      Impala привносит в Hadoop технологию масштабируемой параллельной базы данных.

      И позволяет пользователям отправлять запросы с малыми задержками к данным, хранящимся в HTFS или Hbase, не сопровождая это масштабными перемещениями и манипулированием данными.

      Impala интегрирована с Hadoop и работает в той же экосистеме.

      Это обеспечивает масштабируемую технологию параллельных баз данных на вершине Hadoop.

      И это позволяет отправлять SQL-подобные запросы с гораздо более высокими скоростями и с гораздо меньшей задержкой.

      Еще один дополнительный компонент, это Spark.

      Хотя Hadoop широко используется для анализа распределенных данных, в настоящее время существует ряд альтернатив, которые предоставляют некоторые интересные преимущества по сравнению с традиционной платформой Hadoop.

      И Spark – это одна из таких альтернатив.

      Apache Spark – это фреймворк экосистемы Hadoop с открытым исходным кодом для реализации распределённой обработки данных.

      В отличие от классического обработчика Hadoop, реализующего двухуровневую концепцию MapReduce с дисковым хранилищем, Spark использует специализированные примитивы для рекуррентной обработки в оперативной памяти, благодаря чему позволяет получать значительный выигрыш в скорости работы для некоторых классов задач, в частности, возможность многократного доступа к загруженным в память пользовательским данным делает библиотеку привлекательной для алгоритмов машинного обучения.

      И Spark поддерживает язык Scala, и предоставляет уникальную среду для обработки данных.

      Для управления кластерами Spark поддерживает автономные нативные кластеры Spark, или вы можете запустить Spark поверх Hadoop Yarn.

      Что касается распределенного хранилища, Spark может взаимодействовать с любой системой хранения, включая HDFS, Amazon S3 или с каким-либо другим пользовательским решением.

      Cloudera QuickStart VM

      Для начала работы нам нужно скачать виртуальную машину Cloudera, позволяющую ознакомиться со стеком Cloudera Hadoop.

      После скачивания и распаковки архива, запустим виртуальную машину.

      Для этого в VirtualBox импортируем скачанную конфигурацию ovf.

      После запуска виртуальной машины Cloudera QuickStart вы увидите рабочий стол и открытый браузер.

      И если вы посмотрите на этот браузер, вы увидите, что здесь представлено несколько разных сервисов Cloudera.

      Здесь есть Hue, Hadoop, HBase, Impala, Spark, и т. д.

      Это все приложения стека Cloudera Hadoop.

      Здесь браузер выступает как клиент, для доступа к этим сервисам, запущенным на виртуальной машине, для доступа с помощью URL адреса.

      И давайте пройдемся по ним и узнаем, что они нам могут предоставить.

      Откроем вкладку Overview NameNode Hadoop.

      Здесь мы видим обзор нашего стека Hadoop.

      Мы можем видеть, когда произошла инициализация этого стека.

      И этот обзор дает нам полную сводку по


Скачать книгу