искровые SQL обзор и история

Улей: Улей QL похож язык SQL, его дно непосредственно SQL заявление непосредственно в рабочие места MapReduce, SQL == «MapReduce

Таким образом, его скорость выполнения медленно: Улей на MapReduce Особенности: Slow

Улучшено: Улей на TEZ, Улей на Спарк, чтобы решить проблему скорости вычисления MapReduce медленной.

Spark: улей на искры ==> акула (улья на искры), на самом деле, роль акулы в переводе на язык QL РДД для работы.

акулы начал

Плюсы: очень популярно, искра на основе памяти на основе столбчатого хранения, совместит с ульем.

Неудобство: улей QL синтаксического анализа, генерации плана выполнения логики, оптимизация плана выполнения зависит от улья, просто заменить физический план выполнения от г-искровой работы на работу.

Прекращение:


13947662-c9f1fe508de33d58.png

После того, как акула прекращается, в результате чего две ветви:

1) улей на Спарк

В сообществе улей, исходный код находится в улье. Улое развитие на протяжении многих лет, продукты созревают.

2) Свечи Sql

Спарк сообщество, исходный код находится в Спарке, разработанный в последние года, заключается в оптимизации далека Акула зависимости от улья, а также поддерживает различные источники данных, различные оптимизации технологии, масштабируемость намного лучше


13947662-3cec6bae5bee7962.png

1) улей:

facebook с открытым исходным кодом из самых примитивных SQL на решениях Hadoop.

Основной принцип:

а. СКП ==> MapReduce (SQL, преобразованы в рабочие места MapReduce)

. В metastore предложил концепцию: метаданные (т.е. хранится внутри улья, что таблицы, какие столбцы таблицы, каждый столбец данных является то, что тип информации), таблица, созданная внутри улья, который является искрой SQL доступен , очень гладкие аспекты переходного периода.

с. Кроме того улей SQL SQL реляционной базы данных с такой же, он также имеет базу данных, таблицы, просматривать эти понятия.

2) Impala:

а, это Cloudera разработал свою продукцию: CDH версию Hadoop (эта версия является хорошим решением Hadoop зависит от версии), см (предоставление услуг веб-интерфейс установлен Hadoop экосистему)

б, SQL собственное исполнение демон, не запускать MapReduce-х.

с, metastore также имеет эту концепцию

3) престо

facebook с открытым исходным кодом, с Jingdong, SQL

4) бурильная (пожар в последние годы)

SQL

услуга передачи данных кадра может работать: HDFS, улей, RDBMS, JSon, HBase, mangoodb, s3 или внешние реляционная база данных

5) Спарк SQL (В последние годы, огонь)

SQL

dataframe / набор данных апи

metastore

база данных услуг может посетить: HDFS, улей, RDBMS, JSon, HBase, mangoodb, s3 или внешние реляционная база данных

Спарк SQL подробное описание


13947662-c9c9768f2ba9b571.png
Общественные активисты и стабильная версия


13947662-35323f8556d7ac85.png
Вы можете управлять SQL / улей SQL / UDF, udafs и SERDES


13947662-fe91089c46cb3537.png
Карри сторонние данные уже могут получить доступ к JDBC и ODBC с помощью


13947662-2d657ca47918ca59.png
Поддержка развития нескольких языков

SQL Спарк  IS для Спарк APOS Apache Module1 Работа со структурированными данными. (Спарк искры SQL является модулем, он обрабатывает структурированные данные , такие как TXT, JSON и т.д.)

Свечи Sql не только имеет возможность доступа и управлять SQL, есть и другие очень богатые операции: внешние источники данных, оптимизация;

Спарк Sql предоставляет SQL API также предоставляется DataFrame и DataSet API.


13947662-75991d7eac76c91b.png


13947662-b4f1f8f4ba874133.png
13947662-3cf64e2f3dc5ac19.png
13947662-89c3e7ecd24b194f.png
13947662-14d4d6ad0971df6b.png
DataFrame выполняется быстрее, чем РД


13947662-22b2ce83f7c9e6d8.png
13947662-058e870717d60127.png
13947662-29015b2a743bf6f2.png
13947662-d31947be5c4a66cf.png
Процесс оптимизации Catlist, лежащий в основе искрового SQL


13947662-bff0f83269011047.png
13947662-417d03a06e873fea.png
Принцип оптимизации DataFrame и Спарк Sql одно и то же


13947662-639e0ed61d2feb39.png

рекомендация

отblog.csdn.net/weixin_34088598/article/details/90970905