VSnake notes: Apache Drill

2015-05-22

Apache Drill

v.1.0 Apache Drill – это серъезная заявка.

Развелось тут, понимаешь, всяких датастораджей, плюнуть некуда – попадешь в Hadoop или в МонгоДБ какой-нибудь.

Приходится извращаться, делать поверх всей этой чехарды слой ~~шоколада~~ SQL запросов. Надо же как-то данные смотреть/вынимать, правда?

Представлен первый значительный релиз проекта Apache Drill, в рамках которого развивается движок для организации выполнения SQL-запросов над полуструктурированными данными, хранящимися в NoSQL-хранилищах. Особенностью движка является независимость от схемы хранения данных, что позволяет организовать анализ данных в различных хранилищах без предварительного определения их структуры (schema-free). В частности, Apache Drill даёт возможность выполнять интерактивные запросы на языке ANSI SQL для сложных или постоянно изменяющихся структур данных, включая форматы JSON, ProtoBuf, XML, AVRO и Parquet, а также таблицы HBase, без необходимости задания схемы хранения.

Структура данных в хранилище распознаётся на лету и преобразуется во внутреннюю JSON-подобную модель данных, которая предоставляет информацию о структуру БД при выполнении SQL-запросов. Для обработки сложных и вложенных типов данных в Apache Drill предусмотрен ряд расширений SQL. В качестве одного из практических применений Apache Drill называется возможность интеграции завязанных на SQL систем бизнес-аналитики и хранилищ больших объёмов данных на основе Apache Hadoop или MongoDB

http://www.opennet.ru/opennews/art.shtml?num=42265

"The production-ready 1.0 release represents a significant milestone for the Drill project," said Tomer Shiran, member of the Apache Drill Project Management Committee. "It is the outcome of almost three years of development involving dozens of engineers from numerous companies. Apache Drill's flexibility and ease-of-use have attracted thousands of users, and the enterprise-grade reliability, security and performance in the 1.0 release will further accelerate adoption."

With the exponential growth of data in recent years, and the shift towards rapid application development, new data is increasingly being stored in non-relational, schema-free datastores including Hadoop, NoSQL and Cloud storage. Apache Drill revolutionizes data exploration and analytics by enabling analysts, business users, data scientists and developers to explore and analyze this data without sacrificing the flexibility and agility offered by these datastores. Drill processes the data in-situ without requiring users to define schemas or transform data.

https://blogs.apache.org/foundation/entry/the_apache_software_foundation_announces76

http://drill.apache.org/

https://github.com/apache/drill