Crunch — грызть
с хрустом.
The Apache Crunch
Java library provides a framework for writing, testing, and running
MapReduce pipelines.
Running on top of
Hadoop MapReduce, the Apache Crunch™ library is a simple Java API
for tasks like joining and data aggregation that are tedious to
implement on plain MapReduce.
Прототип
проекта (очень хорошо документированный),
демонстрирующий параллельное выполнение
ГИС-задачи «сколько точек попало в
полигон»:
Here is a
proof-of-concept project that spatially enables a crunch pipeline
with a Point-In-Polygon function from a very large set of static
point data with a small set of dynamic polygons.
Crunch has
simplified so much so the process, that is came down to a one line
syntax:
final PTable<Long, Long> counts = pipeline. readTextFile(args[0]). parallelDo(new PointInPolygon(), Writables.longs()). count();
The spatial operation is performed using the Esri Geomerty API for
Java. The result of the spatial join is a count of points per
polygon.
Мансур
продолжает нас радовать экспериментами
по обработке BigData, причем это не просто
данные, а пространственные, что для ГИС
гиков — бальзам на сердце.
original post http://vasnake.blogspot.com/2014/01/crunch.html
Комментариев нет:
Отправить комментарий