Prestissimo：使 Presto 性能提升三倍

Prestissimo 和 Velox 回顾

Velox 是用于向量化执行的开源最先进的项目：

•在交互式、批处理、流处理、人工智能等方面具有一致的语义；•最大化利用硬件资源；•使用 C++ 编写以便实现最高效率

为高性能进行相关的优化：

•使用字典编码（Dictionary encoding）来实现零拷贝执行•自定义字符串、数组和 Map 编码，允许完全向量化的条件表达式计算，而不需要额外的数据复制•自适应地使用基于数组的聚合和 normalized keys•用于低延迟的层次化语义感知缓存（Hierarchical semantic-aware cache ）•Aria 风格的过滤下推到 TableScan

从上图可以看出，Prestissimo 其实是 Presto on Velox 的代号。Prestissimo 使用 Presto 的 Coordinator 进行 SQL 解析、优化以及管理分布式的执行。SQL 的执行是发送到 Velox 中执行的，其是使用 C++ 实现的。

Velox 支持的函数

上图是 Presto 支持的函数种类。

而 Velox 支持的标量（Scalar）和聚合函数如上所示（绿色代表支持），可以看见大部分常见的 Presto 函数 Velox 都支持。

上面是 Velox 中实现标量函数的方法。可见，一个简单的函数是包装在 VELOX_UDF_BEGIN 和 VELOX_UDF_END 宏之间。

关于这部分大家可以参见 Velox 的官方文档：https://facebookincubator.github.io/velox/develop/scalar-functions.html

Parquet 和 S3 支持

Velox 中对 Parquet 的支持是由 Intel 工程师贡献的；当前的实现是包装了 DuckDB 的 Parquet Reader（https://github.com/duckdb/duckdb）

•在 Velox 中，DuckDB 被用作嵌入式的类库，在测试中用作验证的内存中参考数据库。•支持部分过滤下推

DuckDB 的内存格式和 Velox 很类似，对大多数类型都是零拷贝。

当然，目前 Velox 的 Parquet Reader 是可插拔的。

Velox 中对 S3 的支持是由 Ahana 工程师贡献的；扩展了 Velox 的 FileSystem API。也是可插拔的；依赖 AWS C++ SDK；使用 Minio 覆盖CI。

下面我们来看下 Prestissimo 中是如何加载 S3 中的 Parquet 文件的：

•Prestissimo 实现了 Presto Worker REST API；•Control Plane 接受来自 coordinator 的查询片段（query fragment） Post 请求•查询片段（query fragment）接着被编译成 plan；•plan 被映射到 Velox library；•在执行中 Velox library 涉及的组件如下：•Tasks, Drivers•TableScan 使用 Connector 抽象；•HiveConnector 接口使用 S3 文件句柄和 Parquet reader 实例设置 reader