使用 Presto + Velox 读取 HDFS 上的数据

当前 velox 支持了 HDFS、S3 以及本地文件系统，其中 HDFS 和 S3 模块是需要在编译的时候显示指定的，比如我们要测试 HDFS 功能，编译 prestissimo 的时候需要显示指定 PRESTO_ENABLE_HDFS=ON，如下：[code lang="bash"]PRESTO_ENABLE_HDFS=ON make release[/code]Velox 解析 HDFS NN endpoint 逻辑核心代码如下：[code lang="CPP"]HdfsServiceEndpoint HdfsFileSystem::getServic

w397090770 1年前 (2023-06-29) 609℃ 0评论3喜欢

Prestissimo

如何构建 Presto、Prestissimo\Velox 镜像

$如何构建 Presto、Prestissimo\Velox 镜像$

为了方便集群的部署，一般我们都会构建出一个 dokcer 镜像，然后部署到 k8s 里面。Presto、Prestissimo 以及 Velox 也不例外，本文将介绍如果构建 presto 以及 Prestissimo 的镜像。构建 Presto 镜像Presto 官方代码里面其实已经包含了构建 Presto 镜像的相关文件，具体参见 $PRESTO_HOME/docker 目录：[code lang="bash"]➜ target git:(velox_docker) ✗ ll ~/

w397090770 1年前 (2023-06-21) 423℃ 0评论8喜欢

Presto

图文介绍 Presto + Velox 整合

过去十年，存储的速度从 50MB/s（HDD）提升到 16GB/s（NvMe）；网络的速度从 1Gbps 提升到 100Gbps；但是 CPU 的主频从 2010 年的 3GHz 到现在基本不变，CPU 主频是目前数据分析的重要瓶颈。为了解决这个问题，越来越多的向量化执行引擎被开发出来。比如数砖的 Photon 、ClickHouse、Apache Doris、Intel 的 Gazelle 以及 Facebook 的 Velox（参见《Velox 介绍

w397090770 2年前 (2022-09-29) 1920℃ 0评论3喜欢

Presto

Velox 介绍：一个开源的统一执行引擎

如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：过往记忆大数据Velox 利用了大量的运行时优化，例如过滤器和连接的重新排序（conjunct reordering）、数组和基于哈希的聚合和连接的 key 标准化、动态过滤器下推（dynamic filter pushdown）和自适应列预取（adaptive column prefetching）。考虑到从传入的数据批次中提取的

w397090770 2年前 (2022-09-05) 2147℃ 0评论3喜欢