数据反射的目的是进行数据的加速处理,dremio 包含了raw 模式、聚合处理,以及外部模式创建反射比较简单,可以给予rest api 的sql以及可视化UI 操作,同时官方也提供了一个比较好的实践文档 参考操作 查看查询效果 说明 以下参考资料值得看看,尤其是官方关于最佳实践的电子
dremio 是基于java 开发的,对于jvm 以及系统内存的配置就很重要了 最大内存(推荐配置) 最大内容,可以方便dremio 自动基于节点类型进行heap 以及direct 内存的分配 参数 DREMIO_MAX_MEMORY_SIZE_MB=16384 同时我们可以自己配置heap 以及direct 内存,但是有一些约定 如果都指定了,那么
前边我们基本了解了dremio 的组件构成,一下是关于ha 的一个说明dremio 的ha 使用了一个活动的master coordinator 以及多个备份的coordinator 包含的特点 ha 支持自动恢复操作 ha 模式使用了冷备模式 协调器的选举是通过zk 完成的 元数据存储(kvstore) 不是分布式的,挂载的文件系统必
master coordinator services: { coordinator.enabled: true, coordinator.master.enabled: true, executor.enabled: false } secondary 注意不要运行元数据的命令在secondary 节点 services: { coordinator.enabled: true,
dremio 是一个数据湖引擎,包含以下特性 快速的查询 基于了apache arrow 进行数据查询 自服务的语义层 可以依托dremio 提供的数据虚拟服务层以及space 解决 基于灵活以及开源的技术 没有厂商技术的限制 强大join 支持 支持我们查询各种数据,同时进行join ,包含
cube.js 集成dremio 是一个很不错的选择,可以使用dremio 强大的数据处理能力+cube.js 灵活的数据分析可以加速我们数据分析应用的开发 一个参考集成方案 简单说明,cube.js 进行数据分析,dremio 进行数据湖的处理(连接+加速数据处理) 简单集成 可以基于dreamio 提供driver 直
nessie 是由dremio团队开源的一个类似git 管理数据湖的系统方案 支持的特性 类似git 模式的版本管理 跨表事物(基于iceberg) 开放式的数据湖支持 参考资料 https://projectnessie.org/ https://www.dremio.com/introducing-project-nessie/