ICode9

精准搜索请尝试: 精确搜索
 • hive分区笔记2022-01-28 21:31:56

  hive分区 1.一级分区 Hive 中的分区就是分目录。和Map中的切片是基本一致的。Map的切片也是为了提高并行度。把表中的数据分开放,当你查表里数据的时候写上分区信息,避免全表扫描; 是一个优化的方案。 分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹,该文件夹下是该分

 • KAFKA会不会丢失消息2022-01-28 16:04:27

  Kafka 会不会丢消息?   阅读目录 一、认识 Kafka 二、Kafka 到底会不会丢失消息? 三、生产者丢失消息 四、Kafka Broker 丢失消息 五、消费者丢失消息 六、总结 回到顶部 一、认识 Kafka Kafka 是分布式发布-订阅消息系统。它最初由 LinkedIn 公司开发,之后成为 Apache 项目

 • 磁盘的组成2022-01-28 14:32:29

  1)磁盘主要由磁盘盘,机械手臂,磁盘读取头,主轴马达组成‘ 2)株距的写入主要在磁盘盘上,磁盘盘上面又可以细分为扇区,磁道两种单位。其中扇区又有两种大小:512bytes,4kbytes。 3)扇区:磁盘上的每个磁道被等分为若干个弧段,这些弧段便是磁盘的扇区,硬盘的读写以扇区为基本单位 3)磁柱,多个磁盘盘

 • 用文件作为Swap分区2022-01-28 10:02:39

  1.创建要作为swap分区的文件: 增加1GB大小的交换分区,则命令写法如下,其中的count等于想要的块的数量(bs*count=文件大小)。# dd if=/dev/zero of=/root/swapfile bs=1M count=1024 2.格式化为交换分区文件:# mkswap /root/swapfile #建立swap的文件系统 3.启用交换分区文件:# swapon

 • 怎样使用工具更改磁盘簇大小2022-01-27 06:00:52

  以下摘自: www.minitu.cn/?s=%E7%B0%87 怎样使用工具更改磁盘簇大小 簇是微软操作系统中磁盘文件存储管理的最小单位,也是系统可以识别的最小单位。 对于文件而言,占用的簇数量都是整数,也就是不会有两个文件占用一个簇的情况发生。比如,有1024个文件,大小为1字节,这些文件在硬盘上占用

 • HBase 热点问题——rowkey散列和预分区设计2022-01-26 17:07:12

  预分区背景 HBase默认建表时有一个region,这个region的rowkey是没有边界的,即没有startkey和endkey,在数据写入时,所有数据都会写入这个默认的region,随着数据量的不断增加,此region已经不能承受不断增长的数据量,会进行split,分成2个region。 在此过程中,会产生两个问题: 数据往一个re

 • linux產品空間不足或者分区满了,如何进行扩容2022-01-26 12:06:13

    图片中可以看到挂载点“/”的利用率移到77%,空间不够,所以要对其进行分区。    1.     先进入虚拟机设置里增大磁盘空间 注意:将100改成200,以扩大空间。这里一定要写比100大的数,因为他是“增加到”200GB,而不是“增加了200GB”    2.下图可以看到,硬盘空间增大为214.7GB,在

 • PostgreSQL 慢查询SQL跟踪操作及解决方案2022-01-26 09:32:36

  生产案例 随着数据量的增加,数据库cpu占用爆炸,直接100%导致服务崩溃。 原因居然是一个简单的 update 语句。 赶紧定位问题 简单流程如下: 定位问题库 > 读库 or 写库查看连接数。CPU利用率到达100%,首先怀疑,是不是业务高峰活跃连接陡增,而数据库预留的资源不足造成的结果。我们

 • win10双系统安装2022-01-25 15:36:45

  首先打开windows磁盘管理界面    在你系统分区所在磁盘的任意一个分区开辟一个空卷。比如我这里原本系统盘在1。    找到有空位的分区开辟空卷        完成后如图                    再下载DISM++与EASYBCD。 链接:https://pan.baidu.com/s/1YkoogHN1gDN

 • Spark分区2022-01-24 23:34:52

  默认采用的是Hash分区 缺点:可能导致每个分区中数据量的不均匀,极端情况下会导致某些分区拥有RDD的全部数据 Ranger分区 要求RDD中的KEY类型必须可以排序 自定义分区 根据需求,自定义分区

 • CAP理论以及kafka当中的CAP机制2022-01-24 22:32:28

  CAP理论以及kafka当中的CAP机制 1.1、分布式系统当中的CAP理论1.2、Partition tolerance1.3、Consistency1.4、Availability1.5、kafka当中的CAP应用 1.1、分布式系统当中的CAP理论 分布式系统(distributed system)正变得越来越重要,大型网站几乎都是分布式的。 分布式系统

 • kafka(二)2022-01-24 20:01:16

  批次 说明:在kafka中消息是按照一个批次一个批次发送给kafka服务器的。(减少推送请求) 主题 说明: 即顾名思义,消息的主题 分区 说明:一个主题拥有多个分区 偏移量 消费者群组 说明:作为一个群组内,一个主题下的一个分区只属于群组内的一个消费者,用于区分。  kafka安装环境+部署 可

 • Kafka 笔记2022-01-23 20:33:49

  仅仅记录最近学习Kafka笔记 视频地址:https://www.bilibili.com/video/BV1Xy4y1G7zA?p=25 kafka视频笔记命令:创建生产者:kafka-console-producer.bat --broker-list localhost:9092 --topic yi创建消费者(带消费组):kafka-console-consumer.bat --bootstrap-server localhost:9092

 • Spark-Sql Hint 解决小文件导致查询慢的问题2022-01-23 16:34:45

  对一个大表进行了30个天分区的查询, spark客户端显示了所有excutor均已执行完毕. 查看hdfs分区也显示已有数据, desc表名显示表还没作成. 于是用 hadoop fs -ls 看了下hdfs文件数发现有上万个小文件. 导致合并查询结果时间巨长 小文件过多会导致文件系统效率低下.我们可以在写spar

 • kafka读书笔记(二)浅谈生产者2022-01-23 14:34:56

  生产者的生命周期是怎样的? 配置生产者客户端参数并创建相应实例构建待发送的消息发送消息关闭消费者实例 生产者做了些什么? 将消息和消息相关信息封入ProducerRecord通过拦截器对消息进行过滤或修改使用序列化器将对象换成字节数组(broker只接收字节数组)使用分区器指定消息对

 • Doris之动态分区2022-01-22 17:02:00

  动态分区 动态分区是在 Doris 0.12 版本中引入的新功能。旨在对表级别的分区实现生命周期管理(TTL),减少用户的使用负担。 目前实现了动态添加分区及动态删除分区的功能。 动态分区只支持 Range 分区。 原理 在某些使用场景下,用户会将表按照天进行分区划分,每天定时执行例行任

 • Spark基本概念2022-01-21 18:35:13

  Spark核心组件 Driver 将用户程序转化为作业(job)在Executor之间调度任务(task)跟踪Executor的执行情况通过UI展示查询运行情况  Executor Spark Executor是集群中工作节点(Worker)中的一个JVM进程,负责在 Spark 作业中运行具体任务(Task),任务彼此之间相互独立。负责运行组成Spark应

 • 修改swap分区大小2022-01-21 14:34:04

  需求 安装时分配了过量的swap分区,需要减小容量。 实现 删除原有swap 使用sudo swapoff -a关闭swap后删除swap分区 使用gparted将swap分区未分配空间并入/分区 新增调整swap sudo fallocate -l 2G /swapfile sudo chmod 600 /swapfile sudo mkswap /swapfile sudo swapon /swapfile

 • Linux目录树与磁盘分区2022-01-21 10:00:56

  1 目录树 Linux的目录为树形结构(目录树),有一个在文件系统中唯一的“根”,系统的所有文件都作为“根”的子节点存在,如下图所示: 如上图所示,根目录“/”下面有“bin、boot、dev、etc、home、root”等目子录;各子目录存放特定类型的文件,如“boot”下存放开机启动时需要的文件。 2 磁盘分

 • 大三寒假学习 spark学习 RDD的依赖关系和运行过程2022-01-20 13:04:10

  窄依赖与宽依赖的区别: 窄依赖:表现为一个父RDD的分区对应于一个子RDD的分区或多个父RDD的分区对应于一个子RDD的分区 宽依赖:表现为存在一个父RDD的一个分区对应一个子RDD的多个分区 Stage的划分:   Spark通过分析各个RDD的依赖关系生成了DAG再通过分析各个RDD中的分区之间的依

 • 大三寒假学习 spark学习 RDD2022-01-20 12:32:27

  设计背景:  许多迭代式算法(比如机器学习、图算法等)和交互式数据挖掘工具,共同之处是,不同计算阶段之间会重用中间结果  目前的MapReduce框架都是把中间结果写入到HDFS中,带来大量的数据复制、磁盘I0和序列化开销    RDD就是为了满足这种需求而出现的,它提供了一个抽象的数据

 • Centos7+WIN10双系统部署安装2022-01-19 23:03:37

  目录 1.装WIN10系统 2.安装双系统Centos 3.配置双系统引导 双系统:同时装有两个不一样的系统,在开机时自由使用选择系统,两个系统互不影响。采取方式:在win10下装Linux系统更方便些 Linux系统: Centos7系统 1.装WIN10系统 步骤1:首先安装好win10系统 装WIN10系统方式很多,可以自行百

 • TiDB分区表2022-01-19 17:05:13

  分区表类型 Range分区:时间范围类List分区: 数值类的确值,例如status in (0,1,2)每个值是一个分区;List Columns: 类型不限int的确值,如date='2022-01'Hash分区: 目的为了打散分区,防止写热点 注:分区表的每个唯一键或者主键必须包含分区表达式中的所有列; 有效分区表 mysql> show create

 • 服务器Ubuntu Server 18.04,从安装到配置到管理2022-01-18 00:01:03

  记录: 实验室来了一台新的服务器,需要为该服务器安装Ubuntu Server。安装完系统后,为了实验室每个人在上面跑实验能做到环境不冲突,并且为了数据的安全,故在服务器上面搭建docker,并通过一些自动化脚本管理docker的使用。最后为了让校外的人员可以访问到该服务器,通过frp工具来对服

 • 【无标题】2022-01-17 21:34:34

  kafka消息队列的方式 目录概述 小结:参考资料和推荐阅读 LD is tigger forever,CG are not brothers forever, throw the pot and shine forever. Modesty is not false, solid is not naive, treacherous but not deceitful, stay with good people, and stay away from p

专注分享技术,共同学习,共同进步。侵权联系[admin#icode9.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有