ICode9

精准搜索请尝试: 精确搜索
  • Kafka 部署及基础原理2021-12-26 14:02:24

    文章目录 一、Kafka概述1.1Kafka介绍1.2 消息队列1.3 消息队列的两种模式1.4 kafka快速入门1.4.1 安装包下载1.4.2 安装kafka1.4.3 kafka命令行操作 二、Kfaka构架2.1 kafka基础框架2.2 kafka工作流程以及文件储存机制2.3 kafka 生产者2.3.1 分区策略2.3.2 数据可靠性保证

  • 08:Hive从0到1系列学习:分区表2021-12-26 09:03:06

    内容目录 分区表分区表 分区表 Hive的存储是在hdfs上,当Hive创建一张表的时候,其实是在hdfs上创建了一个文件夹。在查询数据的时候,也是将文件夹下所有的文件进行读取,这在海量数据的应用中无疑是非常耗时的,为了进行查找优化,可以使用分区分桶,将数据按照分区分开,在查询的时

  • hive调优第一部分2021-12-25 16:58:30

    1、Explain查看执行计划 explain可以查看执行计划 -- 创建大表 create table bigtable(id bigint,t bigint,uid string,keyword string,url_rank int,click_num int,click_url string ) row format delimited fields terminated by '\t'; -- 创建小表 create table small

  • Spark优化_代码优化_Map端预聚合算子->combineByKey2021-12-24 20:30:12

    package other import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} import scala.collection.mutable.ListBuffer /** * @Author yqq * @Date 2021/12/24 19:37 * @Version 1.0 */ object CombineByKeyTest { def main(args: Arra

  • Kafka学习之一深度解析2021-12-23 22:37:14

    背景介绍 Kafka简介   Kafka是一种分布式的,基于发布/订阅的消息系统。主要设计目标如下: 以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间的访问性能 高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条消息的传输 支持Kafka Serv

  • 如何分表分库?业界有哪些常用方案?可能存在什么问题,hibernate与mybatis面试题2021-12-22 17:58:27

    二、分库分表 ========== 1、水平分库 ========== 概念: 以字段为依据,按照一定策略(hash、range等),将一个库中的数据拆分到多个库中。 结果: 每个库的结构都一样; 每个库的数据都不一样,没有交集; 所有库的并集是全量数据; 场景: 系统绝对并发量上来了,分表难以根本上解决问题,并且

  • kafka<分区规则>2021-12-19 21:02:48

    1.指定分区的,生产者直接发送消息到相应的分区 2.没指定分区的,生产者根据Key进行hash值与topic的partition数进行取余得到partition值 3.没设定分区的,也没设定相应的Key,则生产者按照轮询的方式生产消息(第一次调用时产生的随机数,把这个值与可用的topic的partitioin总数取余得到一

  • Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性)2021-12-19 08:31:50

    CAP原则(CAP定理)、BASE理论   一、CAP原则     CAP原则又称CAP定理,指的是在一个分布式系统中, Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可得兼。   CAP原则是NOSQL数据库的基石。 分布式系统的CAP理论:理论首先把分布式系统中的三个

  • kafka架构设计(二)2021-12-17 19:34:14

    一:概述  Kafka是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统,可以用于web/nginx日志、访问日志,消息服务等等。  Kafka是基于发布-订阅模式,即同一条数据可以被多个消费者消费,但是多个消费者必须处在不同分组中二:优点:  1)解耦:    数据产生系

  • Spark源码——Shuffle过程2021-12-16 18:34:58

    shuffle很重要,调优的重点、性能的杀手 未优化的shuffle: (图片来源:北风网) 未优化的shuffle有两个特点: spark早期版本中,shuffleMapTask将所有数据写入bucket缓存后,才会刷新到磁盘,但是缓存就容易OOM,所以后来的版本,这个缓存设置了阈值,默认100kb,写入数据达到缓存的阈值后,就会将数

  • cannot perform an INSERT without a partition column value2021-12-12 11:30:49

    文题是一个错误,小众错误,或许和postgresql相关,或许和citus相关。然而这个错误在网络上只会有一个地方存在。 故事背景 错误的背景就使用 benchmarksql工具测试citus的TPCC性能。因为citus是PG的一个分布式插件,能将多个单机PG节点变成分布式数据库,这种分库分表的插件的使用需要

  • Eureka和Zookeeper的区别2021-12-11 02:31:07

    首先介绍一下CAP原则: C:Consistency-数据一致性; A:Availability-服务可用性 P:Partition Tolerance-服务对网络分区故障的容错性。 这三个特性在任何系统中不可能同时满足,最多同时满足两个,其中P是必须满足的。

  • kafka集群管理指南2021-12-08 03:31:06

    本指南使用的工具为kafka/bin目录下相关脚本。 添加/删除topics 可以使用如下命令进行新增topics: > bin/kafka-topics.sh --bootstrap-server broker_host:port --create --topic my_topic_name \ --partitions 20 --replication-factor 3 --config x=y 其中,—topic表示

  • Kafka高吞吐量的原因2021-12-07 17:31:31

    1、顺序读写   新消息会追加到末尾,充分利用了磁盘的顺序读写的性能。顺序读写不需要磁盘磁头的寻道时间,避免了随机磁盘寻址的浪费,只需很少的扇区旋转时间,所以速度远快于随机读写。   2、批量异步发送   kafka允许producter将消息先存在本地达到一定数量在批量异步发送,可减少I

  • Kafka基本概念2021-12-06 09:00:32

    一、Kafka主要组件   1)producer(生产者):主要用于生产消息,是kafka当中的消息生产者,生产的消息通过topic进行归类,保存到kafka的broker里面去;   2)topic(主题):kafka将消息以topic为单位进行归类,主题始终支持多用户的订阅;   3)partition(分区):一个topic可以有多个分区,每个分区保存部分数

  • kafka系列二:架构设计2021-12-05 14:58:18

    kafka架构设计 1. 定义 Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用与大数据实时处理领域。 1.1 消息队列 Kafka 本质上是一个 MQ(Message Queue),使用消息队列的好处? (面试会问) 解耦:允许我们独立的扩展或修改队列两边的处理过程。可恢复性:即使一个处

  • Kafka源码的学习框架:覆盖Kafka核心机制的方方面面2021-12-03 19:59:50

    一、Kafka 总览 1)kafka 集群是由 broker 组成,每个 borker 拥有一个 controller,基于 zookeeper 做集群 controller leader 选举,以及存储集群核心元数据,leader controller 负责管理整个集群; 2)以 Topic->partition-> replication 来存储生产者数据,每个 partition 为一个 Log,log 分

  • MySQL优化表分区2021-12-03 18:02:08

     转载于:https://www.bilibili.com/video/BV1E7411q7Nx?p=1 一、RANGE分区 基于属于一个给定连续区间的列值,把多行分配给分区。 这些区间要连续且不能相互重叠,使用VALUES LESS THAN操作符来进行定义。 -- RANGE分区案例 create table t_student ( id varchar(50) not nul

  • kafka 学习笔记12021-12-01 22:32:49

    Event streaming is the digital equivalent of the human body’s central nervous system 概述 分布式基于发布/订阅模式的消息队列,应用于大数据实时处理领域。 1 6 3005 应用 异步处理 两种模式 点对点 消费者主动拉取消息发布订阅 一对多 消费者消费数据后不会清除消息

  • Iterables.partition2021-11-27 19:01:18

    很多时候都有将List拆分为给定大小的多个子列表的操作,以前需要写很多复杂的逻辑才能实现,试试 强大的集合工具Iterables Guava提供了一些java.util.Collections中没有提供的关于Iterable的公共操作,而这些操作都封装在了工具类 - Iterables中. List<Integer> list1 = Lists.n

  • sql server Row_number用法2021-11-24 13:33:41

    作用 对结果集的输出进行编号。 具体来说,返回结果集分区内行的序列号,每个分区的第一行从 1 开始。 备注 ROW_NUMBER 是运行查询时计算出的临时值 语法 ROW_NUMBER ( ) OVER ( [ PARTITION BY value_expression , ... [ n ] ] order_by_clause ) 一般写为 ROW_NUMBER ( ) OVER ( PA

  • Linux 磁盘管理2021-11-22 10:03:12

    Linux 磁盘管理 # 为什么服务器中有10块硬盘,在 linux 系统中显示少于10块的情况 答:因为系统盘做了 raid 将几块数据盘做成了一块,用与防止某一块数据盘损坏导致数据丢失。 sda sdb sdc sde 指的就是 # 系统分区是在作什么? 答:系统分区是指在一块硬盘中化一个到四个分区,类似 windows

  • 什么是 msvcp120.dll 错误消息?.2021-11-21 14:31:18

    动态链接库 msvcp120.dll 错误 Msvcp120.dll 被视为一种 动态链接库(DLL)文件。动态链接库文件,如 msvcp120.dll,本质上是一个“指南”,它存储要跟进的可执行(EXE)文件适用的信息和指令 - 如 bcdedit.exe。创建这些文件是为了使多个程序(例如 EaseUS Partition Master Free Edition)可以共

  • mysql分区2021-11-19 10:01:15

    搞懂MySQL分区 转自:https://www.cnblogs.com/GrimMjx/p/10526821.html 一.InnoDB逻辑存储结构# 首先要先介绍一下InnoDB逻辑存储结构和区的概念,它的所有数据都被逻辑地存放在表空间,表空间又由段,区,页组成。 段# 段就是上图的segment区域,常见的段有数据段、索引段、回滚段等,在Inn

  • vearch源码阅读——http重要接口一览2021-11-18 19:34:52

    基本名词解释 Vearch 是对大规模深度学习向量进行高性能相似搜索的弹性分布式系统。可以做一个和mysql类比的抽象理解,vearch就是一个分布式数据库,只不过存的数据的某些属性可能是向量。下面对vearch里数据相关一些名词做解释: db :一个库,类似mysql的一个数据库space :一个表空间,

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有