ICode9

精准搜索请尝试: 精确搜索
  • Flink实时计算2022-02-15 15:01:36

      flink计算过程:Source->Transform->Sink  整体设计        消费kafka数据,解析、计算后,分两路输出 1 归档(HDFS) 2 业务应用(PG) 代码实现        消费kafka:FlinkKafkaConsumer<byte[]> kafkaConsumer        解         析: 按照协议、结构规则,构建map函数,解析并

  • GroupTableAggFunction源码解读2022-02-11 10:03:16

    /* * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information * regarding copyright ownership. The ASF licenses this file * to y

  • 【Flink】Flink基础数据类型和自定义Sink2022-02-11 00:00:42

    Flink基础数据类型和自定义Sink 基础数据类型自定义SinkkafkaRedisElasticsearchMySQL 基础数据类型 Flink 支持所有的 Java 和 Scala 基础数据类型,Int, Double, Long, String…… DataStream<Integer> numberStream = env.fromElements(1, 2, 3, 4); numberStream.ma

  • 总结:Flink2022-02-10 18:29:59

    一、为什么要使用分布式计算框架? 1、计算能力 对于不涉及到IO的计算,分布式计算相当于多个人计算,如10台计机器计算速度是1台机器计算速度的10倍。而分布式计算框架能充分发挥分布式计算优势。 2、丰富的API 3、高可用,故障恢复,易扩展 二、Flink优秀设计理念之强一致性(灾备) Flink

  • Flink 简介2022-02-10 16:34:47

    一、Flink 简介   Flink起源于Stratosphere项目,Stratosphere是在2010~2014年由3所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目,2014年4月Stratosphere的代码被复制并捐赠给了Apache软件基金会,参加这个孵化项目的初始成员是Stratosphere系统的核心开发人员,2014年12月

  • flink实时读取mongodb方案调研-实现mongodb cdc2022-02-09 23:05:04

    背景介绍 mongodb目前是很多企业业务上常用的nosql数据库。我们需要对这些业务mongodb数据库进行 数据同步到 数据仓库中进行 数据分析处理。 技术选型 CDC介绍 CDC (Change Data Capture) 是一种用于捕捉数据库变更数据的技术 CDC 技术的应用场景非常广泛: 数据同步:用于备份,

  • Flink zookeeper HA 实现分析2022-02-09 22:31:07

    Flink zookeeper HA 实现分析 Zookeeper HA相关配置 ## 使用zk做HA high-availability: zookeeper ## zk地址 high-availability.zookeeper.quorum: node1:2181,node2:2181,node3:2181 ## flink在zk下的工作路径 high-availability.zookeeper.path.root: /flink ## 任务所

  • flink-standalone部署。2022-02-09 21:57:59

    最近上面想要通过flink-cdc来实现mysql数据实时同步至Elasticsearch,由于可以通过sql来实现数据同步,难度和投入都相对较小。于是自己研究了下flink,由于flink-cdc 现在最高支持flink1.13的版本,所有本文使用1.13.5的版本演示部署flink集群。 flink大数据框架,官方推荐了三种集群模

  • flink The parallelism of non parallel operator must be 12022-02-09 17:59:10

    flink学习过程中遇到The parallelism of non parallel operator must be 1问题 Exception in thread "main" java.lang.IllegalArgumentException: The parallelism of non parallel operator must be 1.     at org.apache.flink.util.Preconditions.checkArgument(Precond

  • 【大数据面试】Flink 03-窗口、时间语义和水印、ProcessFunction底层API2022-02-08 19:32:49

    三、窗口   1、窗口的介绍   (1)含义   将无限的流式数据切割为有限块处理,以便于聚合等操作   (2)图解       2、窗口的分类   (1)按性质分   Flink 支持三种划分窗口的方式,time、count和会话窗口(Session Windows):session间隔定义了非活跃周期的长度,一段时间没有接收到新数据就

  • 【大数据面试】Flink 01:概述2022-02-07 20:02:17

    一、概述 1、介绍 对无界和有界数据流进行有状态计算的分布式引擎和框架,并可以使用高层API编写分布式任务,主要包括: DataSet API(批处理):静态数据抽象为分布式数据集,方便使用操作符进行处理(Python) DataStream API(流处理):对分布式流数据处理,从而进行各种操作 Table API:将结构化数据抽象

  • flink -2022-02-07 18:06:36

    Flink DataStream 模板 package org.example.scala import org.apache.flink.api.java.ExecutionEnvironment import org.apache.flink.streaming.api.scala.{StreamExecutionEnvironment, _} /** * date: 2021-03-23 14:43 * author: jichun.yang * remark: 测试flink

  • Flink应用场景:社交应用中同步用户信息到ES2022-02-05 16:59:55

    背景 目前公司社交应用“暖聊”中的首页推荐等用户匹配功能,都是基于 es 算法实现,那么就需要将用户数据实时同步到 es。项目中操作 es 的方式是基于 jpa 框架直连操作 es,当用户信息变更时,通过 jpa 的 save 方法实时同步用户数据到 es。这样做的后果就是,es 更新频繁,在用户活跃高峰

  • Yelp 实现了一个连接算法使用好flink2022-02-04 13:00:59

      在 Yelp,我们生成了大量高吞吐量的数据流,包括日志、业务数据和应用程序数据。我们需要对这些数据流进行连接、过滤、聚合,有时候甚至需要进行快速转换。   摘要   在 Yelp,我们生成了大量高吞吐量的数据流,包括日志、业务数据和应用程序数据。我们需要对这些数据流进行连接

  • 【Flink】Flink 计算资源管理2022-02-03 14:31:36

    1.概述 转载:Flink 源码阅读笔记(6)- 计算资源管理 在 Flink 中,计算资源的是以 Slot 作为基本单位进行分配的。本文将对 Flink 中计算资源的管理机制加以分析。 2.Task Slot 的基本概念 我们在前面的文章中了解了 Flink 集群的启动流程。在 Flink 集群中,每个 TaskManager 都是

  • 第09讲:Flink 状态与容错2022-02-03 14:31:10

    Flink系列文章 第01讲:Flink 的应用场景和架构模型 第02讲:Flink 入门程序 WordCount 和 SQL 实现 第03讲:Flink 的编程模型与其他框架比较 第04讲:Flink 常用的 DataSet 和 DataStream API 第05讲:Flink SQL & Table 编程和案例 第06讲:Flink 集群安装部署和 HA 配置 第07讲:Flink 常见

  • flink双流JOIN原理2022-02-02 22:33:23

    JOIN简介 谈flink双流JOIN之前,我们先谈一下大家最熟悉的mysql表join,我们知道表join有如下几种,具体区别就不在介绍了。那么流的join和表的join有什么区别呢?本文我们介绍一下。 CROSS JOIN - 交叉连接,计算笛卡儿积; INNER JOIN - 内连接,返回满足条件的记录; OUTER JOIN

  • 【Flink】Flink 源码阅读笔记(20)- Flink 基于 Mailbox 的线程模型2022-02-02 21:02:13

    1.概述 转载:Flink 源码阅读笔记(20)- Flink 基于 Mailbox 的线程模型 相似文章:【Flink】Flink 基于 MailBox 实现的 StreamTask 线程模型 Flink 1.10 对内部事件处理的线程模型做了一个大的改进,采用了类似 Actor 的信箱模型。这篇文章我们将深入 Flink 内部 Mailbox 线程模型

  • Flink学习之流处理架构2022-02-02 21:00:13

  • 【FLink】Flink 源码阅读笔记(4)- RPC2022-02-02 18:33:38

    文章目录 1.概述2.例子3.主要抽象4.基于 Akka 的 RPC 实现4.1 启动 RpcEndpoint4.2 获取 RpcEndpoint 的代理对象4.3 Rpc 调用4.4 AkkaRpcActor 小结 1.概述 转载:Flink 源码阅读笔记(4)- RPC 相关文章: 【Flink】Flink 源码之RPC调用 Flink】FLink 通讯组件 RPC 作为一个

  • 【Flink】Flink jvm参数配置GC日志2022-02-02 16:34:37

    1.概述 转载:Flink jvm参数配置GC日志 生产环境上,或者其他要测试 GC 问题的环境上,一定会配置上打印GC日志的参数,便于分析 GC 相关的问题。 但是可能很多人配置的都不够“完美”,要么是打印的内容过少,要么是输出到控制台,要么是一个大文件被覆盖,要么是…… 本文带你一步一步,配

  • Flink on yarn模式部署2022-02-02 15:58:49

    目录 1. 基于docker部署cdh 2. 遇到的异常 2.1 flink下缺少hadoop相关依赖 2.2 jdk7造成的错误 3. 启动flink on yarn模式 1. 基于docker部署cdh 基于Docker搭建CDH单机单节点集群_litlit023的专栏-CSDN博客 2. 遇到的异常 2.1 flink下缺少hadoop相关依赖 基于docker 部署cdn

  • Flink(55):Flink高级特性之流式文件写入(Streaming File Sink)2022-02-01 23:32:24

    目录 0. 相关文章链接 1. 流式文件写入介绍 1.1. 场景描述 1.2. Bucket和SubTask、PartFile 2. 案例展示 2.1. 需求 2.2. 开发步骤 2.3. 实现代码 3. 流式文件写入配置详解 3.1. PartFile 3.1.1. PartFile生命周期 3.1.2. PartFile的生成规则 3.1.3. PartFile命名设置 3.2. Part

  • JVM诊断及工具笔记(1)使用arthas热更新代码2022-02-01 21:34:32

    笔者目前在汽车之家云基础平台负责flink平台,数据湖, kafka平台的设计及开发。平时擅长做平台设计,定位及解决各种疑难杂症。最近开始冲动,想总结下最近几年使用的工具及定位的疑难杂症。时间久远,且目前工作,生活节奏较快。我大多数总结的文章应该都是大白话文,以简短的文章为主。心路

  • JVM诊断及工具笔记(3) 使用pmap 定位一次Jvm Native Memory泄漏2022-02-01 21:33:42

    这次要说的点依旧不大,主要想给大家讲的是如果发现 Flink on Yarn 定位Native Memory超出限制一个排查思路加上第二篇文章讲的Direct Memory相关。第四篇我大概率会讲一个堆内存相关的案例。 背景 这次问题发生是在18年,我们开始调研Flink。当时运维帮忙搭建了一个不大的hadoop集

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有