flink

Flink实时计算2022-02-15 15:01:36

flink计算过程：Source->Transform->Sink 整体设计消费kafka数据，解析、计算后，分两路输出 1 归档（HDFS） 2 业务应用（PG）代码实现消费kafka：FlinkKafkaConsumer<byte[]> kafkaConsumer 解析：按照协议、结构规则，构建map函数，解析并
GroupTableAggFunction源码解读2022-02-11 10:03:16

/* * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information * regarding copyright ownership. The ASF licenses this file * to y
【Flink】Flink基础数据类型和自定义Sink2022-02-11 00:00:42

Flink基础数据类型和自定义Sink 基础数据类型自定义SinkkafkaRedisElasticsearchMySQL 基础数据类型 Flink 支持所有的 Java 和 Scala 基础数据类型，Int, Double, Long, String…… DataStream<Integer> numberStream = env.fromElements(1, 2, 3, 4); numberStream.ma
总结：Flink2022-02-10 18:29:59

一、为什么要使用分布式计算框架？ 1、计算能力对于不涉及到IO的计算，分布式计算相当于多个人计算，如10台计机器计算速度是1台机器计算速度的10倍。而分布式计算框架能充分发挥分布式计算优势。 2、丰富的API 3、高可用，故障恢复，易扩展二、Flink优秀设计理念之强一致性（灾备） Flink
Flink 简介2022-02-10 16:34:47

一、Flink 简介　　Flink起源于Stratosphere项目，Stratosphere是在2010~2014年由3所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目，2014年4月Stratosphere的代码被复制并捐赠给了Apache软件基金会，参加这个孵化项目的初始成员是Stratosphere系统的核心开发人员，2014年12月
flink实时读取mongodb方案调研-实现mongodb cdc2022-02-09 23:05:04

背景介绍 mongodb目前是很多企业业务上常用的nosql数据库。我们需要对这些业务mongodb数据库进行数据同步到数据仓库中进行数据分析处理。技术选型 CDC介绍 CDC (Change Data Capture) 是一种用于捕捉数据库变更数据的技术 CDC 技术的应用场景非常广泛：数据同步：用于备份，
Flink zookeeper HA 实现分析2022-02-09 22:31:07

Flink zookeeper HA 实现分析 Zookeeper HA相关配置 ## 使用zk做HA high-availability: zookeeper ## zk地址 high-availability.zookeeper.quorum: node1:2181,node2:2181,node3:2181 ## flink在zk下的工作路径 high-availability.zookeeper.path.root: /flink ## 任务所
flink-standalone部署。2022-02-09 21:57:59

最近上面想要通过flink-cdc来实现mysql数据实时同步至Elasticsearch,由于可以通过sql来实现数据同步，难度和投入都相对较小。于是自己研究了下flink,由于flink-cdc 现在最高支持flink1.13的版本，所有本文使用1.13.5的版本演示部署flink集群。 flink大数据框架，官方推荐了三种集群模
flink The parallelism of non parallel operator must be 12022-02-09 17:59:10

flink学习过程中遇到The parallelism of non parallel operator must be 1问题 Exception in thread "main" java.lang.IllegalArgumentException: The parallelism of non parallel operator must be 1. at org.apache.flink.util.Preconditions.checkArgument(Precond
【大数据面试】Flink 03-窗口、时间语义和水印、ProcessFunction底层API2022-02-08 19:32:49

三、窗口 1、窗口的介绍（1）含义将无限的流式数据切割为有限块处理，以便于聚合等操作（2）图解 2、窗口的分类（1）按性质分 Flink 支持三种划分窗口的方式，time、count和会话窗口（Session Windows）：session间隔定义了非活跃周期的长度，一段时间没有接收到新数据就
【大数据面试】Flink 01：概述2022-02-07 20:02:17

一、概述 1、介绍对无界和有界数据流进行有状态计算的分布式引擎和框架，并可以使用高层API编写分布式任务，主要包括： DataSet API（批处理）：静态数据抽象为分布式数据集，方便使用操作符进行处理（Python） DataStream API（流处理）：对分布式流数据处理，从而进行各种操作 Table API：将结构化数据抽象
flink -2022-02-07 18:06:36

Flink DataStream 模板 package org.example.scala import org.apache.flink.api.java.ExecutionEnvironment import org.apache.flink.streaming.api.scala.{StreamExecutionEnvironment, _} /** * date: 2021-03-23 14:43 * author: jichun.yang * remark: 测试flink
Flink应用场景：社交应用中同步用户信息到ES2022-02-05 16:59:55

背景目前公司社交应用“暖聊”中的首页推荐等用户匹配功能，都是基于 es 算法实现，那么就需要将用户数据实时同步到 es。项目中操作 es 的方式是基于 jpa 框架直连操作 es，当用户信息变更时，通过 jpa 的 save 方法实时同步用户数据到 es。这样做的后果就是，es 更新频繁，在用户活跃高峰
Yelp 实现了一个连接算法使用好flink2022-02-04 13:00:59

　　在 Yelp，我们生成了大量高吞吐量的数据流，包括日志、业务数据和应用程序数据。我们需要对这些数据流进行连接、过滤、聚合，有时候甚至需要进行快速转换。　　摘要　　在 Yelp，我们生成了大量高吞吐量的数据流，包括日志、业务数据和应用程序数据。我们需要对这些数据流进行连接
【Flink】Flink 计算资源管理2022-02-03 14:31:36

1.概述转载：Flink 源码阅读笔记（6）- 计算资源管理在 Flink 中，计算资源的是以 Slot 作为基本单位进行分配的。本文将对 Flink 中计算资源的管理机制加以分析。 2.Task Slot 的基本概念我们在前面的文章中了解了 Flink 集群的启动流程。在 Flink 集群中，每个 TaskManager 都是
第09讲：Flink 状态与容错2022-02-03 14:31:10

Flink系列文章第01讲：Flink 的应用场景和架构模型第02讲：Flink 入门程序 WordCount 和 SQL 实现第03讲：Flink 的编程模型与其他框架比较第04讲：Flink 常用的 DataSet 和 DataStream API 第05讲：Flink SQL & Table 编程和案例第06讲：Flink 集群安装部署和 HA 配置第07讲：Flink 常见
flink双流JOIN原理2022-02-02 22:33:23

JOIN简介谈flink双流JOIN之前，我们先谈一下大家最熟悉的mysql表join，我们知道表join有如下几种，具体区别就不在介绍了。那么流的join和表的join有什么区别呢？本文我们介绍一下。 CROSS JOIN - 交叉连接，计算笛卡儿积； INNER JOIN - 内连接，返回满足条件的记录； OUTER JOIN
【Flink】Flink 源码阅读笔记（20）- Flink 基于 Mailbox 的线程模型2022-02-02 21:02:13

1.概述转载：Flink 源码阅读笔记（20）- Flink 基于 Mailbox 的线程模型相似文章：【Flink】Flink 基于 MailBox 实现的 StreamTask 线程模型 Flink 1.10 对内部事件处理的线程模型做了一个大的改进，采用了类似 Actor 的信箱模型。这篇文章我们将深入 Flink 内部 Mailbox 线程模型
Flink学习之流处理架构2022-02-02 21:00:13
【FLink】Flink 源码阅读笔记（4）- RPC2022-02-02 18:33:38

文章目录 1.概述2.例子3.主要抽象4.基于 Akka 的 RPC 实现4.1 启动 RpcEndpoint4.2 获取 RpcEndpoint 的代理对象4.3 Rpc 调用4.4 AkkaRpcActor 小结 1.概述转载：Flink 源码阅读笔记（4）- RPC 相关文章：【Flink】Flink 源码之RPC调用 Flink】FLink 通讯组件 RPC 作为一个
【Flink】Flink jvm参数配置GC日志2022-02-02 16:34:37

1.概述转载：Flink jvm参数配置GC日志生产环境上，或者其他要测试 GC 问题的环境上，一定会配置上打印GC日志的参数，便于分析 GC 相关的问题。但是可能很多人配置的都不够“完美”，要么是打印的内容过少，要么是输出到控制台，要么是一个大文件被覆盖，要么是…… 本文带你一步一步，配
Flink on yarn模式部署2022-02-02 15:58:49

目录 1. 基于docker部署cdh 2. 遇到的异常 2.1 flink下缺少hadoop相关依赖 2.2 jdk7造成的错误 3. 启动flink on yarn模式 1. 基于docker部署cdh 基于Docker搭建CDH单机单节点集群_litlit023的专栏-CSDN博客 2. 遇到的异常 2.1 flink下缺少hadoop相关依赖基于docker 部署cdn
Flink（55）：Flink高级特性之流式文件写入（Streaming File Sink）2022-02-01 23:32:24

目录 0. 相关文章链接 1. 流式文件写入介绍 1.1. 场景描述 1.2. Bucket和SubTask、PartFile 2. 案例展示 2.1. 需求 2.2. 开发步骤 2.3. 实现代码 3. 流式文件写入配置详解 3.1. PartFile 3.1.1. PartFile生命周期 3.1.2. PartFile的生成规则 3.1.3. PartFile命名设置 3.2. Part
JVM诊断及工具笔记(1)使用arthas热更新代码2022-02-01 21:34:32

笔者目前在汽车之家云基础平台负责flink平台，数据湖， kafka平台的设计及开发。平时擅长做平台设计，定位及解决各种疑难杂症。最近开始冲动，想总结下最近几年使用的工具及定位的疑难杂症。时间久远，且目前工作，生活节奏较快。我大多数总结的文章应该都是大白话文，以简短的文章为主。心路
JVM诊断及工具笔记(3) 使用pmap 定位一次Jvm Native Memory泄漏2022-02-01 21:33:42

这次要说的点依旧不大，主要想给大家讲的是如果发现 Flink on Yarn 定位Native Memory超出限制一个排查思路加上第二篇文章讲的Direct Memory相关。第四篇我大概率会讲一个堆内存相关的案例。背景这次问题发生是在18年，我们开始调研Flink。当时运维帮忙搭建了一个不大的hadoop集

首页 < 6 7 8

ICode9

Flink实时计算2022-02-15 15:01:36

GroupTableAggFunction源码解读2022-02-11 10:03:16

【Flink】Flink基础数据类型和自定义Sink2022-02-11 00:00:42

总结：Flink2022-02-10 18:29:59

Flink 简介2022-02-10 16:34:47

flink实时读取mongodb方案调研-实现mongodb cdc2022-02-09 23:05:04

Flink zookeeper HA 实现分析2022-02-09 22:31:07

flink-standalone部署。2022-02-09 21:57:59

flink The parallelism of non parallel operator must be 12022-02-09 17:59:10

【大数据面试】Flink 03-窗口、时间语义和水印、ProcessFunction底层API2022-02-08 19:32:49

【大数据面试】Flink 01：概述2022-02-07 20:02:17

flink -2022-02-07 18:06:36

Flink应用场景：社交应用中同步用户信息到ES2022-02-05 16:59:55

Yelp 实现了一个连接算法使用好flink2022-02-04 13:00:59

【Flink】Flink 计算资源管理2022-02-03 14:31:36

第09讲：Flink 状态与容错2022-02-03 14:31:10

flink双流JOIN原理2022-02-02 22:33:23

【Flink】Flink 源码阅读笔记（20）- Flink 基于 Mailbox 的线程模型2022-02-02 21:02:13

Flink学习之流处理架构2022-02-02 21:00:13

【FLink】Flink 源码阅读笔记（4）- RPC2022-02-02 18:33:38

【Flink】Flink jvm参数配置GC日志2022-02-02 16:34:37

Flink on yarn模式部署2022-02-02 15:58:49

Flink（55）：Flink高级特性之流式文件写入（Streaming File Sink）2022-02-01 23:32:24

JVM诊断及工具笔记(1)使用arthas热更新代码2022-02-01 21:34:32

JVM诊断及工具笔记(3) 使用pmap 定位一次Jvm Native Memory泄漏2022-02-01 21:33:42