bigdata

Centos7 安装部署 Airflow2019-08-20 18:00:49

本人在centos7 的环境下部署，怎么在centos7 下配置静态 IP 关闭防火墙以及安装jdk在这里不多赘述， centos7 配置静态ip可以参考:https://www.cnblogs.com/braveym/p/8523100.html 和 https://www.cnblogs.com/braveym/p/9096402.html Airflow 基础安装 1、默认自带python2
HBase（二）——搭建Standalone HBase2019-08-03 09:57:29

HBase搭建--Standalone HBase 1、搭建方式说明 the setup of a single-node standalone HBase. A standalone instance has all HBase daemons — the Master, RegionServers, and ZooKeeper — running in a single JVM persisting to the local filesystem. 2、搭建步骤 1、
HBase（三）——搭建Fully-distributed2019-08-03 09:55:36

HBase搭建--Fully-distributed 1、搭建方式说明 By default, HBase runs in standalone mode. Both standalone mode and pseudo-distributed mode are provided for the purposes of small-scale testing. For a production environment, distributed mode is advised. In dis
c – 将大型对象放在堆上的最佳方法是什么？2019-07-28 22:06:12

我正在开发一个项目,需要从数据文件中加载许多对象并将它们存储在内存中.因为我被告知堆栈空间很少,并且堆上的数据量应该更多,所以我将所有内容放在堆上.但是,我的印象是我过度了一点. 我目前的设计如下： class RoadMap { unique_ptr<set<unique_ptr<Node>>> allNodes; v
如何将键值对减少到键和值列表？2019-07-28 09:55:31

让我们假设,我在Spark中有一个键值对,如下所示. [ (Key1, Value1), (Key1, Value2), (Key1, Vaue3), (Key2, Value4), (Key2, Value5) ] 现在我想减少这个,就像这样. [ (Key1, [Value1, Value2, Value3]), (Key2, [Value4, Value5]) ] 也就是说,从Key-Value到Key-List of Value
linux – 使用bash处理大量数据2019-07-27 18:50:46

我必须使用bash脚本处理文件夹中的大量txt文件. 每个文件包含数百万行,它们的格式如下：档案#1： en ample_1 200 it example_3 24 ar example_5 500 fr.b example_4 570 fr.c example_2 39 en.n bample_6 10 档案#2： de example_3 4 uk.n example_5 50 de.n example_4 70 uk exampl
Python for循环导致系统崩溃2019-07-25 07:58:02

我需要找到包含特定字符串的文本文件的所有行,并将每行写入不同的文本文件中.如何改进我的代码以防止系统崩溃以读取大量文本文件(6GB大小)的第一个5,000,000,000行？编译代码后,我的电脑运行缓慢,并突然冻结.即使我停止编译过程,内存仍然被占用,同样的问题出现了.我的IDE是Spyder,我
我可以在类C中声明一个非常大的数组吗？2019-07-25 04:06:20

我正在尝试编写一个类来存储数百万个3D坐标数据.首先,我尝试使用3D数组来存储这些坐标数据. #ifndef DUMPDATA_H #define DUMPDATA_H #define ATOMNUMBER 2121160 #include <string> using namespace std; class DumpData { public: DumpData(string filename); double m_
Python – 使用HUGE数据集避免内存错误2019-07-22 09:57:05

我有一个连接到PostGreSQL数据库的python程序.在这个数据库中,我有很多数据(大约12亿行).幸运的是,我不必同时分析所有这些行. 这12亿行分布在几张桌子上(大约30张).目前我正在访问一个名为table_3的表,我想在其中访问具有特定“did”值的所有行(如调用该列). 我使用SQL命令计算了
mysql – 如何在doctrine中插入非常引用2019-07-06 15:15:27

我有3个实体：用户,页面,帖子在Post实体中： class Post { /** * @ORM\ManyToOne(targetEntity="Page") */ private $page; /** * @var ArrayCollection $subscribers Specify users that see this post. * * @ORM\ManyToMany(targetEntit
java – 我们可以将Spark流用于基于时间的事件2019-07-05 12:10:37

我有如下要求 >有多个设备根据设备配置生成数据.例如,有两个设备按照自己的间隔生成数据,假设d1每15分钟生成一次,d2每30分钟生成一次 >所有这些数据都将发送给Kafka>我需要使用数据并为每个设备执行计算,该计算基于当前小时生成的值和下一小时生成的第一个值.例如,如果d1从12:00 A
java – 使用MongoDB进行漏斗分析？2019-07-03 08:50:01

我有一个名为’event’的集合,它跟踪移动应用程序中的事件. 事件文件的结构是 { eventName:"eventA", screenName:"HomeScreen", timeStamp: NumberLong("135698658"), tracInfo: { ..., "userId":"user1", &q
javascript – 具有大数据的D3性能(需要反馈)2019-07-02 22:22:38

我使用d3制作一些图形,但约束是数据的数量.更具体地说,我在图表上的平均点数为500,000. 它可以在图表上从100,000到1,000,000点. 每当有“缩放”可能性或其他技巧时(如果有人向我解释我会很高兴),我想知道d3(或任何其他的lib)是否能真正处理500,000点图形. 更重要的是,我想它将取决
python – 按所需顺序对一个巨大的文件进行排序2019-07-02 16:47:54

我有以下形式的数据： <j> <l> <n> "jd". <K> <J> <N> <D>. <A> <B> <D> <F>. <E> <F> <G> "abc". <A> <B> <C> <D>. <G> <k> &qu
最直观的方法来解析几千种不同的日志类型(使用Python)？2019-07-02 06:45:23

我今年夏天在一家小公司实习,并负责解析来自kinesis流的日志文件.这具有极高的吞吐量,因此我一直在学习如何进行“实时”解析,因为缺少更好的术语,以避免内存膨胀并在lambda中产生额外成本. 我进入该项目期待一些乏味但可管理的东西,但我遇到了几个问题： >在从多个来源汇总到我收到
zookeeper的安装和使用2019-06-30 17:49:15

文章作者：foochane 原文链接：https://foochane.cn/article/2019062601.html zookeeper数据存储形式 zookeeper安装 zookeeper命令行客户端的使用 1 zookeeper数据存储形式 zookeeper中对用户的数据采用kv形式存储 key：是以路径的形式表示的，各key之间有父子关系，比如 /是顶层k
javascript – 如何从Bigquery结果中解析json响应？2019-06-29 22:20:46

我尝试使用示例javascript代码来调用Google bigQuery API(https://developers.google.com/bigquery/docs/authorization#client-side-javascript) JS： function runQuery() { var request = gapi.client.bigquery.jobs.query({ 'projectId': project_id, '
mysql – 在数据库中存储大量整数数组的有效方法2019-06-29 06:02:52

我需要针对整数ID和字符串名称存储长度大约为1000的整数数组.这样的元组数量几乎是160000. 我将选择一个数组并与所有其他数组一起计算均方根偏差(RMSD)并将(ID1,ID2,RMSD)元组存储在另一个表中. 你能建议最好的方法吗？我目前正在将MySQL用于同一项目中的其他数据表,但如果有必要,我
python – Pyspark：如何在数据帧中复制行n次？2019-06-27 10:53:41

我有一个像这样的数据帧,如果列n大于1,我想复制该行n次： A B n 1 2 1 2 9 1 3 8 2 4 1 1 5 3 3 并像这样转变： A B n 1 2 1 2 9 1 3 8 2 3 8 2 4 1 1 5 3 3 5 3 3 5 3 3 我想我
python – R中大文件的数据格式是什么？2019-06-23 11:43:58

我使用Python生成一个非常大的数据文件,主要由0(假)和少数1(真)组成.它有大约700,000列和15.000行,因此大小为10.5GB.第一行是标题. 然后需要在R中读取和显示该文件. 我正在寻找合适的数据格式从Python导出我的文件. 如here所述： HDF5 is row based. You get MUCH efficiency by h
MySQL：数据库结构选择 – 大数据 – 重复数据或桥接2019-06-22 12:11:07

我们有一个90GB的MySQL数据库和一些非常大的表(超过100M行).我们知道这不是最好的数据库引擎,但这不是我们现在可以改变的. 我们正在考虑如何重构表格的几种方法,以便进行严格的重构(性能和标准化). 数据流/存储目前以这种方式完成： >我们有一个名为articles的表,一个名为article_au
MySQL对大数据集的低效查询2019-06-21 00:01:16

我们有一个类似于这样的MySQL表(删除了无关紧要的列)： CREATE TABLE `my_data` ( `auto_id` bigint(20) unsigned NOT NULL AUTO_INCREMENT, `created_ts` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP, `updated_ts` timestamp NOT NULL DEFAULT '0000-00-00 00:00:00',
ES2019-06-15 16:49:40

http://www.elastic.co/guide/en/elasticsearch/reference/current/setup-configuration.html https://github.com/elastic/elasticsearch ###【在多台机器上执行下面的命令】### #es启动时需要使用非root用户，所有创建一个xiaoniu用户： useradd xiaoniu #为hadoop用户添加密码： e
Java：有没有磁盘和内存一样快的情况？2019-06-13 01:59:53

我正在写一些代码来访问inverted index. 我有两个可互换的类,它们对索引执行读操作.一个从磁盘读取索引,缓冲其中的一部分.另一个将索引完全加载到内存中,作为byte [] [](索引大小约为7Gb)并从此多维数组中读取.人们期望在将整个数据存储在内存中时具有更好的性能.但我的措施表明,
python – 来自dataframe pandas的数据的多线程2019-06-11 15:42:13

我正在努力使用多线程来计算在篮子上有不同购物项目的客户列表之间的相关性.所以我有一个由1,000个客户组成的熊猫数据框,这意味着我必须计算100万次相关性,这需要很长时间来处理数据框的示例如下所示： ID Item 1 Banana 1 Apple 2 Or

首页 < 3 4 5 6 > 尾页

ICode9

Centos7 安装部署 Airflow2019-08-20 18:00:49

HBase（二）——搭建Standalone HBase2019-08-03 09:57:29

HBase（三）——搭建Fully-distributed2019-08-03 09:55:36

c – 将大型对象放在堆上的最佳方法是什么？2019-07-28 22:06:12

如何将键值对减少到键和值列表？2019-07-28 09:55:31

linux – 使用bash处理大量数据2019-07-27 18:50:46

Python for循环导致系统崩溃2019-07-25 07:58:02

我可以在类C中声明一个非常大的数组吗？2019-07-25 04:06:20

Python – 使用HUGE数据集避免内存错误2019-07-22 09:57:05

mysql – 如何在doctrine中插入非常引用2019-07-06 15:15:27

java – 我们可以将Spark流用于基于时间的事件2019-07-05 12:10:37

java – 使用MongoDB进行漏斗分析？2019-07-03 08:50:01

javascript – 具有大数据的D3性能(需要反馈)2019-07-02 22:22:38

python – 按所需顺序对一个巨大的文件进行排序2019-07-02 16:47:54

最直观的方法来解析几千种不同的日志类型(使用Python)？2019-07-02 06:45:23

zookeeper的安装和使用2019-06-30 17:49:15

javascript – 如何从Bigquery结果中解析json响应？2019-06-29 22:20:46

mysql – 在数据库中存储大量整数数组的有效方法2019-06-29 06:02:52

python – Pyspark：如何在数据帧中复制行n次？2019-06-27 10:53:41

python – R中大文件的数据格式是什么？2019-06-23 11:43:58

MySQL：数据库结构选择 – 大数据 – 重复数据或桥接2019-06-22 12:11:07

MySQL对大数据集的低效查询2019-06-21 00:01:16

ES2019-06-15 16:49:40

Java：有没有磁盘和内存一样快的情况？2019-06-13 01:59:53

python – 来自dataframe pandas的数据的多线程2019-06-11 15:42:13