ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

GaussDB 200使用GDS从远端服务器导入数据

2019-11-04 14:55:06  阅读:583  来源: 互联网

标签:opt 200 gds root GaussDB GDS bin hd04


GaussDB 200支持将存在远端服务器上的TEXT、CSV和FIXED格式的数据导入到集群中。本文介绍使用GDS(Gauss Data Service)工具将远端服务器上的数据导入GaussDB 200。环境如下表:
GaussDB 200使用GDS从远端服务器导入数据

1、准备源数据

这里从PostgreSQL数据库中,使用copy命令导出一个csv格式的文件,如下:

rhnschema=> copy rhnpackagefile to '/tmp/rhnpackagefile.csv' with csv;

2、安装并启动GDS

  • 创建用户以及用户组
[root@hd04 bin]# groupadd gdsgrp
[root@hd04 bin]# useradd -g gdsgrp gds_user
  • 创建相关目录
    分别创建存放源数据以及GDS安装目录(自定义)。
    [root@hd04 ~]# mkdir /opt/bin   --GDS安装目录
    [root@hd04 ~]# mkdir /opt/data --源数据存放目录
    [root@hd04 ~]# chown -R gds_user:gdsgrp /opt/bin/gds
    [root@hd04 ~]# chown -R gds_user:gdsgrp /opt/data
  • 拷贝源数据到数据目录
    [root@hd04 ~]# su - gds_user
    [gds_user@hd04 ~]$ scp root@hd01:/tmp/rhnpackagefile.csv /opt/data
  • 安装GDS服务
    GDS工具位于GassDB安装包里,需要单独解压出来,以redhat的安装包为例,如下:
    [root@hd04 ~]# tar -xzf GaussDB_200_6.5.1_RHEL.tar.gz

    解压后找到GaussDB-Kernel-V300R002C00-REDHAT-64bit-Gds.tar.gz压缩包,并解压至GDS安装目录。

    [gds_user@hd04 ~]$ cd /opt/bin
    [gds_user@hd04 bin]$ tar -xzf /tmp/GaussDB-Kernel-V300R002C00-REDHAT-64bit-Gds.tar.gz

    然后以root用户修改/etc/profile,加入以下内容:

    [root@hd04 ~]# vi /etc/profile
    export LD_LIBRARY_PATH="/opt/bin/lib:$LD_LIBRARY_PATH"

    此处主要是配置GDS库路径,因为它依赖了Cjson动态库。

  • 启动GDS服务
    [root@hd04 ~]# su - gds_user
    [gds_user@hd04 ~]$ /opt/bin/gds/gds -d /opt/data -p 192.168.120.25:5000 -H 192.168.110.1/24,192.168.120.1/24 -l /opt/bin/gds/gds_log.txt -D

    GDS的启动模式有两种:非ssl传输数据模式和ssl加密方式传输数据模式。上面使用的是非ssl传输数据模式。
    对于ssl模式,需要将GaussDB创建的GDS证书拷贝到GDS的安装目录里,如下:

    [gds_user@hd04 ~]$ cd /opt/bin/
    [gds_user@hd04 bin]$ scp -r root@hd01:/opt/huawei/Bigdata/mppdb/core/share/sslcert/gds ./

    以ssl模式启动GDS服务如下:

    [gds_user@hd04 ~]$ /opt/bin/gds/gds -d /opt/data -p 192.168.120.25:5000 -H 192.168.110.1/24 -l /opt/bin/gds/gds_log.txt -D --enable-ssl --ssl-dir /opt/bin/gds

    参数说明如下图所示:
    GaussDB 200使用GDS从远端服务器导入数据

    3、创建表并导入数据

    这里需要创建外表以及目标表,语句如下:
    GaussDB 200使用GDS从远端服务器导入数据
    外表参数如下图所示:
    GaussDB 200使用GDS从远端服务器导入数据
    创建目标表,如下:
    GaussDB 200使用GDS从远端服务器导入数据
    使用如下命令导入数据:

    rhnschema=# INSERT INTO rhnpackagefile2 SELECT * FROM f_rhnpackagefile;
    INSERT 0 27942567

    GaussDB 200使用GDS从远端服务器导入数据
    在导入过程中,如果出现数据格式错误,系统会记录到一张error表里(系统自动创建,默认名称格式为表名err),例如:rhnpackagefile_err。

    4、优化导入数据的查询性能

    在数据导入完成后,执行ANALYZE语句生成表统计信息。执行计划生成器会使用这些统计数据,以生成最有效的查询执行计划。

如果导入过程中,进行了大量的更新或删除行时,应运行VACUUM FULL命令,然后运行ANALYZE命令。大量的更新和删除操作,会产生大量的磁盘页面碎片,从而逐渐降低查询的效率。VACUUM FULL可以将磁盘页面碎片恢复并交还操作系统。

rhnschema=# VACUUM FULL rhnpackagefile2;
VACUUM
rhnschema=# ANALYZE rhnpackagefile2;
ANALYZE

5、停止GDS服务

导入完成后,如果不需要GDS服务,可以将其停止。以gds_user用户,查询出GDS服务的进程号将其kill掉即可。

标签:opt,200,gds,root,GaussDB,GDS,bin,hd04
来源: https://blog.51cto.com/candon123/2447575

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有