服务器之家:专注于服务器技术及软件下载分享
分类导航

Mysql|Sql Server|Oracle|Redis|MongoDB|PostgreSQL|Sqlite|DB2|mariadb|Access|数据库技术|

服务器之家 - 数据库 - Mysql - Myloader导入更快吗?并没有......

Myloader导入更快吗?并没有......

2023-08-29 01:00未知服务器之家 Mysql

0. 结论先行 重要结论先说:导入大批量数据时,采用GreatSQL 8.0.32-24中新增并行load data特性是最快的,关于该特性的描述详见:Changes in GreatSQL 8.0.32-24。 1. 背景介绍 前几天我用MySQL官网提供的airportdb库中的weatherdata表做测试,结论是

0. 结论先行

重要结论先说:导入大批量数据时,采用GreatSQL 8.0.32-24中新增并行load data特性是最快的,关于该特性的描述详见:Changes in GreatSQL 8.0.32-24。

1. 背景介绍

前几天我用MySQL官网提供的airportdb库中的weatherdata表做测试,结论是相比原生快了约5倍。

群里有小伙伴反驳说用myloader更香,于是就有了本次测试。

由于weatherdata表较小,表空间只有228MB,所以我改用sysbench表做测试,该表共600万行数据,表空间约1.5GB,其他信息如下:

greatsql> show create table myload\G
*************************** 1. row ***************************
       Table: myload
Create Table:CREATE TABLE `myload` (
  `id` int NOT NULL AUTO_INCREMENT,
  `k` int NOT NULL DEFAULT '0',
  `c` char(120) NOT NULL DEFAULT '',
  `pad` char(60) NOT NULL DEFAULT '',
  PRIMARY KEY (`id`),
  KEY `k_2` (`k`)
) ENGINE=InnoDB AUTO_INCREMENT=6194244 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci;

greatsql> show table status like 'myload'\G
*************************** 1. row ***************************
           Name: myload
         Engine: InnoDB
        Version: 10
     Row_format: Dynamic
           Rows: 5930876
 Avg_row_length: 233
    Data_length: 1385168896
Max_data_length: 0
   Index_length: 153894912
      Data_free: 7340032
 Auto_increment: 6194244
    Create_time: 2023-07-08 09:25:02
    Update_time: 2023-07-08 09:25:33
     Check_time: NULL
      Collation: utf8mb4_0900_ai_ci
       Checksum: NULL
 Create_options:
        Comment:

2. 测试过程

本次测试基于GreatSQL 8.0.32-24版本,其他相关信息如下:

# myloader版本
$ myloader --version
myloader0.15.0-1, built against MySQL 5.7.42-46 with SSL support with GZIP

# MySQL Shell版本
 JS > shell.version
Ver 8.0.32 for Linux on x86_64 - for MySQL 8.0.32 (MySQL Community Server (GPL))

默认开启binlog + 双1 + redo log + doublewrite buffer:

|binlog_rows_query_log_events |ON|
| innodb_buffer_pool_size | 8589934592|innodb_doublewrite |ON|
|innodb_flush_log_at_trx_commit |1|
|innodb_redo_log_capacity |2147483648|
|sync_binlog |1|

3. 结果对比

下面是几个不同导入方式的对比测试结果,每种方式我都测试至少3次,去除噪点数据后取平均值:

工具

耗时(秒)

binlog大小(MB)

mysqld内存增长(MB)

原生load data

62.801741

1091

1536

并行load data(chunk=4MB,并发16线程)

11.81

1091

1522

myloader(dump时chunk=64MB,load时并发16线程)

29.358

2246

1868

myloader(dump时chunk=64MB,load时并发16线程)+ 关binlog

21.426



myloader(默认 + 开binlog)

82.651

2246


myloader(默认 + 关binlog)

62.830



util.importTable(默认,chunk=64MB,并发8线程)

16.0034

1091

1662

从这个测试结果可以看到几个对比关系:

  1. 原生load data最慢,因为是单线程的,它的耗时是并行load data的5.32倍;
  2. 原生load data的耗时是多线程模式下myloader的2.14倍;
  3. 原生load data的耗时是多线程模式下util.importTable的3.92倍;
  4. 当myloader没有开启并行(mydumper备份时要先进行分配)的话,它的耗时是最久的,是并行load data的7倍,是多线程模式下util.importTable的5.16倍;
  5. 当myloader未开启binlog时(其默认行为,有"作弊"嫌疑),其耗时是并行load data的1.81倍,是多线程模式下util.importTable的1.34倍;
  6. 最后,myloader导入后造成的binlog文件最大,内存开销也最大。

Myloader导入更快吗?并没有......图片

综上,在MySQL 8.0/GreatSQL 8.0.32中,采用myloader导入数据就不再是最优方案了,推荐采用GreatSQL的并行load data,或者MySQL Shell的util.loadDump/util.importTable导入,其本质也是采用并行的思路,导入效率更高,额外的binlog和内存开销也更小。

最后,补充说下,myloader导入时产生的binlog更多,是因为它的导入方式是反复执行INSERT SQL,在 binlog_rows_query_log_events = ON 时,相比load data方式会产生更多binlog。

附录

1. myloader多分片方式导出

设置导出时进行分片,每个分片(chunk)10MB

$ mydumper -F 10 -S /data/GreatSQL/mysql.sock -T sbtest.myload -o /tmp/myload

最后的(未压缩)文件总大小为1.2GB。

2. outfile导出

greatsql> select * into outfile '/tmp/myload.csv' from myload;

很简单,平平无奇,最后的(未压缩)文件总大小为1.1GB。

3. util.dumpTables多分片方式导出 设置导出时进行分片,每个分片(chunk)64MB(默认值)

MySQL  localhost  JS > util.dumpTables("sbtest", ["myload"], "/tmp/myload", {threads:16, chunking:true, byt

延伸 · 阅读

精彩推荐
  • MysqlMysql实现增量恢复的方法详解

    Mysql实现增量恢复的方法详解

    本文给大家分享的是如何实现mysql增量恢复的场景以及具体实现方法,有需要的小伙伴可以参考下...

    xiaoyaokeyx3942019-07-04
  • Mysql实例验证MySQL|update字段为相同的值是否会记录binlog

    实例验证MySQL|update字段为相同的值是否会记录binlog

    这篇文章主要介绍了实例验证MySQL|update字段为相同的值是否会记录binlog,帮助大家更好的理解和学习MySQL数据库,感兴趣的朋友可以了解下...

    用户12785505492021-02-24
  • Mysql解析mysql不重复字段值求和

    解析mysql不重复字段值求和

    本篇文章是对关于mysql不重复字段值求和进行了详细的分析介绍,需要的朋友参考下 ...

    MYSQL教程网5452020-01-02
  • MysqlMySQL数据库优化经验详谈(服务器普通配置)

    MySQL数据库优化经验详谈(服务器普通配置)

    同时在线访问量继续增大 对于1G内存的服务器明显感觉到吃力严重时甚至每天都会死机 或者时不时的服务器卡一下 这个问题曾经困扰了我半个多月MySQL使用...

    mysql教程网2412019-11-15
  • Mysql安全快速修改Mysql数据库名的5种方法

    安全快速修改Mysql数据库名的5种方法

    mysql中如何重命名数据库?这篇文章主要介绍了安全快速修改Mysql数据库名的5种方法,需要的朋友可以参考下 ...

    MYSQL教程网3222020-03-24
  • MysqlMySQL时间类型和模式详情

    MySQL时间类型和模式详情

    这篇文章主要介绍MySQL时间类型和模式 MySQL会在存储时将数据值转换为UTC标准时间来存储,读取时再转为当前时间。如果你的时区没有发生改变,则该值就...

    赵帅强6502021-11-18
  • MysqlNavicat for MySQL的使用教程详解

    Navicat for MySQL的使用教程详解

    本文给大家介绍Navicat for MySQL的使用教程,本文通过图文实例相结合给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友跟...

    吴迪软件开发6372021-08-06
  • MysqlMySQL系列之九 mysql查询缓存及索引

    MySQL系列之九 mysql查询缓存及索引

    缓存SELECT操作或预处理查询的结果集和SQL语句,当有新的SELECT语句或预处理查询语句请求,先去查询缓存,判断是否存在可用的记录集,判断标准:与缓存...

    生生不息12432021-08-26