更新时间:2024-03-22
通过静态脱敏任务,将生产环境中的数据脱敏导出到测试等环境。在保证合法合规的同时,还能够对数据进行有效的分析利用。
• 前提条件
在新建静态脱敏任务前,需要先创建好脱敏方案。关于脱敏方案相关说明,请参见数据脱敏方案。
• 背景信息
静态脱敏任务支持以下脱敏:
•异构脱敏:支持从A类型数据库脱敏到B类型数据库,例如从Oracle脱敏到MySQL。
说明: 仅支持部分类型数据库,具体支持情况,请参见产品规格列表。
•数据库到数据库或文件:支持数据库脱敏到数据库,此处指相同类型数据库,例如从MySQL脱敏到MySQL;数据库脱敏到FTP/SFTP/文件。
•文件到数据库或文件:支持FTP/SFTP/文件脱敏到数据库;FTP/SFTP/文件脱敏到FTP/SFTP/文件。
• 操作步骤
- 在左侧导航栏,选择敏感数据脱敏 > 静态脱敏任务。
- 在静态脱敏任务列表页面的右上角,单击新建脱敏任务。
- 在新建脱敏任务的对话框中,配置任务参数。
参数
|
说明
|
任务名称
|
设置脱敏任务名称。
|
数据源类型
|
选择需要脱敏的数据源类型。
数据源类型支持关系型数据库、大数据平台、数据仓库、FTP/SFTP和本地下载等。
|
脱敏方案
|
选择数据源类型对应的脱敏方案。
关于脱敏方案,详情请参见数据脱敏方案。
|
目标源类型
|
选择脱敏后存储的目标源类型。
目标源类型支持关系型数据库、大数据平台、数据仓库、FTP/SFTP和本地下载等。
|
目标源
|
选择脱敏后存储的目标源。
目标源需要在数据源管理页面创建,具体操作请参见添加数据源。
说明: 目标源类型为本地下载时,不需要选择目标源。
|
文件类型
|
脱敏后导出为本地文件时,选择的文件类型,支持excel、txt、dat、del、xml等。
说明: 仅目标源类型为本地下载时,需要设置此参数。
|
文件编码
|
脱敏后导出为本地文件时,选择文件编码,设置的编码需要和文件中编码保持一致,不然会乱码,支持UTF-8、GBK、GB2312。
说明: 仅目标源类型为本地下载时,需要设置此参数。
|
模式关联
|
选择脱敏后的数据所在的目标模式。
说明: 仅目标源类型为数据库时,需要设置此参数。
|
数据对象迁移
|
勾选您需要迁移的的数据对象类型。
说明: 仅数据源和目标源为同类型数据库时,支持配置。
|
抽取方式
|
选择您的抽取方式。
–全部抽取
–百分比抽取
–行数抽取
–增量脱敏
|
任务参数
|
配置静态脱敏任务的具体任务参数,参数说明请参见表 26: 任务参数。
|
参数
|
说明
|
插入数据前自动重建表/文件
|
勾选后目标库同名表删除后重新生成。
当目标库不存在与源表结构一致,表名一致的表时,一定要勾选插入数据前自动重建表/文件,否则就会因为目标库不存在表而导致插入数据失败,导致脱敏执行失败。
当目标库存在与源表结构一致,表名一致的表时,如果不勾选插入数据前自动重建表/文件和不勾选插入数据前清空目标数据,那么插入数据可能因为目标表的约束限制(主键冲突,唯一键冲突等)插入重复数据失败,若没有约束限制,那么就达到了追加数据功能。
注意: 当目标表存在约束限制(主键冲突,唯一键冲突等)时,必须勾选此选项。
|
插入数据前清空目标数据
|
勾选该项,目标数据被清除。
说明: 一般用于数据源的二次及以上的脱敏。若不勾选,则在之前的目标数据上追加数据。
当数据源和目标源是同一个数据库,且模式关联为同一个时,不能勾选此选项。
|
覆盖原表
|
勾选此参数,覆盖原表的原始数据。
注意: 仅支持Oracle、MySQL、SQL sever,数据源和目标源是同一个数据库,且模式关联为同一个时,支持覆盖原表功能。覆盖原表后,数据不能复原,请谨慎操作。
|
数据写入失败处理
|
对脱敏过程中因算法造成的数据异常进行处理。支持以下方式:
–跳过:对于异常数据自动跳过。
–置空:对于异常数据置空。
|
调度任务
|
可选择单次调度或周期调度。
–单次调度:设置特定时间执行一次任务。
–周期调度:设置执行时间段与频率,周期性执行任务。
|
每批处理数据量
|
设置后台每批次处理的数据量。
|
脱敏线程数
|
处理数据的线程数量,当敏感信息列数较多的时候,开启多个,能加快处理速度。一般不超过4个,并非越多越好。
|
写入线程数
|
勾选是否写入多线程。设置任务使用的最大线程数。最大线程数默认为8,可通过修改配置文件进行设置。配置的线程数不要大于CPU核心数的两倍。
默认写入多线程设置为1,线程数需要根据脱敏设备的硬件配置以及数据库侧的处理能力来设定。其下也可选择开启线程数智能调优。
当本地下载、FTP、SFTP、HDFS等为目标源类型时,不需要配置读写多线程。
|
子任务并发
|
选择子任务并发脱敏的数量。
对于主任务中有多个子任务时,可以调大子任务并发数(子任务并发默认为1)。并发数调为2时,会有2个子任务会同时进行脱敏。需要根据脱敏设备的硬件配置以及数据库侧的处理能力来设定。
|
表分片
|
选择表分片的数量。
对于数据量大的表会有优化处理作用,一般情况下并不用开启。
当选择Kingbase数据库为数据源时,表分片是默认必须开启的。
说明: 添加where条件、百分比、条数抽取的表不支持分片。
|
- 单击测试目标库权限,通过后,单击保存,新增成功一个静态脱敏任务。
新增后的静态脱敏任务自动处于已审批和初始化完成的状态。
说明: 初始化完成是将涉及到的配置信息关联起来。
初始化的动作主要是将迁移的表、需要迁移的数据对象、迁移的表绑定的脱敏算法与源库和目标库关联在一起的动作。
• 操作结果
静态脱敏任务新建成功后,您可以在静态脱敏任务列表页面进行查看。
• 相关操作
后续您可以根据情况,在静态脱敏任务列表页面进行以下操作。
•取消静态脱敏任务的审批:单击审批,取消静态脱敏任务的审批。
注意: 取消静态脱敏任务的审批后,脱敏任务将无法执行。
•编辑静态脱敏任务:单击编辑,修改静态脱敏任务的名称。
•删除静态脱敏任务:单击删除,删除不再需要执行的静态脱敏任务。
•查看静态脱敏任务详情:单击目标任务名称,查看脱敏任务详情。
您还可以在数据脱敏方案详情列表页面,单击编辑,直接对脱敏方案进行编辑、删除并预览脱敏结果。