跳到主要内容
合成数据生成器
快速生成高质量合成数据!
合成数据生成器(Synthetic Data Generator,SDG)是一个专注于快速生成高质量结构化表格数据的组件。支持10余种单表、多表数据合成算法,实现最高120倍性能提升,支持差分隐私等方法,加强合成数据安全性。

应用场景

数据发布和共享

使用高质量合成数据代替真实数据进行数据发布和共享,保留原始数据分布特征的同时,防止原始数据中的隐私泄露。

AI模型训练与调试

用于模型训练数据增强,通过生成更多的高质量合成数据提高模型的性能和准确性。

开发与测试

利用丰富的合成数据替代原始生产数据来进行更准确的软件测试和开发

整体流程

快速安装

Start Generating Synthetic Data with SDG

组件特性

高性能

10余种单表、多表数据合成算法,支持基单表、多表数据合成算法,支持基于机器学习和基于统计学的合成算法,实现最高120倍性能提升;后续开发中将持续跟踪学术界和工业界的最新进展,及时引入支持优秀算法和模型,并进行性能优化。

生产环境优化

提供自动化部署、容器化技术、自动化监控和提供自动化部署、容器化技术、自动化监控和报警等生产环境所需技术,实现快速一键部署;针对负载均衡与容错性进行专门优化,提升组件可用性。

隐私增强

支持差分隐私、匿名化等隐私增强方法,杜绝各类潜在隐私安全风险,保护个人隐私和商业机密,提高数据利用效率.

算法支持

模型Adult(二分类) Satellite(多分类数据集)
原始数据集69.589.23
CTGAN60.3869.43
TVAE59.5283.58
table-GAN63.2979.15
CTAB-GAN58.5979.24
OCT-GAN55.1880.98
CorTGAN67.1384.27

多种SOTA模型支持

Synthetic Data Generator(SDG)是一个专注于结构化表格数据快速生成合成数据的组件。它支持先进的CTGAN、TVAE、CTAB-GAN、OCTGAN、CorTGAN等10种模型,并跟踪业界最新工作,将新发表的优质算法/模型纳入支持清单。

面向生产环境级别的组件能力

SDG不仅支持单表和多表数据的快速生成,还从生产环境的角度出发,提供多元化的部署和多机多卡训练等特性,帮助组织和企业用户快速生成高质量的合成数据,以支持各种应用场景和需求。