p06285791 10d7a0202a | ||
---|---|---|
.idea | ||
datasets | ||
mechanisms | ||
src/mbi | ||
venv | ||
.gitattributes | ||
LICENSE | ||
README.md | ||
requirements.txt |
README.md
ABSyn: 具有自适应选择和批处理功能的差分隐私数据合成方案
介绍
本项目旨在研究差分隐私数据合成这一在海量数据分析场景中可有效保护个体数据隐私不被差分攻击影响的数据发布算法,针对算法在合成数据过程中的数据可用性与效率问题进行分析,以期设计和实现准确高效的差分隐私数据合成方案。该方案将使用合成数据方法进行差分隐私数据发布过程,通过对已有数据合成方法的缺陷进行优化来改进数据合成过程,提高数据的可用性并降低计算开销。通过应用本项目中的差分隐私数据合成方案,可高效地生成支持无限次查询的合成数据,在保证用户个体隐私不被泄露的前提下,满足数据分析人员对海量数据进行分析的需求。因此,本项目具有重要的理论意义和应用价值。
项目组设计了ABSyn,具有自适应选择和批处理功能的差分隐私数据合成方案,该方案主要有以下贡献: 1.提出量化边际贡献的CR-score作为自适应选择的新指标,同时还设计了一种基于CR-score分数的自适应式边缘选择算法。 2.设计了图分割的模型推理方案。将概率无向图按照最大团进行拆分,并行化地独立训练每个团,并在训练结束后组合为完整的数据结构,在不影响精度的情况下有效减少了模型训练的时间。 3.结合上述两项技术,提出了ABSyn差分隐私数据合成方案并加以实现,实验结果表明该方案在准确率和时间开销上有明显的提升。
安装 ABSyn
该代码可以在Python 3.6.9中执行。
这个项目的依赖项可以用pip安装如下:
$ pip install -r requirements.txt
此外,您必须将src文件夹添加到PYTHONPATH。如果您使用的是Ubuntu系统,在你的.bashrc文件中添加以下一行: PYTHONPATH=$PYTHONPATH:/path/to/ABSyn/src
完成后,使用以下代码测试该方案:
$ python ABSyn.py
项目的测试数据集存储在datasets文件夹下 合成数据集将在ABSyn.py所在的目录下生成