推荐开源项目:Presidio-research —— 高效的PII检测与数据生成工具

推荐开源项目:Presidio-research —— 高效的PII检测与数据生成工具

presidio-research This package features data-science related tasks for developing new recognizers for Presidio. It is used for the evaluation of the entire system, as well as for evaluating specific PII recognizers or PII detection models. presidio-research 项目地址: https://gitcode.com/gh_mirrors/pr/presidio-research

项目介绍

在数据隐私保护日益重要的今天,开发高效、精准的个人信息识别(PII)工具显得尤为重要。Presidio-research 是一个专为开发新PII识别器和评估PII检测模型而设计的开源项目。它是 Presidio 生态系统的重要组成部分,提供了丰富的数据科学任务和工具,帮助用户进行数据生成、模型训练和结果分析。

项目技术分析

核心技术组件

  1. Fake Data Generator:基于模板和虚假PII生成合成句子,适用于PII识别器和NER模型的训练数据生成。
  2. Data Representation Layer:标准化数据生成、建模和分析过程,支持多种数据格式转换,如CONLL、spaCy、Flair和JSON。
  3. Model/Recognizer Evaluation:提供多种模型和识别器的评估工具,支持Spacy、Flair、CRF、Presidio API等。
  4. Training and Modeling Code:包含多种模型的训练代码,助你快速上手模型开发。
  5. Helper Functions for Results Analysis:提供辅助函数,简化结果分析过程。

技术依赖

  • Python 3.9 及以上版本
  • spaCy:用于文本处理和模型评估
  • FlairStanzaCRF:可选的NER模型依赖

项目及技术应用场景

开发与评估PII检测模型

无论是开发新的PII识别器,还是评估现有的Presidio实例或特定PII识别器,Presidio-research都提供了全面的工具和框架,助你高效完成工作。

数据生成与增强

通过模板和现有数据集生成新的合成数据,增加实体值的覆盖范围,提升NER模型的性能。

模型训练与评估

支持多种模型的训练和评估,包括CRF、spaCy和Flair等,满足不同用户的需求。

项目特点

高效的数据生成

  • 模板驱动:通过简单的模板即可生成大量合成句子。
  • 多格式支持:生成的数据可转换为多种格式,适用于不同的模型和工具。

强大的评估工具

  • 全面评估:支持系统级、模型级和识别器级的评估。
  • 误差分析:提供详细的误差分析,助你优化模型。

易于使用

  • 详细的文档:提供详尽的README和示例笔记本,助你快速上手。
  • 活跃的社区:项目欢迎贡献和建议,拥有活跃的社区支持。

多样化的模型支持

  • 多种模型训练:支持CRF、spaCy和Flair等多种模型的训练。
  • 灵活的配置:可根据需求选择安装不同的依赖,灵活配置环境。

如何开始

从PyPI安装

conda create --name presidio python=3.9
conda activate presidio
pip install presidio-evaluator

# 下载spaCy模型
python -m spacy download en_core_web_lg

从源码安装

  1. 克隆仓库
  2. 安装依赖
pip install poetry
poetry install --with=dev

# 安装额外的NER依赖
poetry install --with='ner,dev'

# 下载spaCy模型
python -m spacy download en_core_web_lg

# 验证安装
pytest

结语

Presidio-research是一个功能强大、易于使用的开源项目,适合所有对PII检测模型开发和数据生成感兴趣的开发者和研究人员。立即尝试Presidio-research,提升你的数据隐私保护能力!

更多信息请访问项目GitHub页面

presidio-research This package features data-science related tasks for developing new recognizers for Presidio. It is used for the evaluation of the entire system, as well as for evaluating specific PII recognizers or PII detection models. presidio-research 项目地址: https://gitcode.com/gh_mirrors/pr/presidio-research

猜你喜欢

转载自blog.csdn.net/gitblog_00049/article/details/142807299