Presidio

活跃
GitHub Python MIT

简介

微软开源的上下文感知 PII 检测与脱敏 SDK,支持文本、图像和结构化数据,为 LLM 应用与 Agent 提供敏感信息保护。

核心特性

  • 上下文感知 PII 识别 — 利用 NER、正则表达式、规则逻辑和校验和识别信用卡号、姓名、地址等敏感实体
  • 多种脱敏方式 — 支持掩码、替换、加密、假名化等多种匿名化方式,可灵活配置
  • 图像 PII 脱敏 — 内置图像文本识别和图像 PII 区域遮盖,支持 DICOM 医学影像
  • 自定义识别器 — 可基于业务需求扩展自定义 PII 识别器,支持外部 NLP 模型接入
  • 多语言支持 — 内置多语言 PII 识别能力,支持全球数据合规需求
  • 多部署方式 — 支持 Python、PySpark、Docker、Kubernetes 等多种部署形态

适用场景

💡 在 LLM 调用前后对用户输入和模型输出进行 PII 检测和脱敏
💡 为 RAG 系统的知识库文档进行敏感信息扫描与匿名化
💡 处理客户支持工单和聊天记录中的个人身份信息
💡 对医学影像和文档中的患者信息进行脱敏
💡 满足 GDPR、HIPAA、CCPA 等数据保护法规的合规要求

快速开始

pip install presidio-analyzer presidio-anonymizer
python -m spacy download en_core_web_lg
from presidio_analyzer import AnalyzerEngine
from presidio_anonymizer import AnonymizerEngine
text = "John's email is john@example.com, call him at 555-123-4567."
analyzer = AnalyzerEngine()
results = analyzer.analyze(text=text, language='en')
anonymizer = AnonymizerEngine()
print(anonymizer.anonymize(text=text, analyzer_results=results))

相关项目