Memos: 体验 tanaos-text-anonymizer-v1 NER 模型

在网上看到有人推荐 tanaos/tanaos-text-anonymizer-v1 可用于信息脱敏,496 MB 大小很适合本地使用。

一开始我还以为它是大语言模型(LLM),想着用 Ollama 拉起来跑,之后发现完全不是一回事。它本质上是一个用于 NER(命名实体识别)任务的模型。

用人话说就是:输入一段文本,模型会扫描其中的实体,并返回命中的内容和对应的标签。

PERSON          John Smith      
EMAIL           john.smith@company.com  
PHONE_NUMBER    +1-202-555-0199  
LOCATION        New York  

测试后感觉英文人名和地址识别还不错,不支持中文,另外想要识别数据库链接、AK/SK 等敏感信息也还是需要搭配正则表达式使用,之前我把它理解成了 “万能脱敏器”。🤷

Python3 的示例代码在:Gist