Memos: 体验 tanaos-text-anonymizer-v1 NER 模型

在网上看到有人推荐 tanaos/tanaos-text-anonymizer-v1 可用于信息脱敏，496 MB 大小很适合本地使用。

一开始我还以为它是大语言模型（LLM），想着用 Ollama 拉起来跑，之后发现完全不是一回事。它本质上是一个用于 NER（命名实体识别）任务的模型。

用人话说就是：输入一段文本，模型会扫描其中的实体，并返回命中的内容和对应的标签。

PERSON          John Smith      
EMAIL           john.smith@company.com  
PHONE_NUMBER    +1-202-555-0199  
LOCATION        New York

测试后感觉英文人名和地址识别还不错，不支持中文，另外想要识别数据库链接、AK/SK 等敏感信息也还是需要搭配正则表达式使用，之前我把它理解成了 “万能脱敏器”。🤷

Python3 的示例代码在：Gist