如果通过关键字采集数据,如“通缉令”,采集到被通缉的公开身份证信息然后把搜集到身份证做一个黑名单库!
问题是,数据来源是啥?
http://www.ahga.gov.cn/tjl/index.html
http://business.sohu.com/20131015/n388220441.shtml
这样的数据没有一个同意的 查询接口,抓取网页? 正则提取! 太慢了
能不能用点深度学习的技术 可我不会
jsoup
@wendal 一个网页一个网页其实提供URL就能活到身份证号
来自炫酷的 NutzCN
htmlparser