联系邮箱:email@hezehua.net
保持热情,持续学习,每日精进
搜索引擎结构 文本预处理 分词 文本分词一般是先将文本分成独立的单词,然后取出标点符号,去除停止词,停止词就是一些使用频率高但是没有实际意义的词,比如:a、an、the、are等等 语言处理 对于英文来说,先是统一大小写,再对单词进行缩减,缩减过程主要有两种,一种是词干提取,即抽取词的词干或者...