作家
登录

使用 Node.js 对文本内容分词和关键词抽取

作者: 来源: 2017-05-16 15:33:18 阅读 我要评论

在如今开源的分词对象琅绫擎,jieba是一个功能强大年夜机能优胜的分词组件,更荣幸地是,它有 node 版本。

众成翻译的文┞仿有 tag,用户可以基于 tag 来快速筛选感兴趣的文┞仿,文┞仿也可以按照 tag 接洽关系来进行相干推荐。然则如今众成翻译的 tag 是在推荐文┞仿的时刻设置的,都是英文的,并且人工设置不免不规范和不完全。固然宣布文┞仿后也可以人工编辑,然则我们也不克不及指望用户或治理员可以或许不时刻刻编辑出恰当的 tag,所以我们须要用对象来主动生成 tag。

nodejieba 的安装和应用十分简单:

  1. npm install nodejieba 
  1. var nodejieba = require("nodejieba"); 
  2. var result = nodejieba.cut("帝国主义要把我们的地瓜分掉落"); 
  3. console.log(result); 
  4. //[ '帝国主义', '要', '把', '我们', '的', '地', '瓜分', '掉落' ] 
  5.  
  6. result = nodejieba.cut('地盘,俺老孙的金箍棒在哪里?'); 
  7. console.log(result); 
  8. //[ '地盘', ',', '俺', '老', '孙', '的', '金箍棒', '在', '哪里', '?' ] 
  9.  
  10. result = nodejieba.cut('大年夜圣,您的金箍棒就棒在特别配您的头型!'); 
  11. console.log(result);  
  12. //[ '大年夜圣',',','您','的','金箍棒','就','棒','在','特别','配','您','的','头型','!' ] 

编辑 user.uft8

  1. 地瓜 9999 n 
  2. 金箍 9999 n 
  3. 棒就棒在 9999 

这就是我们想要的结不雅。

然后经由过程 nodejieba.load 加载字典。

  1. var nodejieba = require("nodejieba"); 
  2.  
  3. nodejieba.load({ 
  4.   userDict: './user.utf8'
  5. }); 
  6.  
  7. var result = nodejieba.cut("帝国主义要把我们的地瓜分掉落"); 
  8. console.log(result); 
  9. //[ '帝国主义', '要', '把', '我们', '的', '地瓜', '分', '掉落' ] 
  10.  
  11. result = nodejieba.cut('地盘,俺老孙的金箍棒在哪里?'); 
  12. console.log(result); 
  13. //[ '地盘', ',', '俺', '老', '孙', '的', '金箍棒', '在', '哪里', '?' ] 
  14.  
  15. result = nodejieba.cut('大年夜圣,您的金箍棒就棒在特别配您的头型!'); 
  16. console.log(result);  
  17. //[ '大年夜圣', ',', '您', '的', '金箍', '棒就棒在', '特别', '配', '您', '的', '头型', '!' ] 

除了分词以外,我们可以应用 nodejieba 提取关键词:

  1. const content = ` 
  2. HTTP、HTTP/2与机能优化 
  3.  
  4. 本文的目标是经由过程比较告诉大年夜家,为什么竽暌功该大年夜HTTP迁徙到HTTPS,以及为什么竽暌功该添加到HTTP/2的支撑。在比较HTTP和HTTP/2之前,先看看什么是HTTP。 
     1/4    1 2 3 4 下一页 尾页

      推荐阅读

      专家预测第二波WannaCry勒索病毒攻击即将到来!

    WannaCry的传播脚步今晨戛然而止我国持续呈高危感染态势www.iuqerfsodp9ifjaposdfjhgosurijfaewrwergwea.com 今天一大年夜早,全网的WannaCry蠕虫病毒进击忽然减弱消退了!所有这一切功绩来>>>详细阅读


    本文标题:使用 Node.js 对文本内容分词和关键词抽取

    地址:http://www.17bianji.com/lsqh/35254.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)