作家
登录

使用 Node.js 对文本内容分词和关键词抽取

作者: 来源: 2017-05-16 15:33:18 阅读 我要评论

  •   { word: '应当', weight: 14.052171126120001 }, 
  •   { word: '机能', weight: 12.61259281884 }, 
  •   { word: '万维网', weight: 12.2912397395 }, 
  •   { word: 'IP', weight: 11.739204307083542 }, 
  •   { word: 'HTTPS', weight: 11.739204307083542 }, 
  •   { word: '1.1', weight: 11.739204307083542 }, 
  •   { word: 'TCP', weight: 11.739204307083542 }, 
  •   { word: 'Web', weight: 11.739204307083542 }, 
  •   { word: '雪碧图', weight: 11.739204307083542 }, 
  •   { word: '应用层', weight: 11.2616203224 }, 
  •   { word: '客户端', weight: 11.1926274509 }, 
  •   { word: '浏览器', weight: 10.8561552143 }, 
  •   { word: '拼接', weight: 9.85762638414 }, 
  •   { word: '比较', weight: 9.5435285574 }, 
  •   { word: '网页', weight: 9.53122979951 }, 
  •   { word: '办事器', weight: 9.41204128224 }, 
  •   { word: '应用', weight: 9.03259988558 } ] 
  • 在这个基本上,我们采取白名单的方法过滤出一些可以作为 tag 的词:

    1. const content = ` 
    2. HTTP、HTTP/2与机能优化 
    3.  
    4. 本文的目标是经由过程比较告诉大年夜家,为什么竽暌功该大年夜HTTP迁徙到HTTPS,以及为什么竽暌功该添加到HTTP/2的支撑。在比较HTTP和HTTP/2之前,先看看什么是HTTP。 
    5.  
    6. 什么是HTTP 
    7. HTTP是在万维网上通信的一组规矩。HTTP属于应用层协定,跑在TCP/IP层之上。用户经由过程浏览器请求网页时,HTTP负粜ウ理请求并在Web办事器与客户端之间建立连接。 
    8.  
    9. 有了HTTP/2,不使悠揭捉?碧图、紧缩、拼接,也可以晋升机能。然而,这不代表不该该应用这些技巧。不过这已经清跋扈注解了我们大年夜HTTP/1.1移动到HTTP/2的须要性。 
    10. `; 
    11.  
    12. const nodejieba = require("nodejieba"); 
    13.  
    14. nodejieba.load({ 
    15.   userDict: './user.utf8'
    16. }); 
    17.  
    18. const result = nodejieba.extract(content, 20); 
    19.  
    20. const tagList = ['HTTPS''HTTP''HTTP/2''Web''浏览器''机能']; 
    21.  
    22. console.log(result.filter(item => tagList.indexOf(item.word) >= 0)); 

        推荐阅读

        专家预测第二波WannaCry勒索病毒攻击即将到来!

      WannaCry的传播脚步今晨戛然而止我国持续呈高危感染态势www.iuqerfsodp9ifjaposdfjhgosurijfaewrwergwea.com 今天一大年夜早,全网的WannaCry蠕虫病毒进击忽然减弱消退了!所有这一切功绩来>>>详细阅读


      本文标题:使用 Node.js 对文本内容分词和关键词抽取

      地址:http://www.17bianji.com/lsqh/35254.html

    关键词: 探索发现

    乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

    网友点评
    自媒体专栏

    评论

    热度

    精彩导读
    栏目ID=71的表不存在(操作类型=0)