作家
登录

开发者弹药库升级 推荐五个机器学习框架

作者: 来源: 2017-04-17 15:05:07 阅读 我要评论

所有的特点拔取筹划,都有一个合营目标:找出多余、不相干的特点。这是一个相当热点的研究范畴,对此有无数算法。

业内有名数据科学网站 KDnuggests,昨日评选出了四月份“你弗成忽视的五个机械进修衔目”。

你可能没听过它们,但今天或许会推敲上手。至于那些不合生态、不合编程说话的对象——对于高手而言,即便没有应用需求,借鉴它们的代码履行也能为本身的产品开辟带来很多灵感。

1. Scikit-plot

一帮缺乏艺术细胞的数据科学家,在某年某月某天忽然心怀恐怖地意识到:可视化是数据科学最关键的器械之一,而不仅仅是一个加分项。

这就导致了 Scikit-plot 的出生。

KDnuggests 副主编 Matthew Mayo 表示:“我留意到 Scikit-plot,是因为在 Reddit 上看到了它的作者的发帖,随后几乎急速便上了手。”

该项目旨在为 Scikit-learn 用户供给一系列标准、实用的图表。这包含:

  • Elbow plots
  • Feature importance graphs
  • PCA projection plots
  • ROC curves
  • Silhouette plots

Scikit-plot 库有两个 API,个一一个与 Scikit-learn 慎密整合,以控制对其 API 的调用(Factory API)。另一个更传统(the Functions API)。但无论哪个都应当足够你应用。

它的快速上手指南在这里。

2. Scikit-feature

Scikit-feature 是 Python 的开源特点拔取资本库,由亚利桑那州立大年夜学的数据发掘&机械进修实验室开辟。它基于 scikit-learn、Numpy 以及 Scipy。Scikit-feature 内置约 40 个常见特点拔取算法,包含传统算法以及一些构造式、流式的特点拔取算法。

Scikit-feature 既实用于实用特点拔取工程,也合适做算法研究。查看它支撑的算法列表请点击这里。

一名为 Rubens Zimbres 的数据科学家曾如是说:

  • “在积聚了经验,测验测验了堆叠神经收集、并行神经收集、asymmetric configs、简单的神经收集、独裁、dropout、激活函数等各类器械之后,我得出了一个结论:论效不雅,什么都比不上好的特点拔取。”

3. Smile

Smile (Statistical Machine Intelligence and Learning Engine) 是一个快速、周全的机械进修体系。受益于先辈的数据构造与算法,Smile 有最一流的机能。

Smile 覆盖了机械进修的方方面面,包含分类、回归、聚类、接洽关系规矩发掘、特点拔取、流形进修(manifold learning,)、多维标准分析(MDS)、遗传算法、missing value imputation、最邻近搜刮等等。

开辟者弹药库进级 推荐五个机械进修框架

如不雅你用 JVM 开辟机械进修,Smile 绝对值得一试。事实上,如不雅你身在这个生态体系却没听过 Smile,才是一桩奇闻。

4. Gensim

Gensim 是一个针对话题建模、文件索引、在大年夜语料库中进行类似性检索的 Python 算法库。目标受众是天然说话处理和信息检索社区。

Gensim 是个以完全性为目标的多面手。其开辟团队称,它为“常见算法供给了高效的多核履行,比如 Latent Semantic Analysis (LSA/LSI/SVD), Latent Dirichlet Allocation (LDA), Random Projections (RP), Hierarchical Dirichlet Process (HDP) 或 word2vec 深度进修。”

开辟者弹药库进级 推荐五个机械进修框架

Gensim 的文件在这里。KDnuggets 以前发过一篇教新手用 Gensim 搞话题建模的教程,请戳这里。

5. Sonnet

开辟者弹药库进级 推荐五个机械进修框架

本月初,DeepMind 在官方博客宣布了开源 Sonnet 的消息。雷锋网第一时光进行了报道:DeepMind宣布Sonnet 帮你用TensorFlow快速搭建神经收集。

DeepMind 在博客中表示:

“对于 TensorFlow 而言,自负年夜其在 2015 岁终开源,一个由浩瀚高等算法库构成的多样生态体系,便已环绕着它敏捷成长起来。这些高等对象,许可常用义务以更简便、更快的方法完成,极大年夜节俭了开辟者的时光精力。

作为该生态的新成员,Sonnet 也是如斯。它与现有的神经收集算法库有很多合营点,但部分功能专为 DeepMind 的研究须要而设计。”

Sonnet 是基于 TensorFlow 的高等算法库。DeepMind 承认了它与一些现有产品比较类似,但整合了 DeepMind 研究所必须的功能与特点,比如许可特定模块在随机集合的 Tensor 群组上运行:

“RNN 的状况,最合适于以异构 Tensor 集合来表示,用扁平列表来表示它们很轻易会导致缺点。Sonnet 供给了处理这些随机等级构造的功能,所以改变你的实验,应用另一种 RNN,并不须要繁冗地修改代码。DeepMind 已经对核心 TensorFlow 做了修改,以更好地支撑这一应用情况。”

最后,欲望本文可以或许对你产生赞助。让你知道一些此前没据说过的算法库,或者你并没有意识到本身其实须要的功能。

【编辑推荐】

  1. 腾讯开源微办事架构Tars,高机能RPC开辟框架
  2. 每个Java开辟者应当知道(并爱上)的8个对象
  3. 关于软件开辟你真正须要知道的几个工作
  4. Python开辟者2017应当存眷的七个类库
  5. 借hbase-rdd二次开辟谈如安在Spark Core之上扩建本身的模块

      推荐阅读

      淘汰Hyper-V replication拥抱Storage Replica

    基于以前的经验,在小型情况中保护Hyper-V 虚拟机的最佳方法之一一向是复制。Windows Server 2012初次惹人了复制,在第二台Hyper-V办事器上创建了一个同步的虚拟机副本。如不雅主虚拟机出>>>详细阅读


    本文标题:开发者弹药库升级 推荐五个机器学习框架

    地址:http://www.17bianji.com/lsqh/34810.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)