GitHub排名前20的开源Python机器学习项目
我们分析了GitHub上排名前20位的Python机器学习项目,发现scikit-Learn,PyLearn2和NuPic是最活跃的项目。在Github上探索这些受欢迎的项目!
顶级python机器学习项目scikit-learn,18845次提交,404位贡献者,
scikit-learn是一个基于SciPy的Python机器学习模块,具有各种分类,回归和聚类算法,包括支持向量机,逻辑回归,朴素贝叶斯,随机森林,梯度提升,k-means和DBSCAN,并且旨在与Python数字和科学库NumPy和SciPy互操作。
Pylearn2、7027次提交,117个贡献者,
Pylearn2是一个旨在简化机器学习研究的库。它是基于Theano的图书馆NuPIC,4392次提交,60位贡献者,
Numenta智能计算平台(NuPIC)是实现HTM学习算法的机器智能平台。 HTM是新皮层的详细计算理论。 HTM的核心是基于时间的连续学习算法,该算法存储和调用空间和时间模式。 NuPIC适用于各种问题,尤其是流数据源的异常检测和预测。Nilearn,2742次提交,28位贡献者,
Nilearn是一个Python模块,可用于对NeuroImaging数据进行快速简便的统计学习。它利用scikit-learn Python工具箱进行多元统计,并提供诸如预测建模,分类,解码或连通性分析之类的应用程序。PyBrain,969次提交,27个贡献者,
PyBrain是基于Python的强化学习,人工智能和神经网络库的缩写。它的目标是为机器学习任务和各种预定义环境提供灵活,易于使用但仍功能强大的算法,以测试和比较你的算法。
Pattern,943次提交,20个贡献者,
Pattern是Python的网络挖掘模块。它具有用于数据挖掘,自然语言处理,网络分析和机器学习的工具。它支持向量空间模型,聚类,使用KNN,SVM,Perceptron的分类。Fuel,497次提交,12个贡献者,
Fuel为您的机器学习模型提供了他们需要学习的数据。它具有与MNIST,CIFAR-10(图像数据集),Google的十亿字(文本)等常见数据集的接口。它使您能够以多种方式迭代数据,例如在带有混排/顺序示例的迷你批处理中Bob,5080次提交,11个贡献者,
Bob是一个免费的信号处理和机器学习工具箱。该工具箱使用Python和C ++混合编写,旨在提高效率并减少开发时间。它由相当多的软件包组成,这些软件包实施用于图像,音频和视频处理,机器学习和模式识别的工具skdata,441次提交,10个贡献者,
Skdata是用于机器学习和统计的数据集库。该模块提供了对玩具问题以及流行的计算机视觉和自然语言处理数据集的标准化Python访问。Milk,687次提交,9个贡献者,
Milk是Python中的机器学习工具包。它的重点是通过几种可用的分类器进行监督分类:SVM,k-NN,随机森林,决策树。它还执行功能选择。这些分类器可以通过多种方式组合以形成不同的分类系统。对于无监督学习,牛奶支持k均值聚类和亲和力传播。IEPY,1758次提交,9个贡献者,
IEPY是一个专注于关系提取的开源信息提取工具。它针对需要对大型数据集执行信息提取的用户。科学家想尝试新的IE算法。
Quepy,131次提交,9个贡献者,
Quepy是一个python框架,用于将自然语言问题转换为数据库查询语言中的查询。它可以轻松地针对自然语言和数据库查询中的各种问题进行自定义。因此,只需编写少量代码,您就可以构建自己的系统,以自然语言访问数据库。
当前,Quepy支持Sparql和MQL查询语言,并计划将其扩展到其他数据库查询语言。Hebel,244次提交,5个贡献者,
Hebel是一个用于Python的神经网络深度学习的库,它使用GPU加速通过CUDA通过PyCUDA进行加速。它实现了最重要的神经网络模型类型,并提供了各种不同的激活函数和训练方法,例如动量,内斯特罗夫动量,辍学和提前停止。
14. mlxtend,135次提交,5位贡献者,
它是一个包含有用工具和扩展程序的库,用于日常数据科学任务。 nolearn,192次提交,4位贡献者,
nolearn包含许多实用程序模块,它们对机器学习任务有帮助。大多数模块与scikit-learn一起使用,其他模块则更有用。Ramp,179次提交,4位贡献者,
Ramp是一个python库,用于快速建立机器学习解决方案的原型。这是一个基于熊猫的轻量级机器学习框架,可与现有的python机器学习和统计工具(scikit-learn,rpy2等)一起插入。 Ramp提供了一种简单的声明式语法,可快速有效地探索功能,算法和转换。
Feature Forge,219次提交,3位贡献者,
一组工具,用于通过scikit-learn兼容的API创建和测试机器学习功能。该库提供了一套可在许多机器学习应用程序(分类,聚类,回归等)中使用的工具,如果您使用scikit-learn,则特别有用(尽管如果使用不同的算法则可以使用)。
18. REP,50个提交,3个贡献者,
REP是一种以一致且可重复的方式进行数据驱动的研究的环境。它具有统一的分类器包装器,可用于各种实现,例如TMVA,Sklearn,XGBoost和uBoost。它可以在集群上并行训练分类器。它支持交互式绘图Python Machine Learning Samples,15个提交,3个贡献者,
使用Amazon Machine Learning构建的示例应用程序的集合。Python-ELM,17次提交,1个贡献者,
这是基于scikit-learn的Python极限学习机的实现。