Github项目推荐| gensim-python中的主题建模

gensim–Python中的主题建模

gensim是一个Python库,用于大型语料库的主题建模、文档索引和相似性检索。目标受众是自然语言处理和信息检索社区

Github项目地址:

功能

所有算法都与语料库大小有关(可以处理比内存、流、核心外更大的输入),而不是内存。

直观界面

易于插入语料库/数据流(简单流应用编程接口)

易于使用其他向量空间算法扩展(简单转换应用编程接口)高效多核实现

流行算法,如在线潜在语义分析(LSA/大规模集成电路/奇异值分解)、潜在狄利克雷赋值(LDA)、随机投影(RP)、分层狄利克雷过程(HDP)或word2vec深度学习

分布式计算:潜在的语义分析和潜在的狄利克雷分布可以在计算机集群上运行

丰富的文档和Jupyter笔记本教程

如果上面显示的列表令人困惑,您可以首先在维基百科上阅读更多的向量空间模型和关于无监督文档分析的更多信息。

请在github上提出潜在错误提问前,请阅读“投稿指南”。

如果您有未解决的或研究性的问题,我们建议

最好在邮件列表中向我们提出

也可以在Gitter聊天室与我们交流。安装

gensim软件依赖于NumPy和Scipy,这是用于科学计算的两个Python包,您必须在安装gensim之前安装它们

我们还建议在安装Numpy之前安装一个快速BLAS库当然,这不是必须的,但是使用优化的BLAS(如ATLAS或OpenBLAS)可以将性能提高一个数量级。在OS X,NumPy自动获得它所提供的BLAS,所以你不需要做任何特殊的操作。

安装gensim的简单方法如下:

pip install -U gensim

或者,如果您已经下载并解压缩了源程序tar.gz包,您可以运行以下命令:

Python安装程序。PyTestPython安装程序。PyInstall

请查看其他安装模式的文档(无根权限/开发安装/可选安装功能)< br>

该版本已经在Python 2.7、3.5和3.6下进行了测试Gensim的github回购协议与Travis CI相关联,可以自动测试提交的每个推和拉请求。对Python 2.6、3.3和3.4的支持已从gensim 1.0.0中删除如果必须使用Python 2.6、3.3或3.4,请安装gensim 0.13.4对Python 2.5的支持已从gensim 0.10.0中删除;如果必须使用Python 2.5,请安装gensim 0.9.1

为什么gensim速度如此之快,内存效率如此之高?这不是纯蟒蛇吗?这不是应该缓慢而贪婪吗?

许多科学算法可以用大矩阵运算来表示(见上面的BLAS注释)Gensim依靠NumPy来利用这些低级BLAS库。因此,尽管顶层代码gensim是纯Python,但它实际上在底层执行高度优化的Fortran/C,包括多线程(如果您的BLAS是这样配置的)

在内存方面,gensim广泛使用Python的内置生成器和迭代器进行流数据处理。内存效率是gensim的设计目标之一,也是gensim的核心功能,在设计之初就已经考虑到了。

文档

9快速入门快速入门

9教程教程视频教程视频

9官方应用编程接口文档官方应用编程接口文档

他们还在使用GenSim Company-公司标志-标志行业-行业使用Gensim-项目使用稀土技术

深度os

ML & NLP咨询。根西姆的NLP咨询创造者——这就是我们!Gensim的创造者-我们!亚马逊

深度os

零售文件相似性。文件相似性国家卫生研究院

深度os

卫生卫生处理赠款和出版物与word2vec。思科安全

深度os

安全安全大规模欺诈检测注意法律文件中的法律相似性。法律文件的相似性比较渠道4媒体媒体推荐引擎高接触招聘中的候选人匹配。提供不明显的相关工作建议。提供模糊的相关工作建议。顺风

深度os

向Pinterest发布媒体宣传和相关内容。向pinterest发布有趣且相关的内容媒体生成模块的LDA模块是我们在每次上传时进行分析的核心。搜索引擎优化中实体消歧的Gensim word2vec。12K研究

深度os

媒体文章的媒体文档相似性分析。媒体文章的文档相似性分析记录对word2vec的理解和关联虚拟主机集成搜索引擎使用不同的嵌入模型和相似性,包括word2vec、WMD和LDA。面向客户投诉探索的金融主题建模。在引用gensim

时,请在处理{rehurek _ lrec,title = { {大型企业主题建模软件框架}}时使用此BibTeX条目:

@。作者= { Radim {和Petr Sojka},书名= { { 2010年LREC新闻研讨会论文集

大家都在看

相关专题