频道导航

在python中完全复制R文本预处理

2019-04-08 Python 前端之家

前端之家收集整理的这篇文章主要介绍了在python中完全复制R文本预处理，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

我希望使用Python以与在R中相同的方式预处理文档语料库.例如,给定初始语料库,语料库,我想最终得到一个预处理语料库,该语料库对应于使用以下语句生成的语料库R代码：

library(tm)
library(SnowballC)

corpus = tm_map(corpus,tolower)
corpus = tm_map(corpus,removePunctuation)
corpus = tm_map(corpus,removeWords,c("myword",stopwords("english")))
corpus = tm_map(corpus,stemDocument)

是否有一个简单或直接 – 最好是预先构建 – 在Python中执行此操作的方法？有没有办法确保完全相同的结果？

例如,我想预处理

@Apple ear pods are AMAZING! Best sound from in-ear headphones I’ve
ever had!

成

ear pod amaz best sound inear headphon ive ever

最佳答案

在预处理步骤中使nltk和tm之间的事情完全相同似乎很棘手,所以我认为最好的方法是使用rpy2在R中运行预处理并将结果拉入python：

import rpy2.robjects as ro
preproc = [x[0] for x in ro.r('''
tweets = read.csv("tweets.csv",stringsAsFactors=FALSE)
library(tm)
library(SnowballC)
corpus = Corpus(VectorSource(tweets$Tweet))
corpus = tm_map(corpus,c("apple",stemDocument)''')]

然后,您可以将其加载到scikit-learn中 – 您需要做的唯一事情是在CountVectorizer和DocumentTermMatrix之间匹配,删除长度小于3的条款：

from sklearn.feature_extraction.text import CountVectorizer
def mytokenizer(x):
    return [y for y in x.split() if len(y) > 2]

# Full document-term matrix
cv = CountVectorizer(tokenizer=mytokenizer)
X = cv.fit_transform(preproc)
X
# <1181x3289 sparse matrix of type '


让我们验证这与R匹配：

tweets = read.csv("tweets.csv",stemDocument)
dtm = DocumentTermMatrix(corpus)
dtm
# A document-term matrix (1181 documents,3289 terms)
# 
# Non-/sparse entries: 8980/3875329
# Sparsity           : 100%
# Maximal term length: 115 
# Weighting          : term frequency (tf)

sparse = removeSparseTerms(dtm,0.995)
sparse
# A document-term matrix (1181 documents,309 terms)
# 
# Non-/sparse entries: 4669/360260
# Sparsity           : 99%
# Maximal term length: 20 
# Weighting          : term frequency (tf)

如您所见,现在两种方法之间存储的元素和术语的数量完全匹配.


      analyticsanalytics
      
                 
        上一篇：我怎样才能在Python中绘制CART树,就下一篇：python  –  Sklearn中使用GridSea


          
          
          
            
              


            
          

          
            
              
                  
    猜你在找的Python相关文章

                                    爬虫实战：探索XPath爬虫技巧之热榜新闻
                                在这篇文章中，我们深入学习了XPath作为一种常见的网络爬虫技巧。XPath是一种用于定位和选...
                                作者：努力的小雨 时间：2024-09-28
                                
                            

                                    谁说后端不能画出美丽的动图？让我来给大家拜个年！
                                祝福大家龙年快乐！愿你们的生活像龙一样充满力量和勇气，愿你们在新的一年里，追逐梦想，...
                                作者：努力的小雨 时间：2024-09-28
                                
                            

                                    爬虫实战：从网页到本地，如何轻松实现小说离线阅读
                                今天在爬虫实战中，除了正常爬取网页数据外，我们还添加了一个下载功能，主要任务是爬取小...
                                作者：努力的小雨 时间：2024-09-28
                                
                            

                                    爬虫实战+数据分析：全国消费支出分析及未来预测
                                完美收官，本文是爬虫实战的最后一章了，所以尽管本文着重呈现爬虫实战，但其中有一大部分...
                                作者：努力的小雨 时间：2024-09-28
                                
                            

                                    Java开发者的Python进修指南：JSON利器之官方json库、demjson和orjson的实用指南
                                JSON是一种流行的数据传输格式，Python中有多种处理JSON的方式。官方的json库是最常用的，...
                                作者：努力的小雨 时间：2024-09-28
                                
                            




                                    使用Python的turtle模块绘制美丽的樱花树
                                通过本文的学习和实践，我们掌握了使用Python的turtle模块来创作樱花树图画的技巧，这个过...
                                作者：努力的小雨 时间：2024-09-28
                                
                            

                                    利用大型语言模型轻松打造浪漫时刻
                                在这篇文章中，我们介绍了如何利用大型语言模型为情人节营造难忘的氛围。通过上传图片并进...
                                作者：努力的小雨 时间：2024-09-28
                                
                            

                                    成为一个合格程序员所必备的三种常见LeetCode排序算法
                                排序算法是一种通过特定的算法因式将一组或多组数据按照既定模式进行重新排序的方法。通过...
                                作者：努力的小雨 时间：2024-09-28
                                
                            

                                    5分钟上手Python爬虫：从干饭开始，轻松掌握技巧
                                本文的重点在于引导读者如何初步掌握爬虫技术。初步掌握爬虫技术并不难，但是在实际操作中...
                                作者：努力的小雨 时间：2024-09-28
                                
                            

                                    AI实用指南：5分钟搭建你自己的LLM聊天应用
                                本文介绍了如何快速搭建一个基于大型语言模型（LLM）的混元聊天应用。强调了开发速度的重要...
                                作者：努力的小雨 时间：2024-09-28


        
        
        
        
          
          
            
              
                编程分类
                PHPJavaJava SEPythonC#C&C++RubyVBasp.NetGoPerlnettyDjangoDelphiJsp.NET CoreSpringFlaskSpringbootSpringMVCLuaLaravelMybatisAspGroovyThinkPHPYiiswoole
                
              
            
          
          
         
          
            
               



              
            
          
          
          
          
          
            
              
                最新文章
                • 爬虫实战：探索XPath爬虫技
• 谁说后端不能画出美丽的动
• 爬虫实战：从网页到本地，
• 爬虫实战+数据分析：全国消
• Java开发者的Python进修指
• Java开发者的Python快速进
• 使用Python的turtle模块绘
• 利用大型语言模型轻松打造
• 成为一个合格程序员所必备
• 5分钟上手Python爬虫：从干

              
            
          
          


          
          
            
              
                热门标签
                  
                    更多 ►
                
                文件时间pythonm相等性PHP Warning时间问题问题解决pcntl_signal采样点wav模块动态文本调用频率限制对外暴露多个访问请求更新数据表模型结构type()方法比较速度手写体sobel算子保存模型Image类nn.Conv2dpytorch1.0kaggleDCGAN交并比range()用法打印模型反卷积卷积



     
    
        
             
                最近更新
· 小米手机重装系统价格多少?专业维修服务详解02-05
· 手把手教你重装电脑系统,让你的电脑焕然一新!02-05
· 教你一步步重装XP系统,让你的电脑重获新生02-05
· 从备份到上网:一步步教你重装电脑系统02-05
· Sony笔记本电脑一键重装系统详细图文教程02-05
· Lenovo笔记本重装系统超详细教程，小白也能轻松...02-05
· 联想笔记本一键重装Win10系统详细教程02-05
· 电脑系统故障无需愁,专业维修店帮你重装旧貌换新...02-05
· 联想笔记本一键重装Win10系统图文教程，小白也能...02-05
· 笔记本重装系统图文教程：从光盘启动一步到位02-05

            
           
                好站推荐
 菜鸟教程
 编程之家
 前端之家

            
                商务合作
                联系我们
            

        
        
            Copyright © 2019 前端之家. 当前版本 V7.0.16

            前端之家 版权所有 
            闽ICP备13020303号-10