咨询热线:4008-542-557 / 17045164261

服务产品(商品)评论中的产品特征挖掘方法

  也是好久没写博客了前段时间一直在找工作没有做什么实质性的工作。最近工作也定下了百度流量质量控制部的反作弊算法团队不算是百度的什么土豪团队但是99%以上的流量收入都是要从这个团队过一遍的团队资历实力可见一斑。

  好了不吹b了说说这个阶段要做的东西从服务产品的评论中挖掘服务产品的特征不理解的线a;

  很明显加了高亮部分的文字蕴含着这个服务产品的两个特征那么我要做的其实就是把这样的特征找出来可以归结于数据挖掘范畴。

  这个事做成了之后要做什么我先不说因为这是我的毕业课题透露太多了也不好。食品检测博客上我只会放处理的大致流程和遇到的问题源码部分公开。

  我之前做的都是中文分词看到是英文分词给我开心坏了空格不都打好的么。赋词性这块就不行了因为不可能搞个词典挨个去查我就用了nltk英文NLP处理包这玩意以前没用过具体代码在最后面放着注释非常全自己研究就行了。下面我主要说一说nltk的词性标注这个标注还是挺奇怪的在官网没有找到词性标注表跟国内的北大几级标注那些又不一样去翻了一下这个人的博客做个归纳方便以后查找。

  挖掘这些特征就要分析自然语言的结构了在上面的例子中分词后这/ 饭店/环境/还/ 线c;就是/菜码/有点/ 太大/ 了我们可以很清楚的发现表特征的词往往都是名词NN/NNS而这些特征的周围必定跟随一个形容词也可能连带一个或几个程度副词看了一下Yelp的评论数据也确实如此。根据这个线索就可以编码了。

  个人感觉这种baseline算法还是非常靠谱的我们能看到的都是真线c;没有噪音。

  这50个特征有很多是一类比如soup和sandwich都表示的餐饮中的一个菜那么未来能否使用wiki大规模语料库将这些近义词合并成一个类目会成为一个比较大的工作量再有就是挖出来的feature都是一个词看看能不能挖出一个短语吧。

  因为nltk不是通过字典的办法知道每个词的词性这种做法其实可行但是一旦出现了新词就不知道是什么词性了。食品商标名所以一般词性分析都是用多重隐马尔科夫链预测的切分成句子对词性分析的准确性有好处。

  我仔细观察了一下一般在自然语言中提及到feature的大多是在一句线c;包括从句等等这种滑窗法依旧没办法处理从句、大长句等及其复杂的句子因为现在的自然语言处理技术还做不到让及其理解语义。所以说只能“尽可能的找”。

  线c;但是顾客在留言板下做的评论都是非常随意、白话的。像从句、大长句我用肉眼筛选了好多篇都没见到过。人们能在商家下作评论本身就是非常“给你面子”的事了哪个顾客还认真到要用从句和长难句搞评论?笑话。如果真有这样找不到的feature就当它是噪音对我们后面的实验也不会有任何影响。

  yelp_academic_dataset_business.json+yelp_academic_dataset_review.json+yelp_academic_dataset_user.jso

  python json及mysql读取json文件存sql、数据库日期类型转换、终端操纵mysql及python codecs读取大文件问题...

  preface: 近期帮师兄处理json文件,须要读到数据库里面,以备其兴许从数据库读取数据。数据是关于yelp站点里面的: ,涉及到一些json和sql的问题,记录下。 一、python sql安装 python...

  业务表(businesss), 评价表(reviews), 小贴士表(tips,更简短的评价), 用户信息表(user information), 签到表(check-ins)。

  python json及mysql读取json文件存sql、数据库日期类型转换、终端操纵mysql及python codecs读取大文件问题

  preface: 最近帮师兄处理json文件,需要读到数据库里面,食品检测以备其后续从数据库读取数据。数据是关于yelp网站里面的: ,涉及到一些json和sql的问题,记录下。 一、食品商标名python sql安装 python 自带轻型数据库s

  从kaggle下载的数据集保存在了百度网盘。 官方的数据解析在这里网盘地址在这里 链接:提取码:mber ...

  如下: corpus = open(这个位置放文件绝对路径, r).readlines() 将这个文本文件按行读取,每行一个元素放到一个list中。但是需要将整个文本文件先全部装入内存中。 如果文本文件太大,不能一次性读入内存怎么办。要使用Python

  前序文章讲解了yelp dataset导入Neo4j的详细步骤,但实际操作过程中可能会遇到各种问题。 为了避免中间环节遇到的各类问题,选择直接读取json文件,解析需要的字段导入Neo4j。下文附上详细代码。 注意: 1、字段可能重复,所以代码中设置了独立的set用于去除重复的节点、关系导入; 2、可能会遇到特殊字符,比如名字或地址之间包含,name:Marcos Pizza,...

  “推荐”可是个当红话题。Netflix愿意用百万美金召求最佳的电影推荐算法,Facebook也为了登陆时的推荐服务开发了上百个项目,遑论现在市场上各式各样的应用都需要个性化服务。“从互联网中提取信息犹如用消防栓饮水”(Mitchell Kapor)。如今的信息量早已过载,要依据如此嘈杂的信息做出正确决定显然是艰难的。这也是为什么推荐系统日渐流行,尤其在像Netflix, Amazon, Echo,和Facebook

  Neo4j图算法第九章介绍了在Yelp数据集上进行算法实践,今天先介绍如何将Yelp数据集导入Neo4j. 1.Yelp数据集可以在下载,只需要填写简单的信息即可,也可以在下载; 2.解压后会得到如下图左侧json文件,下一步要将json文件转换...

  支持本地书签、tab页、历史记录搜索; 集成CSDN搜索结果; 他是一个时间转换工具; 他是一个计算器; 他是。。。,更多功能正在添加中

  Yelp dataset原始数据集下载地址为:本人用到的两个数据集为yelp_photos.tar和yelp_dataset.tar,两个压缩包加一块大约10.3GB。 在GitHub上浏览基于yelp dataset数据集做的推荐系统项目时,发现人们用csv格式的数据集处理数据更加方便。而在GitH...

  黄山北:如果不服从Guassian probability distribution(比如伯努利或者指数分布),那最后z化简出来的结果是不是也是关于w和b的函数???

<dir id="tys6H" class="w9cHP"><main id="750r6" class="jgGRA"><mark id="H3kO6" class="Z3hyz"><ruby id="vsyye" class="aCnQ1"><col id="xwAG8" class="qV2xc">HSvT7aesEzBk9EooLqnfhVgPEekZdU</col></ruby></mark></main></dir>