• 业务咨询、市场合作:61619362
  • 公司邮箱:support@datatom.com
联系我们  | English

德拓数据分析师助力政务管理改进更精准

作者:德小拓     来源:站内原创     2019/09/24 09:46:44    

2019年,某省提出“构建全省12345政务服务热线”,实现全省1个号码对外提供服务,把12345打造成群众办事‘零距离’企业服务‘零障碍’的综合信息平台。

 

在此背景下,12345热线汇聚了全省各类渠道的数据,涉及领域众多,也随之引发了一系列问题。

 

哪一类问题老百姓最关心?

哪一类问题风险较大?

哪一类问题需要优先处理?

......

 

面对海量的文本类数据,政府工作人员很难通过人工的方式进行高效甄别及处理。

 

因此,德拓的数据分析师们希望利用大数据+文本分析技术进行业务赋能,帮助工作人员提前发现问题、精准定位问题、有效处理问题。

 

 

项目整体思路

首先是获取源数据,然后对数据去除停用词并分词,分词之后统计词频并生成词云图,接下来对源数据打标,打标之后对数据进行清洗整理进行预测,然后再进行情感分析。投诉文本分析可以从以下三个方面着手:

 

1. 词云图,对热点事件的可视化;

2. 舆情分类,对投诉事件类别的分类;

3. 舆情程度级别划分,即情感分析

 

 

具体步骤

 
 

数据爬取

 
 

首先要观察原始数据的初始形态,往下拉,点击更多进入投诉专栏:

 

 

 

从诉求公开页面的投诉标题可以点击每一个投诉案例:

 

 

从每个投诉案例中看到诉求标题、诉求内容、办结回复等关键字段,这个是我们需要提取的信息。

 

打开页面代码,观察需要爬取页面的网址规律,便于接下来编写爬虫代码。

 

 

根据页面源码发现投诉信息都包含在returnList这字典里面,所以在爬取数据的时候只需提取这部分信息,最终的爬取结果以两种形式存储在开发工具pycharm的项目指定目录下。

 

 

 
 

词云可视化分析热点问题

 
 

从网上下载停用词,停用词的目的是去除文本中无用的高频词汇,正则化是为了去除数字及英文字母,去除停用词之后对文本进行分词,使用搜索模式分词,再统计词频,最终生成可视化词云并根据词云图分析热点问题。词云图如下:

 

 

 
 

舆情分类

 
 

一般有监督的分类需要有一定行为标签,由于数据缺乏标签,因此需要根据网站主页面提示几大分类版块来进行打标,最终对原始数据进行500个以上投诉案例进行了人工打标。

 

接下来需要构建词向量空间,将打标数据切分为训练集、测试集,剩下未打标的数据作为预测集,再将其分别转换至训练集词向量空间、测试集词向量空间、预测集词向量空间,最终构建多项式贝叶斯分类器对预测集(预测集向量空间)进行预测。预测效果如下图:

 

 

 
 

情舆情程度级别划分,即情感分析

 
 

做情感分析涉及到情感词典、否定词、程度副词,这些词在文本中是核心对象,我们需要对这些词进行综合的分值计算。从官网下载BosonNLP情感词。

 

情感得分计算思路:

 

a. 初始化权重0.1,情感词下标-1及得分0;

 

b. 遍历分词,若分词为情感词,权重乘以情感分,遍历情感词下标前一个词判断该词前面是否有否定词或程度副词,若为否定词分数取反,若为程度副词分数乘以程度副词等级,再定位至下一情感词,直至遍历结束,累加得分就是最终得分;

 

c. 对情感得分进行四分位切分,划分为四个程度等级;

 

情感分析效果如下图:

 

 

 
 

运用到的技术(或开源工具)

 
 

正则:re

爬虫:requests、pandas

词云:jieba分词、wordcloud、matplotlib

词向量:TfidfVectorizer,Bunch

分类器:naive_bayes中的MultinomialNB

 

 
 

遇到的问题及解决方案

 
 

a. 情感分析中有些案例分值为正数,一般投诉类的事件均为消极情绪,为正数的案例说明情况不严重,带了部分积极词语,这里只统计消极词避免了这个情况。

 

b. 情感分值波动较大,不利于程度等级的划分。这里采用了两种方法解决,第一,将初始权重赋值0.1,避免最终情感分过大;第二遍历完情感词之后将权重进行归一,避免权重累加,这样就可以出现避免情感分值过大的情况。

 

 

结论

经过德拓数据分析师的分析,得出如下结论:

 

从投诉分类的类别来看,环境保护投诉事件最多,其次公安(治安、交通),城乡建设类别最少。与热点事件中卫生、垃圾等问题出现最多结论一致。

 

 

投诉类别中环境保护与公安(治安、交通)占比70%以上,城市中这两类是经常出现的问题。

 

 

 从投诉事件风险等级上来看,无关紧要与轻微投诉事件次数占绝大多数。

 

 

 投诉事件中无关紧要与轻微事件的风险程度占据了80%以上,严重的风险问题占比不足1%

 

 

在高风险投诉事件中,环境保护仍占据主要位置,在投诉类别占比中公安(治安、交通)的投诉事件是工商(消保)问题的两倍之多,而在高风险中两者表现刚好相反,说明在高风险投诉事件中工商(消保)问题的高风险比例较大。