焦点话题控件指南

快速开始

“焦点话题”控件是什么?

Screenshot_5

“焦点话题”控件是 Stratifyd 打造的一个预置控件,包含话题轮盘、词云/列表 和一个时间序列图。如果数据集中包含地理位置信息,那么“焦点话题”控件也会展示地理信息地图。


话题

非监督学习聚类算法将每一篇文档表示为多个话题揉杂在一起的组合,而每一个话题又可以看作由一系列重要的二元词组(Bigram)组成的。一篇文档如果含有若干隶属于不同话题的二元词组,该文档便可以被归类到多个对应的话题之下。

话题轮盘以话题序号将二元词组进行归类展示;词云/词列表将二元词组以统计数量或 PMI(点互信息,Pointwise-mutual-information)得分排序。话题轮盘上每一块代表一个话题,这些话题标注有 Stratifyd 重要程度占比(Stratifyd Significance Percentage)。饼图每一部分的颜色都表示对应话题的情感,红色代表负面情感,蓝色代表积极情感。话题的大小和排名依据统计学上的相关性,也就是重要程度指数占比(Significance index percentage)决定,就像二元词组依据 PMI 得分排序一样。饼图(Pie chart)、网络关系图(Network graph)或者树状图(Tree-map)都是展示焦点话题的好方法。

当鼠标悬停在话题轮盘的某一话题时,系统会自动锁定悬停话题,对“焦点话题”控件内的数据及对应的词云、时间、地理图进行定向筛选更新并展示;如果选择点击某一话题,那么整个面板的数据都会依据点选的话题进行筛选更新并展示。话题的颜色表示话题在文档中的情感值。默认的配色方案为“红色代表负面情绪,灰色意味着中立情绪,蓝色表示积极情绪”。而同一情绪类别内部不同深度的颜色(比如浅蓝、深蓝)意味着不同话题下的情感值综合表现。

你可以在“焦点话题”控件内的轮盘上方“概览”字眼左侧点击进行切换,将可视化展示形式转换为树状图或网络关系图。树状图不仅保留话题的流行程度占比和情感值配色,还会捕捉到的更多二元词组根据窗口大小都展示出来。而网络关系图则通过节点(Node)和连线(Line)展示话题与话题之间的关系,二元词与二元词之间的关系。二元词组出现得越频繁,其对应的节点就越大。而节点间的连线则代表两个二元词组共同出现的频率。

Sunburst 模式的开关可以在控件编辑界面中找到,该模式的开关将直接影响选择单个话题后的效果。如果关掉 Sunburst 模式,在选中某一话题后,控件将 100% 显示与该话题相关内容,其他话题将被移除;而打开 Sunburst 模式,虽然控件会筛选数据,但用户仍可以在控件中切换至不同话题。

使用树状图时,关闭 Sunburst 会更有助于单一话题的聚焦分析,因为此时其他话题将不会再出现在控件里,可以减少干扰。而对于网络关系图和饼图模式,我们更建议开启 Sunburst 模式(“开启”为默认设定)方便话题的切换。


流行词语

点互信息(Pointwise-mutual-information,PMI)是一种用于测量字词之间关联和关系的语言学算法。简单来说,它通过统计来预测两个词连续出现和单独出现的概率。更高的 PMI 意味着两者同时出现的概率比两者单独出现的概率要高或者至少差不多。因此一些常用词比如“是”、“的”、“在”的 PMI 分值通常都很低。而高 PMI
的二元词汇,或者叫“词对儿”,在整个语义环境中则更关键。

一篇文档中每两个词都会得到一个 PMI 分值,而词云就是根据 PMI 分值的高低对每对词进行排序,并确定其在词云中的大小:即
PMI 分值越大,该二元词汇的大小越大。在控件中也可以将词云转换为词表,展示词出现的频率和情感值。

当然,词云和词列表也可以按照词汇出现的频率来排序,可直接在可视化界面中点击“数量(Count)”进行排序切换。根据分析目的不同,以数量进行排序也会得到很多有用的结论。

如果您觉得 Stratifyd AI 对某一二元词汇的情感值打分并不满意,而这个二元词汇对于整个分析又十分重要因而不能删除时,单击某一个二元词汇可以手动修改其情感值。比如,Stratifyd 会将慈善机构相关文本中的“抗击癌症”这一词汇判断为负面情感是因为“癌症”这一次在多数情况下都会引发人的负面情感,很显然在该语境下这个二元词汇是代表积极意义的。这时,为了更快进行处理并得到更准确的结果,您就可以在控件内将该二元词汇的情感值进行单独调整,而不用在文本中全部删除。

当选中不同话题时,二元词汇会随之进行筛选。当选中其中一个二元词汇时,整个面板页的所有数据都会筛选为包含该二元词汇的数据。所以在进行深入分析时,您不光可以筛选话题,也可以精细到单个二元词汇。


时间序列

时间序列模块展现在焦点话题模型和二元词汇模块下方,根据时间将含有文本数据的记录进行统计并展示在时间轴中。

选中某一话题或二元词汇时,时间序列图也将随之进行调整,方便您查看话题或二元词汇随时间的趋势变化。展示方式可以选择线形图(Line)、面积图(Area)、流图(Stream)和条形图(Bar);为了方便阅读,也可以隐藏网格线(Grid)。Stratifyd 默认将各个样式融合在一起,但在控件中可以选择关掉该默认功能。当选择条形图时,通过去掉/勾选右上方的合并按钮,可以方便将话题分开/合并进行查看。您也可以选择显示一条均线(Average line)搭配线性回归(Linear regression line)或二次回归线(Quadratic regression line)分析时间走势的变化情况。

时间序列图中的每一分层都代表一个话题,这些话题都可以单独点选以便进行深入分析。如果将鼠标悬停在某一话题上,页面会弹出临时对话框展示该话题的数量、持续时长、开始出现和消失的日期、涉及多少文本、平均情感值以及最核心 N 元词汇。


地理信息图

如果数据中包含和地理相关的字段,在导入数据时您就可以将其匹配为地理信息,可以细化到国家、省、市、街道,或者经纬度。基于匹配情况,在焦点话题控件中将展示地理信息图,展示不同地理位置的文本数量和地域平均情感值。点击 “+” 和 “-” 可以对地图进行缩放。如果点击某一地域,数据将进行筛选并只显示该地域数据。地理信息图也可以转换为列表形式进行查阅。