如何使用“排除词汇”

快速开始

什么是排除词汇?

排除词汇(Stopwords,停止词)是指在信息检索中或自然语言处理分析中不重要的词。通常这些词因为没含有关键信息而在分析中被过滤掉,常见的排除词汇如“的”、“吧”等,然而现在并没有非常标准公认的排除词汇表。事实上为了支持词汇搜索,Stratifyd 在默认情况下并没有预置专业领域排除词汇表。

但根据不同的分析目的,任何词都可以定义为排除词汇。Stratifyd 利用点互信息(Pointwise-mutual-information,PMI)找到典型的排除词汇降低其在分析中产生的影响,通常这些词汇的
PMI 值都很低。


上传排除词汇列表

1.登陆 Stratifyd 平台后,找到“高级选项”页面;

2.选择排除词汇模块;
stop1
3.如果有已有列表,点击即可编辑;如果需要新创建列表,点击右下角的 “+” 按钮;

4.为该列表进行命名;
stop
您可以在弹出的对话框中直接输入停用词,用 “,” 分隔,或者上传文件。

5.点击保存;

6.如需分享,点击图片左侧的蓝色分享按钮将该列表分享给其他分组成员
stop2
排除词汇列表也可以进行版本控制,借此可以测试哪个列表能达到最好分析效果。


如何应用排除词汇列表

1.如果想要应用排除词汇列表,需要在Dashboard中打开数据管理器;

2.在选项列表中,点击“重新处理”;
stop3
3.匹配数据类型;

4.点击“名称与高级工具”;
stop4
5.选择“高级选项”;

6.在列表中找到需要用的排除词汇列表及对应版本;

7.点击“应用”
stop5


如何对分析进行数据校准

您可以在面板控件中直接添加排除词汇对分析进行数据校准:

1.打开数据管理器面板,点击“校准数据”按钮(蓝色铅笔图形);
stop6
2.在词云或列表中,点击某一词汇即可移除该词汇,达到排出此词汇的目的;
stop7
我们推荐在列表中进行数据校准,因为可以快速找到排名靠前但没有什么意义的词汇从而调节分析结果。

3.此时已打开校准模式。直接在页面上选中想要的移除的词汇后,点击“提交”并在弹出的对话框中按提示选择“重新分析”,即可完成词汇排除。