数据标准化

知识文章

在导入非结构化数据后,我们将进行数据标准化工作。Stratifyd 可以剔除和语义无关的信息,比如 HTML 文件中的标签代码、文本间随机的空格等。在分词(Tokenization)过程中,Stratifyd 将文档中的单个字词分离开;之后进行词性还原(Lemmatization),将不同时态的词语统一成其原始形态。

垃圾信息的检查也同时进行。另外 Stratifyd 将自动探测非本国语言并提供可选择的翻译功能。