跳转到主要内容

【数据安全】数据标记化算法解释

满足您所有代币化需求的一站式商店

介绍

对于新手来说,让我们从正式引入标记化的概念开始-标记化只是将输入文本数据拆分为单独的有意义的标记的一种方法,这些标记可以被机器进一步理解和处理。标记可以是单词、字符,甚至是子单词,这取决于所使用的拆分算法。在本文中,我们将讨论所有三大类标记——单词、字符和子单词。我们还将关注大多数最近的SOTA模型使用的子词标记化算法-字节对编码(BPE)、词块、单字和句子块。在本次讨论结束时,您将对上述每一种途径都有了具体的了解,并将能够决定哪种标记化方法最适合您的需求。

基于词的标记化

顾名思义,在基于单词的标记化方法中,由标点符号、空格、分隔符等分隔的整个单词被视为标记。分离边界可以是特定于任务的,有时可能取决于您正在处理的数据的性质。用于标记Twitter推文的基于单词的标记器与用于标记新闻文章本身的标记器略有不同。

为了更好地理解这一点,让我们从一个示例开始,展示仅基于空白字符执行的标记化