对transformers库不常用记录,方便回溯。
知识点
1. fast的含义
比如BertTokenizerFast
,use_fast
, 示例如下:
1 | AutoTokenizer.from_pretrained('hfl/chinese-electra-180g-small-discriminator', use_fast=True) |
它的含义是使用rust加速速度。
嘿嘿,rust现在要进入linux内核了,恭喜恭喜。
2. tokenizer
比如常见的convert_ids_to_tokens
,encode
, encode_plus
等等,下面记录一种对句子对的使用方式.
完整例子可参考ne_bert_mrc.py。
1 | # -*- coding: utf8 -*- |
可以自行改动这个例子,其中stride默认注释掉了,默认为0。