之前在看mask language model时,如何做数据处理那里一直没有太本质理解,比如15%做mask,然后又80%做mask,10%不变,10%随机选择,所以这里将mlm数据处理部分的代码列出来,方便需要者可以看到bert是怎么实现的。
另外关于mlm分词wordpience还是整词甚者ngram,这里不做探讨,本质来讲就是数据处理的方式不同,其他对于训练和上游使用预训练模型来讲并不影响。
1 | import collections |
缺失模块。
1、请确保node版本大于6.2
2、在博客根目录(注意不是yilia根目录)执行以下命令:
npm i hexo-generator-json-content --save
3、在根目录_config.yml里添加配置:
jsonContent:
meta: false
pages: false
posts:
title: true
date: true
path: true
text: false
raw: false
content: false
slug: false
updated: false
comments: false
link: false
permalink: false
excerpt: false
categories: false
tags: true