bert融入外部特征

2022-08-12

引言

此文不是对预训练模型融入实体信息、知识图谱等类似ERNIE,k-bert这种，而是在拿到bert输出后，突出指定位置信息进去，从而控制判定的结果。

问题

比如这句话：

该报还报道，法国达能集团日前宣布将投资1亿欧元，加强在中国市场的奶粉生产和研发，并表示“我们对中国市场的长期增长能力充满信心”。

谁加强和谁表示呢？是法国达能集团，而不是该报。

主体	触发词	客体
法国达能集团	加强	在中国市场的奶粉生产和研发
法国达能集团	表示	“我们对中国市场的长期增长能力充满信心”

那假设，我们在知道触发词和客体的情况下，如何从原句中获取主体呢？

思路

1. 引入其他layer和bert进行concat

这怕是最容易想到的方法了。比如将句子、触发词和客体分别输入到bert，然后将这三者concat。emmm，这也怕是最蠢的方法了。

2. 修改`触发词`和`客体`所在bert输出索引的权重

比如一句话长度为128,拿到bert输出后为(128, 768)，假设触发词和客体对应的span为(10,12)和(15, 30)，那如何手动修改对应span的weight呢？？

方法一，直接进行mask_fill，将对应span的值改为比如0。这种方式,,,emmmm，怎么说呢，看看就行。
方法二，也是操作对应span的weights，但是分成两步，第一是取触发词的权重，第二是取客体的权重，各自经过各自的linear，得到新的权重，然后再和bert output做一个交互，意思还是想突出触发词和客体的权重。和方法一一样，只不过对应的weight不是0，而是经过反向传播更新后的值。

比如conditional layer norm（对原conditional layer norm做修改了哦）。

伪代码如下：

class NewConditionalLayerNorm(nn.Module):
    def __init__(self, normalized_shape1, normalized_shape2):
        super().__init__()
        # 触发词的
        self.trigger_feature_weight = ...
        self.trigger_feature_bias = ...

        self.trigger_feature_weight_dense = ...
        self.trigger_feature_bias_dense = ...
        # 客体的
        self.object_feature_weight = ...
        self.object_feature_bias = ...
        self.object_feature_weight_dense = ...
        self.object_feature_bias_dense = ...

    def forward(self, bert_output, trigger_feature, object_feature):
        # 1. 先计算bert_output的layer norm
        # 2. 计算trigger的weight和bias
        # 3. 计算object的weight和bias
        # 4. 三者相乘

关于Conditional Layer Normalization，可看：讯飞2020年事件提取比赛第一名-主客体提取中Conditional Layer Normalization实现方式，难点在于变长罢了。

效果没试，总感觉复杂了些。

另外如果输入的feature个数是变化的，那这种方式就不可行了。

3. 变化标注方式，还是利用bert本身

输入一句话，tokenizer后拿到input_ids,token_type_ids, attention_mask，那其中的token_type_ids是干嘛的呢？百度下就有结果，说是如果是0就表示第一句话，如果是1就表示第二句话。

如果这样的话，那直接将触发词和客体的所对应的token_type_ids置为1不就又是一种方式么～，试了下效果出奇的不错。准确率嗖嗖的往上。而且还没引入额外的layer，相当拿bert就把这件事情搞定了。

这也是我写这篇文章的动力。。。

实现方式如下：

比如一句话”我们喜欢晴天。”，label设计为如下：

# 假设我们为主语
input_tokens = ['我', '们', '喜', '欢', '晴', '天', '。']
# token_type_ids
token_type_ids = [0, 0, 1, 1, 1, 1, 0]
# label
label = [[1, 0], [0, 1], [0, 0], [0, 0], [0, 0], [0, 0], [0, 0]]

模型就是bert+linear，linear输出hidden_size为2,loss使用binary_cross_entropy即可。

缺陷嘛就是它没有区分每个feature本身的label。客体就是客体，触发词就是触发词～～

总结

所以通篇看下来，目的是想突出触发词和客体的weight，从而提取其对应的主体。前两者不同，那主体也有可能不同。

实现下来呢，如果不区分触发词和客体的话呢，可以使用上面那种方式。如果区分呢，那貌似只能引入新的layer来解决。

bert本身就够大的了，就不能一个预训练模型就能解决这种问题的么？比如下面这种方式：

预训练模型：
> 输入句子：*******
> 输入客体和触发词: *******

返回:
> 主体：***

嘿嘿，现在也有这种，不过坑更大，而且消耗的资源也更多，，，以后有机会再聊。

额外说一句，和本文无关，如果一个任务业界没有相关的研究，那你对这个任务进行建模、训练等，怎么评估这个模型是有效的呢？

有一定量的标注数据，这个应该是必不可免的。但是也是操作可能性很低的地方。
搭建一个简单的模型，试下基本效果。为后续方式作参考。
变换一种建模方式，模型参数尽量行之有效，并且建模方式又足够巧妙。
看loss走向和评估指标的变化。

又水了一篇～

展开全文 >>

讯飞2020年事件提取比赛第一名-属性提取

2022-08-09

引言

这是第三篇文章，和第二篇本质没有顺序之分，上一篇是讯飞2020年事件提取比赛第一名-主客体提取。

1. 跑通代码

只需要改动task_type，如下：

args = TrainArgs().get_parser()
args.gpu_ids = '0'
args.mode = "train"
args.raw_data_dir = './data/final/raw_data'
args.mid_data_dir = './data/final/mid_data'
args.aux_data_dir = "./data/final/preliminary_clean"
args.bert_dir = '/home/yuzhang/PycharmProjects/xf_event_extraction2020Top1/bert/torch_roberta_wwm'
args.output_dir = './out'
args.bert_type = 'roberta_wwm'
args.task_type = 'attribution'
args.max_seq_len = 320
args.train_epochs = 6
args.train_batch_size = 3
args.lr = 2e-5
args.other_lr = 2e-4
args.attack_train = "pgd"
args.swa_start = 4
args.eval_model = True
args.enhance_data = True
args.use_trigger_distance = True
args.use_distant_trigger = True

2. 模型结构

3. 模型结构

AttributionClassifier(
  (bert_module): BertModel()
  (dropout_layer): Dropout(p=0.1, inplace=False)
  (pooling_layer): AdaptiveMaxPool1d(output_size=1)
  (tense_classifier): Linear(in_features=2304, out_features=4, bias=True)
  (polarity_classifier): Linear(in_features=2304, out_features=3, bias=True)
  (criterion): CrossEntropyLoss()
)

4. 整体流程

根据挑战可知事件属性抽取分成两部分：

极性分为：肯定、否定、可能；
时态分为：过去、现在、将来、其他。

这俩分别对应tense_classifier和polarity_classifier。

1. 输入句子，拿到bert output

2、做动态池化

在属性分类优化ppt那页，作者认为：

1	能决定事件属性的词大多存在触发词左右，故舍弃CLS中的全局特征，采用trigger左右两端动态池化特征作为全局特征；

具体做法即以触发词所在位置为准，设置window_size=20，只考虑这个范围内的bert output。

示例：

# 假设爱是trigger word。
input = ['我', '爱', '你', '北', '京', '。', ..., '你', '好', '呀']
mask =  [1, 0, 1, 1, 1, 1, ..., 0, 0,0] # 超过window_size就设置为0
# 即除这些mask外的都设置为-math.inf
bert_output.fill(~mask, -math.inf)

3、获取window_size内最大的feature


# 下面三步就是这面示例
seq_out = torch.transpose(seq_out, -1, -2)  # (bs, hidden, seq_len)
pooling_masks = torch.unsqueeze(pooling_masks, 1)
seq_out = seq_out + (1 - pooling_masks) * (-1e7)  # mask 无关区域

# 这里拿到max,这里看备忘那里的AdaptiveMaxPool1d
pooled_out = self.pooling_layer(seq_out).squeeze(-1)

4、和trigger feature进行concat

1 2	logits = torch.cat([pooled_out, trigger_label_feature], dim=-1)

5、整体forward代码

bert_outputs = self.bert_module(
    input_ids=token_ids,
    attention_mask=attention_masks,
    token_type_ids=token_type_ids
)

seq_out = bert_outputs[0]
# 拿到trigger feature
trigger_label_feature = self._batch_gather(seq_out, trigger_index)

trigger_label_feature = trigger_label_feature.view([trigger_label_feature.size()[0], -1])

# 做动态池化
seq_out = torch.transpose(seq_out, -1, -2)  # (bs, hidden, seq_len)
pooling_masks = torch.unsqueeze(pooling_masks, 1)
seq_out = seq_out + (1 - pooling_masks) * (-1e7)  # mask 无关区域

pooled_out = self.pooling_layer(seq_out).squeeze(-1)

# 合并两个feature
logits = torch.cat([pooled_out, trigger_label_feature], dim=-1)

polarity_logits = self.polarity_classifier(self.dropout_layer(logits))
tense_logits = self.tense_classifier(self.dropout_layer(logits))

out = (torch.softmax(polarity_logits, dim=-1), torch.softmax(tense_logits, dim=-1),)

if labels is not None:
    labels = labels.long()

    tense_loss = self.criterion(tense_logits, labels[:, 0])
    polarity_loss = self.criterion(polarity_logits, labels[:, 1])

    loss = polarity_loss + tense_loss

    out = (loss,) + out

return out

5、值得注意的点

核心在于作者的这句话：

1	能决定事件属性的词大多存在触发词左右，故舍弃CLS中的全局特征，采用trigger左右两端动态池化特征作为全局特征；

比如我们可以这么做，直接拿[CLS]位置，然后输入两个linear(一个极性，一个时态)，分别拿到各自loss，就ok了。

但是作者这里没有拿[CLS]来代表整个句子，因为作者认为能决定事件属性的词大多存在触发词左右。所以他这里采用了以trigger左右window_size=20来缩减范围。

从个人角度来讲，他这种方式第一能加快速度，第二是可能会有更好的泛化效果。

因为打比赛这种东西，恨不得啥奇淫巧技都上。但是这种思想可以借鉴。

备忘

关于AdaptiveMaxPool1d的用法

a = torch.arange(24, dtype=torch.float32).view(2,3,4)
a
Out[11]: 
tensor([[[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]],
        [[12., 13., 14., 15.],
         [16., 17., 18., 19.],
         [20., 21., 22., 23.]]])

torch.functional.F.max_pool1d(a,kernel_size=4)
Out[12]: 
tensor([[[ 3.],
         [ 7.],
         [11.]],
        [[15.],
         [19.],
         [23.]]])
torch.nn.AdaptiveMaxPool1d(1)(a)
Out[13]: 
tensor([[[ 3.],
         [ 7.],
         [11.]],
        [[15.],
         [19.],
         [23.]]])

展开全文 >>

讯飞2020年事件提取比赛第一名-主客体提取

2022-08-08

引言

这是第二篇文章，因为主客体提取需要依赖触发词识别。上一篇是讯飞2020年事件提取比赛第一名-触发词提取。

1. 跑通代码

args = TrainArgs().get_parser()
args.gpu_ids = '0'
args.mode = "train"
args.raw_data_dir = './data/final/raw_data'
args.mid_data_dir = './data/final/mid_data'
args.aux_data_dir = "./data/final/preliminary_clean"
args.bert_dir = '/home/yuzhang/PycharmProjects/xf_event_extraction2020Top1/bert/torch_roberta_wwm'
args.output_dir = './out'
args.bert_type = 'roberta_wwm'
args.task_type = 'role1' # 改动这里
args.max_seq_len = 320
args.train_epochs = 6
args.train_batch_size = 3
args.lr = 2e-5
args.other_lr = 2e-4
args.attack_train = "pgd"
args.swa_start = 4
args.eval_model = True
args.enhance_data = True
args.use_trigger_distance = True
args.use_distant_trigger = True

2. 模型结构

3. 模型结构

Role1Extractor(
  (bert_module): BertModel()
  (dropout_layer): Dropout(p=0.1, inplace=False)
  (conditional_layer_norm): ConditionalLayerNorm(
    (weight_dense): Linear(in_features=1536, out_features=768, bias=False)
    (bias_dense): Linear(in_features=1536, out_features=768, bias=False)
  )
  (trigger_distance_embedding): Embedding(512, 256)
  (layer_norm): LayerNorm((1024,), eps=1e-12, elementwise_affine=True)
  (mid_linear): Sequential(
    (0): Linear(in_features=1024, out_features=128, bias=True)
    (1): ReLU()
    (2): Dropout(p=0.1, inplace=False)
  )
  (obj_classifier): Linear(in_features=128, out_features=2, bias=True)
  (sub_classifier): Linear(in_features=128, out_features=2, bias=True)
  (activation): Sigmoid()
  (criterion): BCELoss()
)

4. 训练中需要注意的点

1. label构造

具体代码这里。因为这个任务作者只提取主客体，所以每一个label的长度为4。
前两个为客体的开始和结束，后两个为主体的开始和结束。
所在的index对应句子的位置。
具体代码这里。

比如：

label = [
    [0, 0, 0, 0],
    [0, 0, 0, 0],
    [0, 0, 0, 0],
    [1, 0, 0, 0],
    [0, 0, 0, 0],
    [0, 0, 0, 0],
    [0, 1, 0, 0],
    [0, 0, 0, 0],

]

看到这里，基本就明白主体思路和触发词提取是一样的。

2.相对位置编码

这个是指引入了一个新的feature，这个feature是以trigger位置来算前面和后面的位置编码。比如trigger为(32,33)，那(32,33)的位置编码为0,左右两边递增。

比如:

1	distince_feature = [3,2,1,0,0,1,2,3]

我对这一步的做法能带来多大的提升保留质疑。
所以此处就不细讲了。以后有机会试试效果。

3. conditional layer norm

这个作者的思想来自苏剑林的CondiationalLayerNorm，但是我没找到它的源码。

** 作用：**
作者这里采用的是利用Conditional Layer Normalization来将外部条件和bert output做了一次注意力。

** 具体流程：**
1、通过trigger index获取对应的bert output（看batch_gather函数），这里假设叫做trigger feature。
2、接着将trigger feature和bert output通过conditional layer norm进行融合。

** conditional layer norm流程：**
1、对bert output做layer norm，这一步没什么可说的。
2、将trigger feature经过weight linear和bias linear，这个做法其实和正常的layer norm指定elementwise_affine做法是类似的，正常的layer norm做归一化没有训练参数。
3、和bert_output进行相乘。这个地方可以理解成trigger和其他词做了一个注意力。

** 举例说明 **
在本次任务里，触发词的长度都为2,所以self.weight_dense和self.bias_dense都是normalized_shape * 2。batch_gather后拿到的触发词shape为（32,2,768）,这步叫做trigger feature。然后进行reshape，变成了(32, 1, 1536)，经过self.weight_dense和self.bias_dense变换后变成了(32, 1, 768)，随后和bert_output进行相乘，即和每个字做了一个注意力。

作者代码如下：


class ConditionalLayerNorm(nn.Module):
    def __init__(self,
                 normalized_shape,
                 eps=1e-12):
        super().__init__()

        self.eps = eps

        self.weight = nn.Parameter(torch.Tensor(normalized_shape))
        self.bias = nn.Parameter(torch.Tensor(normalized_shape))

        self.weight_dense = nn.Linear(normalized_shape * 2, normalized_shape, bias=False)
        self.bias_dense = nn.Linear(normalized_shape * 2, normalized_shape, bias=False)

        self.reset_weight_and_bias()

    def reset_weight_and_bias(self):
        """
        此处初始化的作用是在训练开始阶段不让 conditional layer norm 起作用
        """
        nn.init.ones_(self.weight)
        nn.init.zeros_(self.bias)

        nn.init.zeros_(self.weight_dense.weight)
        nn.init.zeros_(self.bias_dense.weight)

    def forward(self, inputs, cond=None):
        assert cond is not None, 'Conditional tensor need to input when use conditional layer norm'
        cond = torch.unsqueeze(cond, 1)  # (b, 1, h*2)

        weight = self.weight_dense(cond) + self.weight  # (b, 1, h)
        bias = self.bias_dense(cond) + self.bias  # (b, 1, h)

        mean = torch.mean(inputs, dim=-1, keepdim=True)  # （b, s, 1）
        outputs = inputs - mean  # (b, s, h)

        variance = torch.mean(outputs ** 2, dim=-1, keepdim=True)
        std = torch.sqrt(variance + self.eps)  # (b, s, 1)

        outputs = outputs / std  # (b, s, h)
        # 这里做了一个交互
        outputs = outputs * weight + bias

        return outputs

作者说添加了这个layer后效果有小幅度提升，以后可以试试。

如果说有很大创新的吧，算不上，我觉得把bert output不做layer norm最终效果也大差不差。

** 备注： **

这里有个问题，如果触发词的长度是变长的话，怎么用呢？估计引入一个mask，算出来。

以后试试。

4. 多feature layer norm

这地方作者代码是在使用了trigger相对位置编码后和bert output进行concat到一起时用到的，如下所示。


if self.use_trigger_distance:
    assert trigger_distance is not None, \
        'When using trigger distance features, trigger distance should be implemented'

    trigger_distance_feature = self.trigger_distance_embedding(trigger_distance)
    seq_out = torch.cat([seq_out, trigger_distance_feature], dim=-1)
    seq_out = self.layer_norm(seq_out)

这里的做法觉得是平时没注意到的一个点～

平时俩向量直接concat到一起完事。这里还进行了一个layer norm。算是一个挺细心的点。至于能不能带来效果提升，此处就不特别注意啦。

5. 计算loss

if labels is not None:
    masks = torch.unsqueeze(attention_masks, -1)

    labels = labels.float()
    obj_loss = self.criterion(obj_logits * masks, labels[:, :, :2])
    sub_loss = self.criterion(sub_logits * masks, labels[:, :, 2:])

    loss = obj_loss + sub_loss

这里没什么特别需要注意的地方了，这里和trigger的做法类似，只是这里分成了两个loss，一个是subject loss，一个是object loss。

6. 解码

这部分没细看了，猜测和trigger解码应该也是类似的。

7. 备注

关于conditional layer norm

# -*- coding: utf8 -*-
#

from torch import nn
import torch


class ConditionalLayerNorm(nn.Module):
    def __init__(self,
                 normalized_shape,
                 eps=1e-12):
        super().__init__()

        self.eps = eps

        self.weight = nn.Parameter(torch.Tensor(normalized_shape))
        self.bias = nn.Parameter(torch.Tensor(normalized_shape))

        self.weight_dense = nn.Linear(normalized_shape * 2, normalized_shape, bias=False)
        self.bias_dense = nn.Linear(normalized_shape * 2, normalized_shape, bias=False)

        self.reset_weight_and_bias()

    def reset_weight_and_bias(self):
        """
        此处初始化的作用是在训练开始阶段不让 conditional layer norm 起作用
        """
        nn.init.ones_(self.weight)
        nn.init.zeros_(self.bias)

        nn.init.zeros_(self.weight_dense.weight)
        nn.init.zeros_(self.bias_dense.weight)

    def forward(self, inputs, cond=None):
        assert cond is not None, 'Conditional tensor need to input when use conditional layer norm'
        cond = torch.unsqueeze(cond, 1)  # (b, 1, h*2)

        weight = self.weight_dense(cond) + self.weight  # (b, 1, h)
        bias = self.bias_dense(cond) + self.bias  # (b, 1, h)

        mean = torch.mean(inputs, dim=-1, keepdim=True)  # （b, s, 1）
        outputs = inputs - mean  # (b, s, h)

        variance = torch.mean(outputs ** 2, dim=-1, keepdim=True)
        std = torch.sqrt(variance + self.eps)  # (b, s, 1)

        outputs = outputs / std  # (b, s, h)
        # 这里做了一个交互
        outputs = outputs * weight + bias

        return outputs


if __name__ == '__main__':

    bert_output = torch.rand(32, 128, 768)
    # 当然，每个句子的trigger_index都是变化的
    # 此处假设这个batch的index span为(56, 58)
    trigger_feature = bert_output[:, 56:58, :]

    trigger_feature = trigger_feature.view(32, 768 * 2)
    cln = ConditionalLayerNorm(768)
    output = cln(bert_output, trigger_feature)
    print(output)

展开全文 >>

模型优化点

2022-08-05

1. SWA(随机权重平均)

简单来说就是将指定epochs范围内训练出来的模型，将这些模型的weight取平均赋值给这个swa_model。

Pytorch内置的swa，但是引入了一个SWALR。
一个项目用到的。

2. attack training(对抗训练)

import torch
import torch.nn as nn


# FGM
class FGM:
    def __init__(self, model: nn.Module, eps=1.):
        self.model = (
            model.module if hasattr(model, "module") else model
        )
        self.eps = eps
        self.backup = {}

    # only attack word embedding
    def attack(self, emb_name='word_embeddings'):
        for name, param in self.model.named_parameters():
            if param.requires_grad and emb_name in name:
                self.backup[name] = param.data.clone()
                norm = torch.norm(param.grad)
                if norm and not torch.isnan(norm):
                    r_at = self.eps * param.grad / norm
                    param.data.add_(r_at)

    def restore(self, emb_name='word_embeddings'):
        for name, para in self.model.named_parameters():
            if para.requires_grad and emb_name in name:
                assert name in self.backup
                para.data = self.backup[name]

        self.backup = {}


# PGD
class PGD:
    def __init__(self, model, eps=1., alpha=0.3):
        self.model = (
            model.module if hasattr(model, "module") else model
        )
        self.eps = eps
        self.alpha = alpha
        self.emb_backup = {}
        self.grad_backup = {}

    def attack(self, emb_name='word_embeddings', is_first_attack=False):
        for name, param in self.model.named_parameters():
            if param.requires_grad and emb_name in name:
                if is_first_attack:
                    self.emb_backup[name] = param.data.clone()
                norm = torch.norm(param.grad)
                if norm != 0 and not torch.isnan(norm):
                    r_at = self.alpha * param.grad / norm
                    param.data.add_(r_at)
                    param.data = self.project(name, param.data)

    def restore(self, emb_name='word_embeddings'):
        for name, param in self.model.named_parameters():
            if param.requires_grad and emb_name in name:
                assert name in self.emb_backup
                param.data = self.emb_backup[name]
        self.emb_backup = {}

    def project(self, param_name, param_data):
        r = param_data - self.emb_backup[param_name]
        if torch.norm(r) > self.eps:
            r = self.eps * r / torch.norm(r)
        return self.emb_backup[param_name] + r

    def backup_grad(self):
        for name, param in self.model.named_parameters():
            if param.requires_grad and param.grad is not None:
                self.grad_backup[name] = param.grad.clone()

    def restore_grad(self):
        for name, param in self.model.named_parameters():
            if param.requires_grad and param.grad is not None:
                param.grad = self.grad_backup[name]

# 初始化
fgm = FGM(model)
for batch_input, batch_label in data:
  # 正常训练
  loss = model(batch_input, batch_label)
  loss.backward() # 反向传播，得到正常的grad
  # 对抗训练
  fgm.attack() # embedding被修改了
  # optimizer.zero_grad() # 如果不想累加梯度，就把这里的注释取消
  loss_sum = model(batch_input, batch_label)
  loss_sum.backward() # 反向传播，在正常的grad基础上，累加对抗训练的梯度
  fgm.restore() # 恢复Embedding的参数
  # 梯度下降，更新参数
  optimizer.step()
  optimizer.zero_grad()

https://wmathor.com/index.php/archives/1537/

展开全文 >>

讯飞2020年事件提取比赛第一名-触发词提取

2022-07-29

引言

讯飞之前发布了一个事件抽取挑战赛，这个比赛分成两个任务：

1、任务一：事件触发词及论元抽取
2、任务二：事件属性抽取

搜了下github，发现第一名的解决方案。

看readme介绍主要思路，作者将任务分割为触发词抽取，论元抽取，属性抽取。

那本篇即讲述触发词(trigger提取器)的实现方式。

1. 跑通代码

修改train.py，增加下面这些：

args = TrainArgs().get_parser()
args.gpu_ids = '0'
args.mode = "train"
args.raw_data_dir = './data/final/raw_data'
args.mid_data_dir = './data/final/mid_data'
args.aux_data_dir = "./data/final/preliminary_clean"
args.bert_dir = '/home/yuzhang/PycharmProjects/xf_event_extraction2020Top1/bert/torch_roberta_wwm'
args.output_dir = './out'
args.bert_type = 'roberta_wwm'
args.task_type = 'trigger'
args.max_seq_len = 320
args.train_epochs = 6
args.train_batch_size = 16
args.lr = 2e-5
args.other_lr = 2e-4
args.attack_train = "pgd"
args.swa_start = 4
args.eval_model = True
args.enhance_data = True
args.use_trigger_distance = True

2. 模型结构

3. 数据处理

主要代码看这里。

将raw_text分成token，空格之类的作者换成了[BLANK]，没有tokenize的换成了[INV]。虽然他这种做法我勉强能接受，但是还是理解不了。。。因为tokenizer该做的都做了，做这一步不就多此一举么。。。（除非有其他理由）
核心的地方在于label的构造方式。举个例子：


raw_text = "学校公布成绩。"
trigger_word = "公布"
tokens = ['学', '校', '公', '布', '成', '绩', '。']
labels = [
    [0, 0], 
    [0, 0], 
    [1, 0], 
    [0, 1], 
    [0, 0], 
    [0, 0], 
    [0, 0]
]

看到有意思的地方了么，以char level进行分割raw_text，然后找到公布对应的start_index和end_index置为1。

4.模型结构

TriggerExtractor(
  (bert_module): BertModel()
  (dropout_layer): Dropout(p=0.1, inplace=False)
  (mid_linear): Sequential(
    (0): Linear(in_features=768, out_features=128, bias=True)
    (1): ReLU()
    (2): Dropout(p=0.1, inplace=False)
  )
  (classifier): Linear(in_features=128, out_features=2, bias=True)
  (activation): Sigmoid()
  (criterion): BCELoss()
)

5. 训练

输入input_ids, attention_mask, token_type_ids获取bert output，然后mid_linear，最后classifier，shape变成比如32,128,2，核心地方在计算了loss和解码部分。

举个例子计算loss：

# -*- coding: utf8 -*-
#
# -*- coding: utf8 -*-
#
import torch
from torch import nn

# shape = (3,5,2)
target = torch.tensor([
    [
        [0, 0],
        [0, 0],
        [1, 0],
        [0, 1],
        [0, 0],
    ],
    [
        [0, 0],
        [0, 0],
        [1, 0],
        [0, 1],
        [0, 0],
    ],
    [
        [0, 0],
        [0, 0],
        [1, 0],
        [0, 1],
        [0, 0],
    ],
], dtype=torch.float32)
pred = torch.randn(target.shape)

pred = nn.Sigmoid()(pred)

loss = nn.BCELoss()
print(loss(pred, target))

6. 解码

代码。

7. 总结

1. 作者为什么没有使用bert+crf？

1	缺点：存在5%的句子会出现解码为空的现象，导致误差传播极大；

这个在作者的ppt里面提到了。

2. 优点

作者舍弃CRF结构，采用指针式解码的方案。这个地方是我觉得最有意思的地方。

我为什么任务这个地方是优点呢，初看网络结构，我以为的网络结构类似下面这样：

                bert
--------|-------------------|----
        |                   |  
 start_index_layer  end_index_layer
        |                   |
        ----------|-----------
                  |
                解  码

也就是说bert后面有两个linear，一个是start_index的，一个是end_index的，然后分别预测开始和结束index。

但是这么做有几个坏处：
1、start_index和end_index没有任何交互
2、解码的时候，会解码出很多的结果

那作者的优势就很明显了，start_index和end_index用一个linear表示。

但是即使这样，都绕不开一个地方，就是解码出多个结果和长度的问题。

3. 缺点

解码的长度是不确定的，只要start_logits > 0.5,end_logits>0.5，就认为是合理的。那么这两者之间组合，就会有许多的结果。这个是绕不开的。

作者这里做了一个限制，看代码：

candidate_entities = []

start_ids = np.argwhere(logits[:, 0] > start_threshold)[:, 0]
end_ids = np.argwhere(logits[:, 1] > end_threshold)[:, 0]

# 选最短的
for _start in start_ids:
    for _end in end_ids:
        # 限定 trigger 长度不能超过 3
        if _end >= _start and _end - _start <= 2:
            # (start, end, start_logits + end_logits)
            candidate_entities.append((raw_text[_start: _end + 1], _start, logits[_start][0] + logits[_end][1]))
            break

即限制了触发词的长度。

第二，在这个比赛里，绝大多数的样本的触发词就为1个。

如果解码为空的话，作者采用start_logits和end_logits最大的作为输出。代码。

8. 思考

本质来讲，我没太看得出来和crf相对比的优劣。作者也没有公开每个任务分别的score。
但是从模型结构上来讲，这种方式有个好处，就是可以解决嵌套的问题。第二就是速度的好处。

备注

1. 忽略的点

1、没有考虑数据增强
2、没有use_distant_trigger，即将构造的trigger输入ebedding作为extra feature(即将句子中所有可能的触发词都列出来然后输入到embeddings和bert output concat到一起)。

2. 使用roberta-www-ext

1 2	tokenizer = BertTokenizer.from_pretrained(bert_dir) bert = BertModel.from_pretrained(bert_dir)

展开全文 >>

句子成分与结构思考

2022-05-23

引言

最近在做句子结构分析的模型，具体样例如下图左图所示。

因为之前看过constituency parser任务，故尝试将这棵树转成满足consituency parser满足的那种格式，转换后的样例如下图右图所示。

找个简单的例子如下所示。

所以隆重推荐这款转换工具，constituency-tree-labeling-tool，目前这个工具已经在我司使用以及在hanlp和yuzhangcs/parser中被提及。

因为有这个工具的加持，我们就可以尝试使用consitutuency parser的方式来做这个任务。目前模型也已经被业务使用。

使用

我发现在真实使用的时候，会将这棵树按照一层为单位进行拆开，即：

不会管句子层与层之间的关系。
复句会拆成子句。
最终使用还是主谓宾、兼语、联谓等这些基本句型。

思考

基于上面的使用方式，可以进行以下方面的尝试：

可以先将这棵树按照使用的方式进行拆开，拆成一句一句的进行训练，更符合真实使用场景。
找一个比consituency parser更为简便的模型，并且提高其准确度。
提升速度。因为每一句话都要跑，速度也是非常重要的一点。

实现方式

句子：['商务部', '开展', '首批步行街改造提升试点工作', '。']。

方式一：分层CRF

比如上面这句话，他首先构造一个9*9的临界矩阵（按照分词个数），因为这句话只能拆出来一个完整子句，故只有第一行有label，剩下的8行全是空的。

即:

[['B-主', 'B-谓', 'B-宾', 'I-宾', 'I-宾', 'I-宾', 'I-宾', 'I-宾', 'B-符号'],
 ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O'],
 ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O'],
 ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O'],
 ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O'],
 ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O'],
 ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O'],
 ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O'],
 ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']]

那这里变成了两个问题：

预测层数。表示这句话可以拆出多少个完整子句。
每层的crf预测。对每层的label使用CRF进行预测和解码。

一. 层数预测

args-level。
输入一句话，预测有几个子句。

二. CRF预测

args-crf。

这里就一个需要注意的地方，就是设置一个层数上限，比如10层。那么bert输出比如(32, 128, 768)，将其expand至(32, 10, 128, 768)，然后接一个768 * 768的linear，将bert的语义表示用这个linear对每一层重新获取对应的语义表示。

三. 联合模型

args-level-crf-parser。
就是将上面两个模型集成到一个任务里，两个loss分配不同的weight。

四. 过程总结与思考

1.实验

训练层数预测模型时，发现在验证集上F1一直只到0.7~0.8之间，和我最初预想能达到0.95以上有很大的差距，虽然训练集上基本达到100%准确。

2.思考

后来我想了下，我觉得有两部分原因：

样本层数分布不均匀，比如1层和2层的占据了绝大多数，6,7层的就很少了。
对多分类模型抱有的期望过高。

为什么我会有第二个见解？我在训练中途看了transformers库集成的多分类代码，发现和我的没什么区别，这让我很纠结，难道是梯度裁剪、dropout、optimizer各方面没有设置好？？还是模型我不应该用electra，以及不应该使用交叉熵作为损失函数，而是可以尝试下FocalLoss？

结果在种种测试下，都没有达到一个有效的改善。

后来我觉得可能就是我对这个任务的准确度抱有的期望过高，为什么呢？
因为从人角度来看，都未必能准确知道一个句子应该分成几个子句。

最终结果是没有达到预期的，一开始我先写的联合模型，但是发现在验证集上的层数预测的f1最多到0.8，label预测准确率更低。

后来我对这两个模型进行拆分成两个任务来训练，以为可以改进层数预测的结果，但是分开后在验证集上层数预测的F1仍旧只能到0.8左右～，所以联合模型没有大的问题。

对于CRF预测，label有40个左右，加之label的数量分布严重不均衡，那么即使假设这个任务的f1可以达到0.8，那两个任务的最终结果也就在0.6以上。

那么由此可证，这种方式可能走不通。

方式二：嵌套ner

args0complement。（忽略名字啦，本想留给主语补齐的。。。）

这种方式是使用嵌套ner的方式来表示这些数据。

对于上面这句话，将其转成一个9*9临接矩阵(按照分词进行构成)。
那他将会落在位置(0, 0), (1, 1), (2, 7), (8, 8)上，并且其标签分别是：主语，谓语，宾语，符号。

他将面临的最主要的问题：

虽然位置和标签都可以表示了，但是其之间的关联关系并没有。

那么训练时没有问题，但是在解码的时候就会出现多种组合，比如：

(1, 2, 3, 4)
(1, 2, 3)
(2, 3, 4)
(1, 2)
(2, 3)
(3, 4)

为什么会有这么多种组合呢？
因为一棵树是由多层组成的，那么其相互之间是可以在不同层进行组合。

转成一种方便理解的方式，即：

主谓宾符号
主谓宾
谓宾符号
主谓
谓宾
宾符号

那么难点就是从这一堆的路径里面选取合适的路径出来。

1.实验

首先我没想到模型结果会出乎意料好许多，不是从这个嵌套ner任务本身的准确率，而是从这一套的实现方式上，效果得到了一个很大的提升。
这个给了极大的信心去写后面多条路径解码的代码😅😅😅。

做法上我是先按照dependency-parser的方式来做，分成两个loss，一个是arc loss，还有一个rel loss。其中arc loss表示在这个临接矩阵中存在对应关系，那么就用1表示，否则0，即位置。rel_loss表示label在这个临接矩阵中的位置以及对应的label。

dependency-parser在位置解码的时候是以arc-loss为准，因为基本毫无疑问arc相对是更容易的，我也按照这个思路进行的，不过最终发现直接用rel loss就已经足够了。。

从上图可以看到：

整个收敛还是很快的。
arc loss和rel loss后面基本持平了。
右边那张图的F1的结果，是因为有些类别样本数量太低导致的，看下面某训练时刻的结果。

eval[2]: 109it [00:25,  4.25it/s]
-------------------------arc score--------------------------
0.994944815190855
label      precision            recall               f1-score             support             
0          0.9972400957814684   0.997613766384969    0.9974268960857379   1195608             
1          0.8661066266191102   0.848271741128884    0.8570964146386773   21756               
------------------------without_arc-------------------------
label      precision            recall               f1-score             support             
0          0.9973666429171141   0.9975368180875337   0.9974517232439305   1195608             
1          0.8611636210880067   0.8251157174481787   0.8427543679342241   4969                
2          0.8362629424512401   0.8392943450942484   0.8377759015800266   8276                
3          0.8743008079552517   0.8869798234552333   0.8805946791862285   6344                
4          0.8064516129032258   0.9090909090909091   0.8547008547008547   110                 
5          0.8508771929824561   0.8818181818181818   0.8660714285714286   110                 
6          0.6592920353982301   0.6208333333333333   0.6394849785407726   240                 
7          0.7988338192419825   0.6157303370786517   0.6954314720812182   445                 
8          0.5623100303951368   0.6006493506493507   0.5808477237048667   308                 
9          0.5150375939849624   0.5732217573221757   0.5425742574257425   239                 
10         0.5526315789473685   0.5472312703583062   0.5499181669394436   307                 
11         0.4788732394366197   0.3953488372093023   0.43312101910828027  86                  
12         0.46511627906976744  0.3333333333333333   0.3883495145631068   60                  
13         0.0                  0.0                  0.0                  48                  
14         0.8205128205128205   0.9411764705882353   0.8767123287671232   68                  
15         0.7263157894736842   0.7040816326530612   0.7150259067357513   98                  
16         0.66                 0.75                 0.702127659574468    44                  
17         0.4                  0.5                  0.4444444444444445   4                   
18         0.0                  0.0                  0.0                  0                   
19         0.0                  0.0                  0.0                  0                   
--------------------------with_arc--------------------------
label      precision            recall               f1-score             support             
0          0.9971531736346768   0.9978303925701401   0.9974916681577307   1195608             
1          0.8706489041684572   0.8154558261219561   0.8421490179777616   4969                
2          0.8455584224106155   0.8315611406476558   0.8385013706975327   8276                
3          0.8876834716017868   0.8770491803278688   0.8823342848081193   6344                
4          0.8571428571428571   0.8727272727272727   0.8648648648648648   110                 
5          0.8703703703703703   0.8545454545454545   0.8623853211009175   110                 
6          0.7                  0.5833333333333334   0.6363636363636365   240                 
7          0.8438538205980066   0.5707865168539326   0.6809651474530831   445                 
8          0.5700934579439252   0.5941558441558441   0.5818759936406994   308                 
9          0.531496062992126    0.5648535564853556   0.5476673427991886   239                 
10         0.5513698630136986   0.5244299674267101   0.5375626043405676   307                 
11         0.5555555555555556   0.3488372093023256   0.4285714285714286   86                  
12         0.4857142857142857   0.2833333333333333   0.35789473684210527  60                  
13         0.0                  0.0                  0.0                  48                  
14         0.84                 0.9264705882352942   0.881118881118881    68                  
15         0.7674418604651163   0.673469387755102    0.7173913043478259   98                  
16         0.6585365853658537   0.6136363636363636   0.6352941176470588   44                  
17         0.3333333333333333   0.25                 0.28571428571428575  4                   
18         0.0                  0.0                  0.0                  0                   
19         0.0                  0.0                  0.0                  0

方式三：进阶的constituency parser

这地方有两个需要学习的：

使用GNN的方式来做consitutnecy parser，看看这种方式的效果。
改进constituency parser在将其构成临接矩阵的时候，去掉其上下之间的关联关系，减少预测数量，看看是否能提升其准确率。

展开全文 >>

获取全部路径以及最短路径

2022-05-17

代码

# -*- coding: utf8 -*-
#
import math
from typing import List


def trace_path(vec, pathes):
    if not vec:
        return pathes
    valid_pathes = []
    for item in vec[0]:
        for path in pathes:
            if item > path[-1]:
                valid_pathes.append([*path, item])

    return trace_path(vec=vec[1:], pathes=valid_pathes)


def get_all_valid_path(vec: List[List[int]]) -> List[List[int]]:
    if not vec: return []
    for v in vec:
        if not v:
            return []
    return trace_path(vec=vec[1:], pathes=[[i] for i in vec[0]])


def _sub_sum(path: List[int]) -> int:
    _sum = 0
    for index, item in enumerate(path):
        try:
            next_item = path[index + 1]
            _sum += (next_item - item)
        except IndexError:
            pass
    return _sum


def get_shortest_path(vec: List[List[int]]) -> List[int]:
    """
    输出最短的那个路径
    :param vec:
    :return:
    """
    pathes = get_all_valid_path(vec=vec)
    short_path, short_sum = [], math.inf

    for path in pathes:
        _sum = _sub_sum(path=path)
        if short_sum > _sum:
            short_path = path
            short_sum = _sum
    return short_path

测试

from unittest import TestCase

from path import get_all_valid_path, get_shortest_path


class TestPath(TestCase):
    def test_sample(self):
        self.assertEqual(get_all_valid_path([]), [])

        self.assertEqual(get_all_valid_path([[1, 3], [2, 5]]), [[1, 2], [1, 5], [3, 5]])

        self.assertEqual(get_shortest_path([[1, 3], [2, 5]]), [1, 2])

展开全文 >>

使用GAN思想进行纠错

2022-04-21

引言

书接上文，上文在计算loss时一共分为两个。

mlm loss(即macbert预测的loss)
二分类loss(即hidden states降维到1后与原始数据集的loss，即原始文本和正确文本相比，不同为1,相同为0)。

例如：

训练数据集	样本
original_text	我和你在一其
correct_text	我和你在一起
det_labels	0 0 0 0 0 1

将original_text输入到bert后，获得mlm_result，即我和你在一器。此为mlm loss。
在获得mlm_result同时，也可以获取hidden_states，将hidden_states输入到linear，再与det_labels做二分类。此为二分类loss。
分配两个loss不同的weight，作为最终loss，此为上篇文章的实现思路。

那这篇文章改动了什么？

实现思路

det_labels的获取方式更改了，怎么更改的？以mlm_result和correct_text进行对比进行获取。
如上例：即mlm_result输出我和你在一器，和correct_text我和你在一起进行对比。

即用GAN的思想来进行corrector!

实验结果

此处我将mlm预测称为generator（G）,二分类判别称为discriminator(D)。

分配G和D两者loss不同的weight。

1. 当weight分配是`1`和`50`

可以看到一个现象，不管dev_metric还是train_metric，在epoch2和epoch3的时候，它的准确度很突然下降，对应的loss也会比刚开始的大的许多。随后效果才会慢慢的提升。

2. 当weight分配是`0.9`和`0.1`

如果我把上图dev_metric展开下再和train_metric放到一起对比：

可以看到效果：

在epoch1出来时，效果基本就已经非常不错了。
在随后的epochs里，准确度的提升非常缓慢。

3. 当weight分配是`0.1`和`0.9`

4. 当weight分配是`0.1`和`0.9`，并且判别器添加GELU

分析

上面这些实验例子都有一个共同的现象：

epoch1时准确率就已经不错了，相比上文。
都有抖动现象，就是在某个epoch时不管dev还是train都有抖动，随后再回到正常。

1. 当weight分配是`1`和`50`

首先解释为什么选择1和50,这个地方来自electra地方的思想，可看上文。

2. 当weight分配是`0.9`和`0.1`

整体很平滑，仿佛判别器没有起到作用似的或者作用很小。

3. 当weight分配是`0.1`和`0.9`

没什么大的意外。

但是让我意外的是下面4情况。

4. 当weight分配是`0.1`和`0.9`，并且判别器添加GELU

我在看《机器学习实战：基于Scikit-Learn和TensorFlow》第二版时里面讲到训练GAN有些小trick，比如可以给判别器添加一个激活函数。

但是当添加后，发现其抖动的更为严重。。。

5. 为什么我选择0.1和0.9

这个是个实验值，没有具体理论依据哈，本身就是超参。看下图：

d_loss和g_loss分别是判别器和生成器各自的loss。

从上图可以看出，d_loss比g_loss小大概9~10倍，所以依据来源在此。

总结

当然还有一些其他的小技巧，就不做实验了，gan本来就难搞。。。

比如：

生成器的网络空间大小相比判别器调到1/4 ~ 1/2（来自electra）。具体做法就是减少层数或者降低每层的空间大小。
使用不一样的优化器。
改变训练技巧。生成器和判别器分别训练，当训练一个时，另外一个trainable=False。使其达到一个均衡。。

啥是模式崩溃？
就是当生成器学会苹果后，那判别器就会判别苹果。当生成器转头学会橘子后，那判别器会对橘子判别更准。
而对苹果和橘子共同存在的情况下效果不好。而达到一个纳什均衡。

参考

展开全文 >>

macbert4csc纠错

2022-04-01

简介

此篇文章是对macbert4csc模型的一次尝试与思考，废话不多说，看内容。
[x180/macbert4csc-scalarmix-base-chinese]https://huggingface.co/x180/macbert4csc-scalarmix-base-chinese)。

模型结构

这个模型分成两部分：

使用BertForMaskedLM对预训练模型做mask训练。
对预测的结果输入linear，判断预测的结果和真实的结果是否相同，即二分类。

举例：
比如错句为我和你在一其，正确的句子为我和你在一起，错句输入MLM，得到的结果假设为我和你在一器。然后输入linear判别器，判断和正确的句子做二分类。最后两个loss进行相加。

思考

为什么选择macbert

首先看看什么是macbert,全称是(MLM as corrector)，它是哈工大和讯飞一起训练的模型。主要做的内容有两点：

修改bert mask预处理代码，将bert做[mask]的地方用同义词来替代。同时引入全词mask。
替换NSP任务，使用SOP来替代。

第一条的做法好处是下游任务一般不会有[mask]，那么就不会带来预训练模型和下游任务不匹配的问题。
第二条的做法好处是简单来讲就是更能理解句子的语义性（合理以及通顺）。

为什么代码没有在错字地方做mask

这个问题就是为什么选择macbert做微调，因为macbert对mlm中做mask替代的地方用了同义词替换。

和electra有什么关系

这个问题是我自己强行加进来的，哈哈。。

先来看下electra的结构图。

electra模型分成两部分：

生成器。例如上图，对the和painting做[MASK]，然后使用生成器进行训练获取结果, 其中the对了，painting对应了car。
将生成的结果送入判别器，和原句做二分类，发现painting生成错了。

其loss计算方式如下所示：

有木有发现，两者其实还蛮像的，哈哈。

下面是正经思考：

错字识别是否可以使用electra模型来训练？
其中 λ是否可以进行借鉴？

回答1：我觉得阔以，甚者我觉得结果要比macbert4csc更好，为什么？

实验结果，macbert4csc的训练结果没有electra的结果好，你可以说不是同一类型的任务。
macbert做同义词替换，如果没有对应的同义词呢，或者说同义词替换更关注实体词呢，错字是有可能哪里都可能错的。
但是，这些想法都是有些牵强的，只有自己跑出来才知道结果。

回答2：我觉得阔以，因为对于多loss，一般没有好的解决方法，明明超参数，只能实验呗。作者在这里选择了50，因为他认为
二分类相比mlm的交叉熵更容易一些，所以给予了更大的权重。

但是我觉得还可以有另外一种思路来参考，即灾难性遗忘，它是说下游任务对预训练模型进行fine-tune，会对预训练模型造成干扰，那么loss计算时可以分成两部分，pretrained loss和fine-tune loss，一般按经验fine-tune loss权重为0.5。

改进

一. 调整λ值

作者这里使用0.7/0.3的权重分配给MLM和sigmoid二分类，这里我对其做了如下调整：

ID	MLM weight	sigmoid二分类 weight	dev metric
1	1	0.5	epoch26:0.9168
2	1	5	epoch35:0.914
3	1	50

1. ID（1）

以macbert eval.py为准进行测试，记得把macbert_model_dir改成自己的。

以epoch 26的模型为准：

1 2	Sentence Level: acc:0.7040, precision:0.8545, recall:0.6087, f1:0.7109, cost time:5.35 s Sentence Level: acc:0.7955, precision:0.8093, recall:0.7661, f1:0.7871, cost time:10.53 s

和”shibing624/macbert4csc-base-chinese”进行对比，发现recall要高了不少，结果效果更好了些～。

2. ID（2）

dev metric 在epoch 35的时候为0.914，相比ID（1）在epoch 26 0.9168的结果，发现收敛速度变的慢了。
故这个忽略。

3. ID（3）

dev metric 在epoch 35的时候为0.9112，虽说还有小量上涨可能，但是train metric已经过拟合了，这个结果让我觉得…，emmmm，这些超参没有达到想象中的区别哇。

2. 对hidden_states分配权重

作者在进行二分类的时候使用了最后一层的hidden_states，那么是否可以对所有的hiddeen_states分配不同的权重。为什么？前面的layer更偏向浅层语义信息，比如词法，句法等，越往后代表的含义可能更深层次，本来就是预测词对不对，搞那么深不一定适合。
所以下面对其进行尝试。

添加scalarmix层，代码如下:

class ScalarMix(nn.Module):
    def __init__(self, n_layers, dropout=0.):
        super(ScalarMix, self).__init__()
        self.n_layers = n_layers

        self.weights = nn.Parameter(torch.zeros(n_layers))
        self.gamma = nn.Parameter(torch.tensor([1.0]))
        self.dropout = nn.Dropout(dropout)

    def __repr__(self):
        s = f"n_layers={self.n_layers}"
        if self.dropout.p > 0:
            s += f", dropout={self.dropout.p}"

        return f"{self.__class__.__name__}({s})"

    def forward(self, tensors):
        r"""
        Args:
            tensors (list[~torch.Tensor]):
                :math:`N` tensors to be mixed.
        Returns:
            The mixture of :math:`N` tensors.
        """

        normed_weights = self.dropout(self.weights.softmax(-1))
        weighted_sum = sum(w * h for w, h in zip(normed_weights, tensors))

        return self.gamma * weighted_sum

结果如下：

ID	MLM weight	sigmoid二分类 weight	dev metric
1	1	0.5	epoch12：0.9118

为啥epoch 12就停了，因为train metric基本已经达到1了。。。

由此可见，整个准确率的提升，更多是在mlm这个任务上，加了二分类判断其对不对，整体影响并没那个大。。。

后来我发现了一个地方，mlm weight和二分类weight我给的是1和0.5，压缩到1之内就分别是0.6666和0.3333，我嘞个去，这不基本和作者的0.7和0.3很相近了么。。下次需要提前注意下。

最后

当我对mlm loss weight分配了更高的权重，结果发现效果有提升。

总结

对mlm和二分类分配不同权重发现，mlm的权重应该更高一些。这个和electra中那个50稍微有点偏差。不过我觉得又可以理解，因为它上游是生成器，任务不同～。
添加了ScalarMix层给hidden_states分配不同的权重，其对结果并没有产生有效影响，其本质问题还是在于mlm loss还是应该占据更大的比例。
至于为什么不尝试Chinese-BERT-wwm，因为MacBERT在其个任务效果对比中比前者整体表现会偏更好一些，另外都是做wwm，所以本质没有区别。

展开全文 >>

腾讯TexSmart备忘

2022-03-14

备忘一下～

之前在看腾讯开源的词向量时，Tencent AI Lab Embedding Corpus for Chinese Words and Phrases，在看到Simple Cases那里，瞬间感到震撼！！果然大公司就是大公司，有钱有地位。。。

跟着公司做了一些技术研究和项目后，发现目前nlp之所以发展没到位，最主要原因就是：算法和数据分家。算法层面，目前整个学术界没有大的进步，另外像GPT3这种，一般玩不起。数据层面，没人开源数据，即使开源了，标注质量参差不齐，标注标准也是如此。那大家比什么，比的只有算法喽，结果最后就是华而不实（工业上应用）～。

那回到开始，觉得震撼之余，就在想那腾讯肯定也有相应的分词，结果找了半天，没找到。今天突然发现了，窃喜之余，记录一下。

关于它的介绍，TexSmart: 文本理解工具与服务，以及它的Demo，整体效果看下来，要好于目前很多开源的（当然，你懂我意思），大家算法可能都差不多。

但是分为离线版和http api版，差距有多大，这个木有尝试，反正官方说有差距。

以后尝试尝试。

参考地址：

展开全文 >>

引言

问题

思路

1. 引入其他layer和bert进行concat

2. 修改触发词和客体所在bert输出索引的权重

3. 变化标注方式，还是利用bert本身

总结

引言

1. 跑通代码

2. 模型结构

3. 模型结构

4. 整体流程

1. 输入句子，拿到bert output

2、做动态池化

3、获取window_size内最大的feature

4、和trigger feature进行concat

5、整体forward代码

5、值得注意的点

备忘

引言

1. 跑通代码

2. 模型结构

3. 模型结构

4. 训练中需要注意的点

1. label构造

2.相对位置编码

3. conditional layer norm

4. 多feature layer norm

5. 计算loss

6. 解码

7. 备注

1. SWA(随机权重平均)

2. attack training(对抗训练)

引言

1. 跑通代码

2. 模型结构

3. 数据处理

4.模型结构

5. 训练

6. 解码

7. 总结

1. 作者为什么没有使用bert+crf？

2. 优点

3. 缺点

8. 思考

备注

1. 忽略的点

2. 使用roberta-www-ext

引言

使用

思考

实现方式

方式一：分层CRF

一. 层数预测

二. CRF预测

三. 联合模型

四. 过程总结与思考

方式二：嵌套ner

方式三：进阶的constituency parser

代码

测试

引言

实现思路

实验结果

1. 当weight分配是1和50

2. 当weight分配是0.9和0.1

3. 当weight分配是0.1和0.9

4. 当weight分配是0.1和0.9，并且判别器添加GELU

分析

1. 当weight分配是1和50

2. 当weight分配是0.9和0.1

3. 当weight分配是0.1和0.9

4. 当weight分配是0.1和0.9，并且判别器添加GELU

5. 为什么我选择0.1和0.9

总结

参考

简介

模型结构

思考

为什么选择macbert

2. 修改`触发词`和`客体`所在bert输出索引的权重

1. 当weight分配是`1`和`50`

2. 当weight分配是`0.9`和`0.1`

3. 当weight分配是`0.1`和`0.9`

4. 当weight分配是`0.1`和`0.9`，并且判别器添加GELU

1. 当weight分配是`1`和`50`

2. 当weight分配是`0.9`和`0.1`

3. 当weight分配是`0.1`和`0.9`

4. 当weight分配是`0.1`和`0.9`，并且判别器添加GELU