bert以首字表示词向量(2)

2021-06-25

第二篇文章，通过一种新的方式来实现以首字表示词向量
也可以看这里：一些mask的操作理解 gather部分。


# -*- coding: utf8 -*-
#
from typing import List
from unittest import TestCase

import torch
from torch.nn.utils.rnn import pad_sequence
from transformers import AutoTokenizer, AutoModel, PreTrainedTokenizerBase


def tokenize(form: List[List[str]], tokenizer: PreTrainedTokenizerBase, max_length: int, char_base: bool = False):
    """

    Args:
        form:
        tokenizer:
        max_length:
        char_base: 这里指的是form[即 word]是否是字级别的

    Returns:

    """
    res = tokenizer.batch_encode_plus(
        form,
        is_split_into_words=True,
        max_length=max_length,
        truncation=True,
    )
    result = res.data
    # 可用于长度大于指定长度过滤, overflow指字长度大于指定max_length，如果有cls,sep，那么就算上这个
    result['overflow'] = [len(encoding.overflowing) > 0 for encoding in res.encodings]
    if not char_base:
        word_index = []
        for encoding in res.encodings:
            word_index.append([])

            last_word_idx = -1
            current_length = 0
            for word_idx in encoding.word_ids[1:-1]:
                if word_idx != last_word_idx:
                    word_index[-1].append(current_length)

                current_length += 1
                last_word_idx = word_idx
        result['word_index'] = word_index
        result['word_attention_mask'] = [[True] * len(index) for index in word_index]
    return result


class TestSample(TestCase):
    def test_max_length(self):
        """
        测试max_length overflow情况
        :return:
        """
        pass

    def test_sample(self):
        form = [
            ['我', '呀'],
            ['我', '小明', '呀']
        ]

        tokenizer = AutoTokenizer.from_pretrained('hfl/chinese-electra-180g-small-discriminator')
        result = tokenize(form, tokenizer, 6)
        model = AutoModel.from_pretrained('hfl/chinese-electra-180g-small-discriminator')

        input_ids = pad_sequence([torch.tensor(input_ids) for input_ids in result['input_ids']], batch_first=True)
        token_type_ids = pad_sequence([torch.tensor(token_type_ids) for token_type_ids in result['token_type_ids']],
                                      batch_first=True)
        attention_mask = pad_sequence([torch.tensor(attention_mask) for attention_mask in result['attention_mask']],
                                      batch_first=True)

        # tensor([[ 101, 2769, 1435,  102,    0,    0],
        #         [ 101, 2769, 2207, 3209, 1435,  102]])

        # 1. 获取bert output.
        bert_out = model(input_ids=input_ids, token_type_ids=token_type_ids, attention_mask=attention_mask)
        seq_out = bert_out[0]

        word_index = pad_sequence([torch.tensor(word_index) for word_index in result['word_index']], batch_first=True)

        # 2. 获取词首字向量，包括cls开头
        word_out = torch.cat([seq_out[:, :1, :], torch.gather(
            seq_out[:, 1:, :], dim=1, index=word_index.unsqueeze(-1).expand(-1, -1, seq_out.size(-1))
        )], dim=1)

        word_attention_mask = pad_sequence(
            [torch.tensor(word_attention_mask) for word_attention_mask in result['word_attention_mask']],
            batch_first=True)

        # 这里方便view
        # 1. ['我', '呀']
        self.assertTrue((seq_out[0][0] == word_out[0][0]).all())  # cls
        self.assertTrue((seq_out[0][1] == word_out[0][1]).all())  # 我
        self.assertTrue((seq_out[0][2] == word_out[0][2]).all())  # 呀

        self.assertTrue((word_out[0][1] == word_out[0][3]).all())  # 填充位

        # 2. ['我', '小明', '呀']
        self.assertTrue((seq_out[1][0] == word_out[1][0]).all())  # cls
        self.assertTrue((seq_out[1][1] == word_out[1][1]).all())  # 我
        self.assertTrue((seq_out[1][2] == word_out[1][2]).all())  # 小明
        self.assertTrue((seq_out[1][4] == word_out[1][3]).all())  # 呀

        # 3. Note: word_out的时候concat了seq_out[:, :1, :](cls)，所以word_out的长度比word_attention_mask大1
        self.assertEqual(word_out.size(1), word_attention_mask.size(1) + 1)

        # 4. 获取每个词对应的向量
        result = word_out[:, 1:, :][word_attention_mask]
        result2 = result.split(word_attention_mask.sum(1).tolist())
        self.assertEqual(len(result2[0]), 2)
        self.assertEqual(len(result2[1]), 3)

展开全文 >>

bert以平均、首字、尾字表示词向量(1)

2021-06-25

1. word preprocess.



import torch
from transformers import AutoTokenizer


def encoder_texts(texts: List[List[str]], tokenizer):
    # 统计句子中最大的词长度
    fix_len = max([max([len(word) for word in text]) for text in texts])

    matrix = []
    for text in texts:
        vector = []

        text = [tokenizer.cls_token, *text, tokenizer.sep_token]
        input_ids = tokenizer.batch_encode_plus(
            text,
            add_special_tokens=False,
        )['input_ids']

        for _input_ids in input_ids:
            # 修复例如: texts = [['\ue5f1\ue5f1\ue5f1\ue5f1']] 这种情况
            _input_ids = _input_ids or [tokenizer.unk_token_id]
            vector.append(_input_ids + (fix_len - len(_input_ids)) * [tokenizer.pad_token_id])
        matrix.append(torch.tensor(vector, dtype=torch.long))
    return pad_sequence(matrix, batch_first=True)


if __name__ == '__main__':
    texts = [
        ['我', '爱中国'],
        ['我', '爱', '中国']
    ]
    tokenizer = AutoTokenizer.from_pretrained('ckiplab/albert-tiny-chinese')
    print(encoder_texts(texts, tokenizer))

output：

tensor([[[ 101,    0,    0],
         [2769,    0,    0],
         [4263,  704, 1744],
         [   0,    0,    0]],

        [[ 101,    0,    0],
         [2769,    0,    0],
         [4263,    0,    0],
         [ 704, 1744,    0]]])

2. transformer layer.


# -*- coding: utf-8 -*-

import torch
import torch.nn as nn
from supar.modules.scalar_mix import ScalarMix
from supar.utils.fn import pad

# pad 等价于 pad_sequence。

# from torch.nn.utils.rnn import pad_sequence

class TransformerEmbedding(nn.Module):
    r"""
    A module that directly utilizes the pretrained models in `transformers`_ to produce BERT representations.
    While mainly tailored to provide input preparation and post-processing for the BERT model,
    it is also compatible with other pretrained language models like XLNet, RoBERTa and ELECTRA, etc.

    Args:
        model (str):
            Path or name of the pretrained models registered in `transformers`_, e.g., ``'bert-base-cased'``.
        n_layers (int):
            The number of BERT layers to use. If 0, uses all layers.
        n_out (int):
            The requested size of the embeddings. If 0, uses the size of the pretrained embedding model. Default: 0.
        stride (int):
            A sequence longer than max length will be splitted into several small pieces
            with a window size of ``stride``. Default: 10.
        pooling (str):
            Pooling way to get from token piece embeddings to token embedding.
            ``first``: take the first subtoken. ``last``: take the last subtoken. ``mean``: take a mean over all.
            Default: ``mean``.
        pad_index (int):
            The index of the padding token in BERT vocabulary. Default: 0.
        dropout (float):
            The dropout ratio of BERT layers. Default: 0. This value will be passed into the :class:`ScalarMix` layer.
        requires_grad (bool):
            If ``True``, the model parameters will be updated together with the downstream task. Default: ``False``.

    .. _transformers:
        https://github.com/huggingface/transformers
    """

    def __init__(self, model, n_layers=4, n_out=0, stride=256, pooling='mean', pad_index=0, dropout=0, requires_grad=True):
        super().__init__()

        from transformers import AutoConfig, AutoModel, AutoTokenizer
        self.bert = AutoModel.from_pretrained(model, config=AutoConfig.from_pretrained(model, output_hidden_states=True))
        self.bert = self.bert.requires_grad_(requires_grad)

        self.model = model
        self.n_layers = n_layers or self.bert.config.num_hidden_layers
        self.hidden_size = self.bert.config.hidden_size
        self.n_out = n_out or self.hidden_size
        self.stride = stride
        self.pooling = pooling
        self.pad_index = pad_index
        self.dropout = dropout
        self.requires_grad = requires_grad
        self.max_len = int(max(0, self.bert.config.max_position_embeddings) or 1e12) - 2

        self.tokenizer = AutoTokenizer.from_pretrained(model)

        self.scalar_mix = ScalarMix(self.n_layers, dropout)
        self.projection = nn.Linear(self.hidden_size, self.n_out, False) if self.hidden_size != n_out else nn.Identity()

    def __repr__(self):
        s = f"{self.model}, n_layers={self.n_layers}, n_out={self.n_out}, "
        s += f"stride={self.stride}, pooling={self.pooling}, pad_index={self.pad_index}"
        if self.dropout > 0:
            s += f", dropout={self.dropout}"
        if self.requires_grad:
            s += f", requires_grad={self.requires_grad}"

        return f"{self.__class__.__name__}({s})"

    def forward(self, subwords):
        r"""
        Args:
            subwords (~torch.Tensor): ``[batch_size, seq_len, fix_len]``.
        Returns:
            ~torch.Tensor:
                BERT embeddings of shape ``[batch_size, seq_len, n_out]``.
        """

        mask = subwords.ne(self.pad_index)
        lens = mask.sum((1, 2))
        # [batch_size, n_subwords]
        subwords = pad(subwords[mask].split(lens.tolist()), self.pad_index, padding_side=self.tokenizer.padding_side)
        bert_mask = pad(mask[mask].split(lens.tolist()), 0, padding_side=self.tokenizer.padding_side)

        # return the hidden states of all layers
        bert = self.bert(subwords[:, :self.max_len], attention_mask=bert_mask[:, :self.max_len].float())[-1]
        # [n_layers, batch_size, max_len, hidden_size]
        bert = bert[-self.n_layers:]
        # [batch_size, max_len, hidden_size]
        bert = self.scalar_mix(bert)
        # [batch_size, n_subwords, hidden_size]
        for i in range(self.stride, (subwords.shape[1]-self.max_len+self.stride-1)//self.stride*self.stride+1, self.stride):
            part = self.bert(subwords[:, i:i+self.max_len], attention_mask=bert_mask[:, i:i+self.max_len].float())[-1]
            bert = torch.cat((bert, self.scalar_mix(part[-self.n_layers:])[:, self.max_len-self.stride:]), 1)

        # [batch_size, seq_len]
        bert_lens = mask.sum(-1)
        bert_lens = bert_lens.masked_fill_(bert_lens.eq(0), 1)
        # [batch_size, seq_len, fix_len, hidden_size]
        embed = bert.new_zeros(*mask.shape, self.hidden_size).masked_scatter_(mask.unsqueeze(-1), bert[bert_mask])
        # [batch_size, seq_len, hidden_size]
        if self.pooling == 'first':
            embed = embed[:, :, 0]
        elif self.pooling == 'last':
            embed = embed.gather(2, (bert_lens-1).unsqueeze(-1).repeat(1, 1, self.hidden_size).unsqueeze(2)).squeeze(2)
        else:
            embed = embed.sum(2) / bert_lens.unsqueeze(-1)
        embed = self.projection(embed)

        return embed

到此，能够拿到以词为级别的output，embed.shape查看一下即可，后续就可以concat其他input做多输入。

展开全文 >>

bert网络结构

2021-06-23

这里以BertForMaskedLM为例，记录下BertModel的网络结构和一些思考，cls那部分网络结构不涉及，即BertOnlyMLMHead那部分。

BertForMaskedLM(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(21128, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0): BertLayer(
          (attention): BertAttention(
            (self): BertSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
          )
          (intermediate): BertIntermediate(
            (dense): Linear(in_features=768, out_features=3072, bias=True)
          )
          (output): BertOutput(
            (dense): Linear(in_features=3072, out_features=768, bias=True)
            (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )

        # 这里重复11次，一共12层结构。
      )
    )
  )
  (cls): BertOnlyMLMHead(
    (predictions): BertLMPredictionHead(
      (transform): BertPredictionHeadTransform(
        (dense): Linear(in_features=768, out_features=768, bias=True)
        (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      )
      (decoder): Linear(in_features=768, out_features=21128, bias=True)
    )
  )
)

1. position_embedding和transformer里面的位置编码不一样

transformer里面的positional embedding，是正余弦绝对位置编码，对于sequence分配不同的position id。而bert是学习出来的，分配一个(512,768)embedding。

随后word_embedding，positional embedding, token_type_embedding进行相加，然后经过LN、dropout获得最终embedding。

2. BertIntermediate是用来干嘛的

在transformer结构里，是没有这个中间层的，细看下，是将768扩大4倍，随后在BertOutput那里又降维到768。那bert加这一个linear的作用是干嘛的呢？

搜了下网上的看法，很少关注或者没有相关思考。但是这这篇论文：Undivided Attention: Are Intermediate Layers Necessary for BERT? 给出了自己的解释。作者观点如下：

In recent times, BERT-based models have been extremely successful in solving a variety of natural language processing (NLP) tasks such as reading comprehension, natural language inference, sentiment analysis, etc. All BERT-based architectures have a self-attention block followed by a block of intermediate layers as the basic building component. However, a strong justification for the inclusion of these intermediate layers remains missing in the literature. In this work we investigate the importance of intermediate layers on the overall network performance of downstream tasks. We show that reducing the number of intermediate layers and modifying the architecture for BERT-Base results in minimal loss in fine-tuning accuracy for downstream tasks while decreasing the number of parameters and training time of the model. Additionally, we use the central kernel alignment (CKA) similarity metric and probing classifiers to demonstrate that removing intermediate layers has little impact on the learned self-attention representations.

结论就是实验后发现降低网络复杂度后，同时也能保持微调任务的准确性。

展开全文 >>

mlm数据处理实现解读

2021-06-23

之前在看mask language model时，如何做数据处理那里一直没有太本质理解，比如15%做mask,然后又80%做mask,10%不变，10%随机选择，所以这里将mlm数据处理部分的代码列出来，方便需要者可以看到bert是怎么实现的。

另外关于mlm分词wordpience还是整词甚者ngram，这里不做探讨，本质来讲就是数据处理的方式不同，其他对于训练和上游使用预训练模型来讲并不影响。

import collections
import random


MaskedLmInstance = collections.namedtuple("MaskedLmInstance", ["index", "label"])


def create_masked_lm_predictions(
        tokens,
        masked_lm_prob,
        max_predictions_per_seq,
        vocab_words,
        rng
):
    """
    Creates the predictions for the masked LM objective.
    :param tokens: 输入文本
    :param masked_lm_prob: 掩码语言模型的掩码概率
    :param max_predictions_per_seq: 每个序列的最大预测数目
    :param vocab_words: 词表列表
    :param rng: 随机数生成器
    """

    cand_indexes = []
    for (i, token) in enumerate(tokens):
        if token == "[CLS]" or token == "[SEP]":
            continue
        cand_indexes.append(i)

    rng.shuffle(cand_indexes)

    output_tokens = list(tokens)

    num_to_predict = min(max_predictions_per_seq, max(1, int(round(len(tokens) * masked_lm_prob))))

    masked_lms = []
    covered_indexes = set()
    for index in cand_indexes:
        if len(masked_lms) >= num_to_predict:
            break
        if index in covered_indexes:
            continue
        covered_indexes.add(index)

        masked_token = None
        # 80% of the time, replace with [MASK]
        if rng.random() < 0.8:
            masked_token = "[MASK]"
        else:
            # 10% of the time, keep original
            if rng.random() < 0.5:
                masked_token = tokens[index]
            # 10% of the time, replace with random word
            else:
                masked_token = vocab_words[rng.randint(0, len(vocab_words) - 1)]

        output_tokens[index] = masked_token

        masked_lms.append(MaskedLmInstance(index=index, label=tokens[index]))

    masked_lms = sorted(masked_lms, key=lambda x: x.index)

    masked_lm_positions = []
    masked_lm_labels = []
    for p in masked_lms:
        masked_lm_positions.append(p.index)
        masked_lm_labels.append(p.label)

    return output_tokens, masked_lm_positions, masked_lm_labels


if __name__ == '__main__':
    test_input = ['i', 'love', 'you', 'do', 'you', 'like', 'me']
    test_vocab = ['i', 'love', 'you', 'do', 'like', 'me']

    out1, out2, out3 = create_masked_lm_predictions(
        tokens=test_input,
        masked_lm_prob=0.5,
        max_predictions_per_seq=512,
        vocab_words=test_vocab,
        rng=random.Random()

    )

展开全文 >>

研究torch0.4.1 rnn的实现

2021-06-19

公式

说明

所有测试代码以此为准。
以torch0.4.1的代码为准进行debug rnn代码，可以pip install 指定版本的torch.

从测试代码可以看到：

num_layers相当初始化多少层rnn layer，比如此例子的10，
input_size表示上一层的hidden_size(例如本例子的embedding)
hidden_size表示rnn的输出hidden_size
batch_first简单来讲就是内存存储的问题，if batch_first=True，那么维度(batch_size, seq_length, hidden_size)，否则seq_length和batch_size对调，另外cudnn底层就是seq_length放在第一位，torch底层也会根据batch_first进行转换

1. 初始化一些参数

以embedding出来为准，输出维度为: (32, 3, 30)
rnn第一步初始化hx(10, 32, 4)，一共初始化了num_layer=10层，batch_size=32，hidden_size=4，白话文就是每一层rnn都有一个(32, 4)的矩阵来保存最后一个时刻(ht)的结果。

这个可以看class RNNBase(Module):。
另外还有2个weight，2个bias的初始化。即公式中的w和b

2. AutogradRNN

初始化参数后，调用此方法，进行rnn计算，如果支持GPU，就会使用cudnn提供好的，此处忽略这里。

def AutogradRNN(mode, input_size, hidden_size, num_layers=1, batch_first=False,
                dropout=0, train=True, bidirectional=False, variable_length=False,
                dropout_state=None, flat_weight=None):
    # 使用不同的cell进行计算，每一层rnn layer即一个cell。
    if mode == 'RNN_RELU':
        cell = RNNReLUCell
    elif mode == 'RNN_TANH':
        cell = RNNTanhCell
    elif mode == 'LSTM':
        cell = LSTMCell
    elif mode == 'GRU':
        cell = GRUCell
    else:
        raise Exception('Unknown mode: {}'.format(mode))
    # rec_factory即表示Recurrent，就是第四步的函数
    rec_factory = variable_recurrent_factory if variable_length else Recurrent

    if bidirectional:
        # 可以看到哦，反向就是进行reverse一下
        # 对应代码：steps = range(input.size(0) - 1, -1, -1) if reverse else range(input.size(0))
        # 意思就是从最后一个时刻反向进行更新hidden_size（不同时刻的y）。
        layer = (rec_factory(cell), rec_factory(cell, reverse=True))
    else:
        layer = (rec_factory(cell),)
    # 这地方疯狂使用闭包...
    func = StackedRNN(layer,
                      num_layers,
                      (mode == 'LSTM'),
                      dropout=dropout,
                      train=train)

    def forward(input, weight, hidden, batch_sizes):
        if batch_first and not variable_length:
            # 囔，这里就会batch_size 和  sequence_length对调
            input = input.transpose(0, 1)

        nexth, output = func(input, hidden, weight, batch_sizes)

        if batch_first and not variable_length:
            output = output.transpose(0, 1)

        return output, nexth

    return forward

3. StackedRNN


def StackedRNN(inners, num_layers, lstm=False, dropout=0, train=True):
    
    """
     拿到每一层Recurrent layer计算出来的结果，进行concat到一起进行返回
     
     inner表示 Recurrent，代码如下

    """

    num_directions = len(inners)
    total_layers = num_layers * num_directions

    def forward(input, hidden, weight, batch_sizes):
        """
        input: 3, 32, 30 (sequence_length, batch_size, embedding input hidden_size),
        hidden: 10, 32, 4 (num_layers, batch_size, output hidden_size),
        """
        assert(len(weight) == total_layers)
        next_hidden = []

        if lstm:
            hidden = list(zip(*hidden))
        # 遍历rnn中num_layers
        for i in range(num_layers):
            all_output = []
            for j, inner in enumerate(inners): # inner表示 Recurrent，代码如下
                l = i * num_directions + j

                hy, output = inner(input, hidden[l], weight[l], batch_sizes)
                next_hidden.append(hy)
                all_output.append(output)

            input = torch.cat(all_output, input.dim() - 1)

            if dropout != 0 and i < num_layers - 1:
                input = F.dropout(input, p=dropout, training=train, inplace=False)

        if lstm:
            next_h, next_c = zip(*next_hidden)
            next_hidden = (
                torch.cat(next_h, 0).view(total_layers, *next_h[0].size()),
                torch.cat(next_c, 0).view(total_layers, *next_c[0].size())
            )
        else:
            next_hidden = torch.cat(next_hidden, 0).view(
                total_layers, *next_hidden[0].size())

        return next_hidden, input

    return forward

4. Recurrent

def Recurrent(inner, reverse=False):
    """
    表示单层layer的计算
    """
    def forward(input, hidden, weight, batch_sizes):
        """
        input: 3, 32, 30
        hidden: 32, 4 (表示遍历每一个单独的rnn进来，一共10次)
        weight:List[  (4, 30), (4,4), (4, ), (4, ) ]
        """
        output = []
        steps = range(input.size(0) - 1, -1, -1) if reverse else range(input.size(0))
        for i in steps: # steps为3,因为sequence_length为3
            hidden = inner(input[i], hidden, *weight) # hidden就代表上一个时刻的输出， inner为RNNTanhCell，代码如下
            # hack to handle LSTM
            output.append(hidden[0] if isinstance(hidden, tuple) else hidden)

        if reverse:
            output.reverse()
        output = torch.cat(output, 0).view(input.size(0), *output[0].size())
        # 此处hidden就代表最后一个时刻的输出(32, 4)，output表示每一个时刻的输出(3, 32, 4)
        # torch.any(output[-1,:,:] == hidden)
        return hidden, output

    return forward

5. Recurrent中的inner：

# 针对rnn
def RNNTanhCell(input, hidden, w_ih, w_hh, b_ih=None, b_hh=None):
    """
    input: 32, 30
    hidden: 32, 4
    w_ih: 4,30
    w_hh: 4,4
    b_ih: 4
    b_hh: 4
    """
    hy = torch.tanh(F.linear(input, w_ih, b_ih) + F.linear(hidden, w_hh, b_hh))
    return hy

# 针对lstm cell.
def LSTMCell(input, hidden, w_ih, w_hh, b_ih=None, b_hh=None):
    """
    input: (32, 30)
    hidden: ( (32, 4), (32, 4) )
    w_ih: (16, 30)
    w_hh: (16, 4)
    b_ih: (16, )
    b_hh: (16, )
    """
    if input.is_cuda: # 自行忽略此处代码
        igates = F.linear(input, w_ih)
        hgates = F.linear(hidden[0], w_hh)
        state = fusedBackend.LSTMFused.apply
        return state(igates, hgates, hidden[1]) if b_ih is None else state(igates, hgates, hidden[1], b_ih, b_hh)

    hx, cx = hidden
    # 看到么，也是rnn公式哦
    gates = F.linear(input, w_ih, b_ih) + F.linear(hx, w_hh, b_hh)
    # 但是此处不一样了，在第一维分割4份出来
    ingate, forgetgate, cellgate, outgate = gates.chunk(4, 1)
    # 看到下面这几行公式么，为啥子就能解决梯度消失呢？
    # 神不神奇，意不意外
    ingate = torch.sigmoid(ingate)
    forgetgate = torch.sigmoid(forgetgate)
    cellgate = torch.tanh(cellgate)
    outgate = torch.sigmoid(outgate)

    cy = (forgetgate * cx) + (ingate * cellgate)
    hy = outgate * torch.tanh(cy)
    # hy: (32,4), (32,4)
    return hy, cy

# 针对gru
def GRUCell(input, hidden, w_ih, w_hh, b_ih=None, b_hh=None):

    if input.is_cuda:
        gi = F.linear(input, w_ih)
        gh = F.linear(hidden, w_hh)
        state = fusedBackend.GRUFused.apply
        return state(gi, gh, hidden) if b_ih is None else state(gi, gh, hidden, b_ih, b_hh)

    # 这里就变了哦
    gi = F.linear(input, w_ih, b_ih)
    gh = F.linear(hidden, w_hh, b_hh)

    i_r, i_i, i_n = gi.chunk(3, 1)
    h_r, h_i, h_n = gh.chunk(3, 1)

    resetgate = torch.sigmoid(i_r + h_r)
    inputgate = torch.sigmoid(i_i + h_i)
    newgate = torch.tanh(i_n + resetgate * h_n)
    hy = newgate + inputgate * (hidden - newgate)

    return hy

6. 测试代码完整如下

# -*- coding: utf8 -*-
#
from torch.nn import Embedding, Sigmoid, Linear
from torch.nn.modules.rnn import RNN

import torch
from torch.nn import BCELoss
from torch.optim import RMSprop


class RNNModel(torch.nn.Module):
    def __init__(self):
        super(RNNModel, self).__init__()
        self.embed = Embedding(6, 30)
        self.rnn = RNN(input_size=30, hidden_size=4, batch_first=True, num_layers=10)
        self.linear = Linear(4, 1)

    def forward(self, input):
        input = self.embed(input)
        # rnn_out: (32, 3, 4) 返回batch_size下每个时刻(sequence_length)的最终输出
        # _ : (10, 32, 4) 表示batch_size下每个rnn layer最后一个时刻的输出
        rnn_out, _ = self.rnn(input)
        y_pred = self.linear(_.sum(0))
        return y_pred


class RNNDemo(object):
    def __init__(self):
        self.model = RNNModel()

        self.optim = RMSprop(self.model.parameters())

    def loss(self, y_pred, y_true):
        y_pred = Sigmoid()(y_pred)
        return BCELoss()(y_pred, y_true.float())

    def train(self, x, y):
        for i in range(100):
            for _x, _y in zip(x, y):
                _x = _x.repeat(32, 1)
                _y = _y.repeat(32, 1)
                y_pred = self.model(_x)
                loss = self.loss(y_pred, _y)
                loss.backward()
                print(loss.item())
                self.optim.step()
                self.optim.zero_grad()


if __name__ == '__main__':
    train_data = [
        (['A', 'B', 'C'], 'right'),
        (['C', 'D', 'E'], 'false')
    ]
    id_map = {
        'A': 1,
        'B': 2,
        'C': 3,
        'D': 4,
        'E': 5,
        'right': 6,
        'false': 7

    }
    rnn = RNNDemo()
    rnn.train(
        [torch.tensor([id_map[i] for i in sample[0]]).reshape(1, 3) for sample in train_data],
        [torch.tensor(id_map[sample[1]]).reshape(1, 1) for sample in train_data]
    )

至此，前向过程完结。

展开全文 >>

简述条件随机场

2020-06-18

1. 什么是条件随机场

条件随机场是一种给定输入随机变量x，求解条件概率p(y|x)的概率无向图模型。用于序列标注任务时，会特例化为线性链条件随机场。此时输入和输出序列为等长。

2. 为什么需要条件随机场

对于序列标注任务，此类任务有分词、词性标注等，本质是对每一个字（假设bert做特征提取）进行预测，然后接全连接层进行softmax激活，如下图所示：

以词性标注任务来讲，x表示观测序列，y表示预测序列，即词性分布。

按照中文使用规律来讲，动词后面接动词的可能性基本不存在（或者对于分词任务来讲蝴后面基本就是蝶），而在上述模型中，观测序列没有考虑彼此之间的关联。
对于一个长度为n的句子，一共有m个词性，那么一共有m * n个可能性。

crf引入了预测序列的关联，并以路径为单元，预测m^n个可能性中求最优的路径。

3. 如何求解loss值

在计算下面条件概率时，引入了以下几个假设进行简化计算：

1	P(y1,…,yn\|x1,…,xn)=P(y1,…,yn\|x),x=(x1,…,xn)

计算简化

假设该分布呈指数族分布
输出之间是相邻位置关联的
发射概率通过rnn进行获取

对其进行-log，变成相加问题，求其最大似然估计。

其中：

这个函数前一部分表示rnn到输出（标签）的发射概率矩阵，后一部分表示相邻标签的状态转移概率矩阵。

第一部分获取上述公式的计算结果，即分子项的计算结果，为目标的序列的打分结果。计算函数

第二部分是要求解分母项，需要在所有可能的路径上进行打分进行指数求和。计算函数
因为只考虑临近项，那么就可以递归的求出归一化因子，使用动态规划的方式获取所有路径的得分指数和。

4. 预测

在计算好的状态转移矩阵和发射概率矩阵，使用viterbi算法获取序列的最优路径解。

5. 有向无环图的求解（延展）

viterbi算法不是为nlp所生的，求解最优路径也有其他的算法，比如dijkstra，prim等。但是本质区别在于viterbi是动态规划算法，后两者属于贪心算法，计算资源消耗更多。另外动态规划本质是空间换时间。

关于viterbi动态规划求解，求解步骤如下：

从最左边开始，
A1,A2,A3都是起点,A1 -> B1为1, A2 -> B1为3,A3 -> B1(我擦，漏了。。假设为4)，那么A1,A2,A3到B1的最短路径为1（即A1 -> B1）。
同理得到B2的最短路径为2(即A1->B2),到B3的最短路径为1(A1->B3)。

从B1,B2,B3到C1的最短路径为2(即B1 -> C1)，到C2的最短路径为2,(B2 -> C2),后续忽略。那么得到下张图:

可以看出，到C1最短路径为(A1 -> B1 -> C1)，到C2最短路径为(A1 -> B2 -> C2)。

至此，求解过程完毕。

6. 参考

展开全文 >>

介绍隐马尔可夫

2020-06-16

什么是马尔可夫性质？

“……一个随机过程，在这个过程中，鉴于现在，未来独立于过去。”

假设一个带有公平硬币的简化抛硬币游戏。暂停怀疑并假设马尔可夫性质尚不清楚，我们想预测 10 次翻转后翻转正面的概率。在条件依赖的假设下（硬币具有过去状态的记忆，未来状态取决于过去状态的顺序），我们必须记录导致第 11 次翻转的特定顺序以及这些翻转的联合概率。所以想象在 10 次翻转后，我们有一个随机的正面和反面序列。该序列的联合概率为 0.5^10 = 0.0009765625。在条件依赖下，下一次翻转的概率为 0.0009765625 * 0.5 = 0.00048828125。

这是第 11 次翻转的真实概率吗？一定不行！

我们知道，抛硬币的事件并不取决于之前抛硬币的结果。硬币没有记忆。连续翻转的过程不会对先前的结果进行编码。每次翻转都是一个独特的事件，正面或反面的概率相等，也就是有条件地独立于过去的状态。这就是马尔可夫性质。

什么是马尔科夫模型？

马尔可夫链（模型）描述了一个随机过程，其中未来状态的假设概率仅取决于当前过程状态，而不取决于它之前的任何状态（shocker）。

让我们进入一个简单的例子。假设您想对给定当前状态的狗处于三种状态之一的未来概率进行建模。为此，我们需要指定状态空间、初始概率和转移概率。

想象一下你有一只非常懒惰的胖狗，所以我们将状态空间定义为睡觉、吃饭或大便。我们将初始概率分别设置为 35%、35% 和 30%。

import numpy as np
import pandas as pd
import networkx as nx
import matplotlib.pyplot as plt
%matplotlib inline

# create state space and initial state probabilities

states = ['sleeping', 'eating', 'pooping']
pi = [0.35, 0.35, 0.3]
state_space = pd.Series(pi, index=states, name='states')
print(state_space)
print(state_space.sum())

下一步是定义转移概率。它们只是在给定当前状态的情况下保持相同状态或移动到不同状态的概率。

q_df = pd.DataFrame(columns=states, index=states)
q_df.loc[states[0]] = [0.4, 0.2, 0.4]
q_df.loc[states[1]] = [0.45, 0.45, 0.1]
q_df.loc[states[2]] = [0.45, 0.25, .3]

print(q_df)

q = q_df.values
print('\n', q, q.shape, '\n')
print(q_df.sum(axis=1))

现在我们已经设置了初始和转移概率，我们可以使用Networkx 包创建一个马尔可夫图。

要做到这一点，需要一点灵活的思维。Networkx 创建由节点和边组成的图。在我们的玩具示例中，狗的可能状态是节点，边是连接节点的线。转移概率是权重。它们表示在给定当前状态的情况下转换到某个状态的概率。

需要注意的是 networkx 主要处理字典对象。话虽如此，我们需要创建一个字典对象来保存我们的边及其权重。

不错。如果你沿着任何节点的边走，它会告诉你狗转换到另一个状态的概率。例如，如果狗在睡觉，我们可以看到狗有 40% 的机会继续睡觉，40% 的机会狗醒来并拉屎，20% 的机会狗醒来吃东西。

什么是马克可夫隐藏状态

考虑这样一种情况，您的狗行为异常，并且您想对狗的行为是由于疾病或其他方面健康时的古怪行为进行建模的可能性。

在这种情况下，狗的真实状态是未知的，因此对您隐藏。对此进行建模的一种方法是假设狗具有代表真实隐藏状态的可观察行为。让我们来看一个例子。

首先，我们创建我们的状态空间——健康或生病。我们假设它们是等概率的。



hidden_states = ['healthy', 'sick']
pi = [0.5, 0.5]
state_space = pd.Series(pi, index=hidden_states, name='states')
print(state_space)
print('\n', state_space.sum())


a_df = pd.DataFrame(columns=hidden_states, index=hidden_states)
a_df.loc[hidden_states[0]] = [0.7, 0.3]
a_df.loc[hidden_states[1]] = [0.4, 0.6]

print(a_df)

a = a_df.values
print('\n', a, a.shape, '\n')
print(a_df.sum(axis=1))

这是它变得更有趣的地方。现在我们创建发射或观测概率矩阵。该矩阵的大小为 M x O，其中 M 是隐藏状态的数量，O 是可能的可观察状态的数量。

给定当前的可观察状态，发射矩阵告诉我们狗处于隐藏状态之一的概率。

让我们保持与上一个示例相同的可观察状态。狗可以睡觉、吃东西或大便。现在我们做出最好的猜测来填充概率。

看这个图时，将healthy和sick作为同一level,从sleeping，pooping, eating到healthy和sick的边就是发射概率。

隐马尔可夫图稍微复杂一些，但原理是相同的。例如，您会预期，如果您的狗正在进食，那么它健康的可能性很高 (60%)，而生病的可能性非常低 (10%)。

现在，如果您需要根据一系列观察结果随着时间的推移辨别您的狗的健康状况怎么办？

使用Viterbi 算法，我们可以根据观察序列确定最可能的隐藏状态序列。

高的水平，在每个时间步长Viterbi算法的增量，寻找最大的是得到陈述的任何路径的概率我在时间牛逼，那也有序列最多时间正确的观察牛逼。

该算法还跟踪每个阶段概率最高的状态。在序列的末尾，算法将向后迭代，选择每个时间步“获胜”的状态，从而创建最可能的路径，或可能导致观察序列的隐藏状态序列。

最终代码：


# -*- coding: utf8 -*-

import numpy as np

import pandas as pd



def viterbi(pi, a, b, obs):
    """Viterbi algorithm for solving the uncovering problem

    Notebook: C5/C5S3_Viterbi.ipynb

    Args:
        a (np.ndarray): State transition probability matrix of dimension I x I
        pi (np.ndarray): Initial state distribution  of dimension I
        b (np.ndarray): Output probability matrix of dimension I x K
        obs (np.ndarray): Observation sequence of length N

    Returns:
        path (np.ndarray): Optimal state sequence of length N
        delta (np.ndarray): Accumulated probability matrix
        E (np.ndarray): Backtracking matrix
    """
    n_states = a.shape[0]  # Number of states
    T = len(obs)  # Length of observation sequence

    # Initialize D and E matrices
    delta = np.zeros((n_states, T))
    E = np.zeros((n_states, T - 1)).astype(np.int32)
    delta[:, 0] = np.multiply(pi, b[:, obs[0]])

    # Compute D and E in a nested loop
    print('start walk forward'.center(30, '-'))
    for n in range(1, T):
        for i in range(n_states):
            temp_product = np.multiply(a[:, i], delta[:, n - 1])
            delta[i, n] = np.max(temp_product) * b[i, obs[n]]
            E[i, n - 1] = np.argmax(temp_product)
            print('s={s} and t={t}: phi[{s}, {t}] = {phi}'.format(s=i, t=n, phi=E[i, n - 1]))

    # Backtracking
    print('start backtrace'.center(30, '-'))
    path = np.zeros(T).astype(np.int32)
    path[-1] = np.argmax(delta[:, -1])
    for n in range(T - 2, -1, -1):
        path[n] = E[int(path[n + 1]), n]
        print('path[{}] = {}'.format(n, path[n]))
    return path, delta, E




states = ['sleeping', 'eating', 'pooping']
pi = [0.35, 0.35, 0.3]
state_space = pd.Series(pi, index=states, name='states')

q_df = pd.DataFrame(columns=states, index=states)
q_df.loc[states[0]] = [0.4, 0.2, 0.4]
q_df.loc[states[1]] = [0.45, 0.45, 0.1]
q_df.loc[states[2]] = [0.45, 0.25, .3]

q = q_df.values

hidden_states = ['healthy', 'sick']
pi = np.array([0.5, 0.5])
state_space = pd.Series(pi, index=hidden_states, name='states')

a_df = pd.DataFrame(columns=hidden_states, index=hidden_states)
a_df.loc[hidden_states[0]] = [0.7, 0.3]
a_df.loc[hidden_states[1]] = [0.4, 0.6]

a = a_df.values

observable_states = states

b_df = pd.DataFrame(columns=observable_states, index=hidden_states)
b_df.loc[hidden_states[0]] = [0.2, 0.6, 0.2]
b_df.loc[hidden_states[1]] = [0.4, 0.1, 0.5]

b = b_df.values

obs_map = {'sleeping': 0, 'eating': 1, 'pooping': 2}
obs = np.array([1, 1, 2, 1, 0, 1, 2, 1, 0, 2, 2, 0, 1, 0, 1])
inv_obs_map = dict((v,k) for k, v in obs_map.items())
obs_seq = [inv_obs_map[v] for v in list(obs)]

path, delta, phi = viterbi(pi, a, b, obs)
print('\nsingle best state path: \n', path)
print('delta:\n', delta)
print('phi:\n', phi)


state_map = {0:'healthy', 1:'sick'}
state_path = [state_map[v] for v in path]

print(pd.DataFrame()
 .assign(Observation=obs_seq)
 .assign(Best_Path=state_path))

结果：


------start walk forward------
s=0 and t=1: phi[0, 1] = 0
s=1 and t=1: phi[1, 1] = 0
s=0 and t=2: phi[0, 2] = 0
s=1 and t=2: phi[1, 2] = 0
s=0 and t=3: phi[0, 3] = 0
s=1 and t=3: phi[1, 3] = 1
s=0 and t=4: phi[0, 4] = 0
s=1 and t=4: phi[1, 4] = 0
s=0 and t=5: phi[0, 5] = 0
s=1 and t=5: phi[1, 5] = 1
s=0 and t=6: phi[0, 6] = 0
s=1 and t=6: phi[1, 6] = 0
s=0 and t=7: phi[0, 7] = 0
s=1 and t=7: phi[1, 7] = 1
s=0 and t=8: phi[0, 8] = 0
s=1 and t=8: phi[1, 8] = 0
s=0 and t=9: phi[0, 9] = 0
s=1 and t=9: phi[1, 9] = 1
s=0 and t=10: phi[0, 10] = 1
s=1 and t=10: phi[1, 10] = 1
s=0 and t=11: phi[0, 11] = 1
s=1 and t=11: phi[1, 11] = 1
s=0 and t=12: phi[0, 12] = 1
s=1 and t=12: phi[1, 12] = 1
s=0 and t=13: phi[0, 13] = 0
s=1 and t=13: phi[1, 13] = 0
s=0 and t=14: phi[0, 14] = 0
s=1 and t=14: phi[1, 14] = 1
-------start backtrace--------
path[13] = 0
path[12] = 0
path[11] = 1
path[10] = 1
path[9] = 1
path[8] = 1
path[7] = 0
path[6] = 0
path[5] = 0
path[4] = 0
path[3] = 0
path[2] = 0
path[1] = 0
path[0] = 0

single best state path: 
 [0 0 0 0 0 0 0 0 1 1 1 1 0 0 0]
delta:
 [[3.00000000e-01 1.26000000e-01 1.76400000e-02 7.40880000e-03
  1.03723200e-03 4.35637440e-04 6.09892416e-05 2.56154815e-05
  3.58616741e-06 5.02063437e-07 7.37725866e-08 2.21317760e-08
  1.59348787e-08 2.23088302e-09 9.36970868e-10]
 [5.00000000e-02 9.00000000e-03 1.89000000e-02 1.13400000e-03
  8.89056000e-04 5.33433600e-05 6.53456160e-05 3.92073696e-06
  3.07385778e-06 9.22157333e-07 2.76647200e-07 6.63953280e-08
  3.98371968e-09 1.91218545e-09 1.14731127e-10]]
phi:
 [[0 0 0 0 0 0 0 0 0 1 1 1 0 0]
 [0 0 1 0 1 0 1 0 1 1 1 1 0 1]]
   Observation Best_Path
0       eating   healthy
1       eating   healthy
2      pooping   healthy
3       eating   healthy
4     sleeping   healthy
5       eating   healthy
6      pooping   healthy
7       eating   healthy
8     sleeping      sick
9      pooping      sick
10     pooping      sick
11    sleeping      sick
12      eating   healthy
13    sleeping   healthy
14      eating   healthy

Process finished with exit code 0

展开全文 >>

内容推荐调研

2020-06-10

介绍

下派一个任务,研究下推荐系统,貌似后面和电信搞一个类似电视视频内容推荐之类的项目.

基于流行度的推荐

这个推荐比较简单些,就是根据视频的得分来进行排序,排除掉当前用户已经看过的,剩下的再排序返回给用户就行.

好处是这是一个非常简单但是非常有效的算法,基本来说我们看视频都是根据播放量高、得分高进行播放。
坏处是有一个长尾效应，过于小众的基本不会推荐出来，看看京东，其实也有点类似这样～

关于视频的打分，这个可以根据一些特征工程来获得，比如用户点赞，收藏，喜欢，浏览，基于不同权重进行得分。
如果没有这些特征，可以手动构造这些视频的得分（不行可以抓豆瓣。。。）甚者直接根据用户的浏览记录进行排序就能上线。

对于长尾效应，可以运营分出几大类，根据类别再进行排序也是可以一定程度多了新的选择。
对于冷启动，这个咋说呢，一开始肯定都是没有数据的，可以先按照热度排个序上了线后续优化。

基于内容的推荐

这是一个基于内容特征进行推荐的方式。

比如说，张三看过言情、虐心电影A，那如果电影B也具有这种feature，就可以计算这些feature的相似度进行排序推荐给A。
至于特征有多少，emmm，可以打标签，比如导演，演员，简介tfidf，小清新，狗血之类。

另外如果基于深度学习的话，就要获得视频的向量，根据向量来进行排序推荐给A。

协同过滤的推荐

协同过滤推荐重点在于协同。这里可以分成两类：

基于用户的协同过滤
基于内容的协同过滤

啥意思呢，用户张三喜欢看A，B，D电视剧，用户李四喜欢看A，D，那么张三和李四是挺相似的，那么就可以推荐给李四用户B电视剧。这个就叫基于用户的协同过滤。

至于特征，也可以说张三和李四有其他特征，比如都是男的，年龄相仿，兴趣相仿，那就可以认为是同一类人，那推荐的内容也是可以类似的。

基于内容的呢，其实和上面的基于内容的推荐是挺类似的。

核心点是基于历史的数据进行来预测用户的相似程度来进行推荐内容，将人和人也关联到一起。

一种做法通过SVD（奇异值分解）来实现。
比如下面例子：

# -*- coding: utf8 -*-
#
import numpy as np
import pandas as pd
from scipy.sparse import csc_matrix
from scipy.sparse.linalg import svds

# value为用户对不同的item的喜欢程度
df = pd.DataFrame({"军事": [0, 10, 7], '言情': [10, 3, 0], '动漫': [5, 3, 0], '小说': [3, 5, 0]}, dtype='float64')
#    军事    言情   动漫   小说
# 0   0.0  10.0  5.0  3.0
# 1  10.0   3.0  3.0  5.0
# 2   7.0   0.0  0.0  0.0
# 可以看到user0喜欢言情和动漫，用户1、2喜欢军事

U, s, Vt = svds(csc_matrix(df), k=2) # K可以理解成用多少feature来进行表示，主要用于降维和减少稀疏性，超参数

matrix_new = U.dot(np.diag(s)).dot(Vt)
print(matrix_new)
# [[-0.1314746 ,  9.7949323 ,  5.08515349,  3.45149176],
# [10.28341738,  3.44206066,  2.81643619,  4.02672754],
# [ 6.55257518, -0.6978715 ,  0.28978818,  1.53648395]] # 推荐顺序-> 军事,小说,动漫

# ################################ 推荐
item_user_matrix = matrix_new.transpose()
svd_df = pd.DataFrame(item_user_matrix, columns=['user0', 'user1', 'user2'], index=df.columns)
svd_df['user2'].sort_values(ascending=False)


# Out[18]:
# 军事    6.552575
# 小说    1.536484
# 动漫    0.289788
# 言情   -0.697871
# Name: 2, dtype: float64

# ###################################### 计算用户喜好相似度
def cos(vec1, vec2):
    return vec1.dot(vec2) / np.linalg.norm(vec1) * np.linalg.norm(vec2)


for i in range(U.shape[0]):
    for j in range(i + 1, U.shape[0]):
        vec1 = U[i, :]
        vec2 = U[j, :]
        print(f'User{i}和User{j}的相似度:{cos(vec1, vec2)}')
# User0和User1的相似度:0.11017178104828797
# User0和User2的相似度:-0.11652231240752381
# User1和User2的相似度:0.28527719555421444

# 那同理，item之间的相似度也可以简单通过这种方式进行计算

更新

啦啦啦，现在也可以尝试其他做法，比如wide&deep，DSSM，DeepFM，pairwise,pointwise，具体看业务。

以后再有机会更新。

再次更新

前段时间面试了一个大佬，他之前在腾讯做过腾讯新闻个性化推荐，在2016～2019年期间，他的做法是这样的，
一共有三个graph，user，tag，article，将这三个进行关联到一起形成user-tag-article网络，基于这个网络进行随机游走，然后使用word2vec进行向量化，进行推荐。

虽然这种技术可能放到现在来说有点落伍了，但是对这种做法挺感兴趣，整体实现思路也并不难，所以尝试了下。

我将代码放到了graph word2vec embedding，感兴趣的话可以看看～

展开全文 >>

django-migration的工作机制

2020-03-09

问题来源

之前线上代码更新的时候报了一个migration类似的错误，报错信息如下:

1 2	django.db.utils.OperationalError: (1054, "Unknown column 'age' in 'field list'")

出现错误的代码模型文件为:

出现错误的代码对应的migration/001.py文件为:

简单描述就是:

migration/001.py执行了插入动作，如上图红框所示，后台一位同学使用import模型的方式执行了一段python代码，简单来看这里insert没有任何问题，而报"Unknown column 'age' in 'field list'"这个错误是因为age字段是在migration/001.py之后才创建的，线上代码更新时那么导入的模型是有age字段的，而数据库是没有这个字段的。插入的时候没有给age值，所以django认为age这个字段是应该存在的，但是数据库实际没有age字段，所以出现了这个问题。

解决方式

其实这里应该有三种解决方式的:

在migration/001.py并没有对age字段做任何操作，那么理论上来说这条语句应该通过的，如果通过不了，那应该也是sql语句本身除了问题，不过这个不是这么实现的，所以这种方式我只假设是可以解决这个问题的。
django引入了ModelState的概念来解决这个问题。(而我们系统没有这个概念，所以改写成裸sql的方式。。。)
直接将模型引入到migration文件内（不过这个如果有外键或者python文件很复杂的话就不如写裸sql了，虽然有时候裸sql也很难写。。。）

漫谈migration

所有代码均在django/db/migrations文件夹下。

先看makemigration的实现方式

首先初始化MigrationLoader实例，第一步执行build_graph函数，如下图所示。

self.load_disk()就是查找项目里面所有的migration文件，然后保存到disk_migrations变量里面。
整个感兴趣的，在于这个MigrationGraph，这个为有向无环图，四个for循环构造出disk migrations所有的信息，然后是一些校验。

检测迁移历史记录的一致性

这里检查的已经保存到数据库的记录的parent是否在graph nodes里面，如果没有，则非一致性，那么则报错。

检测每一个migration directory是否有多个leaf nodes

如果有多个leaf nodes, 那么则是否merge，合并到一起。

至此，该检查的也检查了，剩下一步就是如何做diff操作，然后生成新的migration文件。

django会根据graph和数据库migration_history
的记录生成两个ProjectState,那么最终比较这两个ProjectState的不同。

而在生成ProjectState的时候，有一步叫做self.graph.make_state()，如下图

这一步会根据disk migrations生成的graph，然后根据leaf nodes通过dfs进行遍历然后生成ModelState,所以在这里age字段不会在001.py存在的。(这个地方就是django解决代码更新的地方。6啊)

所以下一步就是如何做diff操作，然后生成新的migration文件，简单如下图所示，此处忽略。

后记

简单来讲，django使用MigrationGraph构造出disk migration和database migration，然后根据sorted(migration)构造出时间线，获得ProjectState以及相应的ModelState,所以在做migrations.RunPython方法的时候，传入的参数models即为相应对应时刻的ModelState，从而避免了代码更新而miration未及时更新导致在orm层面做些操作的时候导致的问题。重点可以看看Graph这里以及如何构造State的。其余自行理解。后面migrate也是类似，以后慢慢讲。

使用graph同步组织架构图一个简单例子

展开全文 >>

差点漏掉了

2020-02-29

展开全文 >>