1. 判断中文
1 | def is_chinese(uchar): |
2. 中英韩日字符
函数 | 说明 |
---|---|
\u4e00-\u9fa5 | 汉字的unicode范围 |
\u0030-\u0039 | 数字的unicode范围 |
\u0041-\u005a | 大写字母unicode范围 |
\u0061-\u007a | 小写字母unicode范围 |
\uAC00-\uD7AF | 韩文的unicode范围 |
\u3040-\u31FF | 日文的unicode范围 |
3. 过滤掉非中、英、数字字符
1 | def clean(x: str): |
4. 正向反向提取
这个在BELLE项目提取chatGPT生成的数据里面有涉及到。
1 | intruction_pattern = re.compile(r"(?<=(?:" + '|'.join(['指令:', '指令:']) + "))[\s\S]*?(?=" + '|'.join(['输入:', '输入:']) + ")") |
5. or_match
1 | def re_escape_word(word: str): |