Bert

模型压缩实践系列之——layer dropout2021-03-28 22:54:45

本文算是一篇论文实践小总结，篇幅不大，主要是最近开始在研究模型的压缩工作，看了一些论文，感觉这块内容实践工程的部分很多，因此记录一下，防止忘记。本次研究重点在于结构性剪枝，并选取了比较简单的layer dropout来实践验证其有效性。参考论文：Reducing Transformer Depth on Demand with S
可解释性论文阅读笔记2-Leveraging Language Models2021-03-28 22:53:59

ACL2019的一篇文章，主要亮点是利用预训练语言模型中的丰富信息生成解释，辅助CQA(Commonsense Question Answer)任务，对比CQA的the state of the art baseline，提升了10%的准确率，文章的链接如下：https://www.aclweb.org/anthology/P19-1487/Explain Yourself! Leveraging Language Models
【Github】nlp-paper: 按主题分类的自然语言处理文献大列表2021-03-28 22:51:50

项目地址，阅读原文可以直达：https://github.com/changwookjun/nlp-paper看了一下，这个项目的作者changwookjun貌似是韩国人，项目按主题分类整理了自然语言处理的相关文献列表，很详细，包括 Bert系列、Transformer系列、迁移学习、文本摘要、情感分析、问答系统、机器翻译、自动生成等以及N
Dive into BERT：语言模型与知识2021-03-28 21:51:23

写在前面最近在看的主要是跟知识相关的一些东西，包括回顾了一些知识表示模型呀，一些大规模的语言模型如何锦上添花融入外部知识的方法呀，如果你感兴趣的话可以直接去之前几篇文章里面瞄一眼。今天就以知识为切入点来更深入地剖析一下最近比较火的预训练模型。√ Language Models as
ALBERT 告诉了我们什么？2021-03-28 21:51:11

前言在忙毕业论文之前，恰逢ALBERT刚刚出来，当时想着要聊一聊这篇文章的，但实在是懒，毕业不易啊。最近诸事已经告一段落，已经进入佛系毕业状态，尽人事，知天命啊。本文依据论文本身的顺序，按照模块进行描述，并对一些细节展开讨论，最后针对模型效果提一些自己的看法。需要注意的一点是：ALBERT降低
我不太懂BERT系列——BERT预训练实操总结2021-03-28 20:51:38

作者：邱震宇（华泰证券股份有限公司算法工程师）知乎专栏：我的ai之路通过本文章，你可以了解以下内容：了解bert预训练会遇到的坑，包括但不限于数据预处理的正确姿势、数据预处理的高效实现、bert单机多卡分布式训练的基本实现，以及如何debug并提升使用单机多卡来进行深度学习训练的性能瓶颈。
火山翻译：工业级应用与研究2021-03-26 14:54:11

工业级应用与研究，将从两个维度介绍字节跳动的机器翻译工作：首先，机器翻译工业级别的应用，如何通过机器翻译服务全球用户；然后，介绍我们在大规模应用中产生的一些新算法，包括预训练、多语言机器翻译和多模态机器翻译等。01火山翻译的应用研究及相关Demo1. 背景介绍其实机器翻译这几年在产
面试题：预训练方法 BERT和OpenAI GPT有什么区别？2021-03-26 13:51:08

解析：1.GPT在BooksCorpus(800M单词)训练；BERT在BooksCorpus(800M单词)和维基百科(2,500M单词)训练2.GPT使用一种句子分隔符([SEP])和分类符词块([CLS])，它们仅在微调时引入；BERT在预训练期间学习[SEP]，[CLS]和句子A/B嵌入3.GPT用一个批量32,000单词训练1M步；BERT用一个批量128,000单词训
bert源码解读【学习笔记】2021-03-24 13:30:46

一、预训练数据生成【预训练数据生成】BERT源码分析PART II:https://mp.weixin.qq.com/s/whZlOBhMpvUsWjCkKjRnAw 二、预训练【预训练】【BERT】BERT源码分析（PART III）：https://mp.weixin.qq.com/s/dvPAryIB5fpMJfycUPsPOg 三、bert模型结构【模型结构】BERT源码分析PART
中文纠错（Chinese Spelling Correct）最新技术方案总结2021-03-20 15:58:01

目录 1 纠错基础知识1.1 常见错误类型1.2 纠错组成模块 2 深度学习技术2.1 FASPell（爱奇艺）2.1.1 技术方案2.1.1.1 背景2.1.1.2 模型结构2.1.1.3 训练过程 2.1.2 优点和缺点 2.2 SpellGCN （阿里）2.2.1 技术方案2.2.1.1 背景2.2.1.2 模型结构2.2.1.3 训练过程 2.2.2 优点和缺点
bert-for-tf2源码解读10------权重参数对应的结构图2021-03-19 13:33:59

从bert之中读取出来的权重矩阵内容如下： { 'cls/seq_relationship/output_bias': [2], Unused weights 'cls/predictions/transform/dense/kernel': [768, 768], Unus
复制粘贴发明人和Java 语言发明人相继去世2021-03-18 20:04:40

前几天，我在浏览 Hacker News 的时候，发现复制粘贴发明人和Java 语言发明人相继去世的新闻。 Hacker News 的前两条被国外网友顶了起来，我细细的看了内容才发现这两位全是牛人。先说第一条，Larry Tesler 是一位计算机科学家、复制粘贴功能的发明者。大家对他的名字可能都没听说过，但他
【关系抽取-R-BERT】定义训练和验证循环2021-03-17 09:33:56

【关系抽取-R-BERT】加载数据集【关系抽取-R-BERT】模型结构【关系抽取-R-BERT】定义训练和验证循环相关代码 import logging import os import numpy as np import torch from torch.utils.data import DataLoader, RandomSampler, SequentialSampler from tqdm import tqdm,
意图识别及槽填充联合模型bert2021-03-16 22:01:36

一.简介此模型采用bertBERT for Joint Intent Classification and Slot Filling进行意图识别与槽填充。结构如下：从上可知： 1.意图识别采用[cls]的输出进行识别 2.槽填充直接输出对应的结果进行序列标注，这里不使用mlm中的mask 3.其中Trm是transformer-encode
模型训练相关参数问题2021-03-12 18:05:00

1、bert那么大，你的训练数据只有10w，会过拟合吗，epcho是不是只能设置为1？看过epcho的曲线，当epcho小于10时，评测的效果会存在震荡的情况。epcho设置为20时，表现的比较稳定。 2、分词时，你这边做了什么处理么？有一些领域特定的词，这边不需要把它分开，我们会把这些词加入jieba的初始词表中
code embedding研究系列六-C-BERT2021-03-09 12:01:48

Exploring Software Naturalness throughNeural Language Models 论文概述模型:C-BERTTokenizerTransformer Based Language ModelsMasked Language Model (MLM) Pre-training ObjectiveWhole Word Masked (WWM) Pre-training ObjectiveAST Fine-tuning ObjectiveVI Fine-t
Bert/Albert-CRF模型代码初试2021-03-08 19:01:46

模块调用 2021/3/8 周一：基于模块调用部分（如下）bug，重装Anaconda与Tensorflow，解决bug。 import numpy as np from bert4keras.backend import keras, K from bert4keras.models import build_transformer_model from bert4keras.tokenizers import Tokenizer from bert4keras.opti
从NLP中的标记算法（tokenization）到bert中的WordPiece2021-03-07 23:29:43

文章目录词级标记 (Word level tokenization)字符级标记 (Character level tokenization)子字级标记 (Subword level tokenization)WordPiece 子字级标记算法BPE 所谓 tokenization ，就是如何提取或者说是记录文本中词语，常用的tokenization有词级标记 (Word level token
莫烦nlp-BERT双向语言模型2021-03-04 21:01:44

莫烦视频：https://mofanpy.com/tutorials/machine-learning/nlp/bert/ 跳过了GPT模型；但代码里面bert模型继承了GPT模型。。。本节不涉及莫烦对于bert的训练改进（trick），模型的任务改变，或者说标签不一样。改进版存在的问题莫烦在他的主页文字部分有详细解释。所以这里只是介绍最
基于BERT的通用语命名实体识别论文翻译2021-03-04 20:30:27

**基于BERT的通用语命名实体识别笔记整理** 基于BERT的通用语命名实体识别摘要简介命名实体识别（NER）现存问题本文主要思想现有研究工作多语言工作多任务学习任务和框架实验:基线数据和实验设置比较方法单语言训练多语言训练Zero-shot 推理实验结果与分析讨论：Zero-shot实
重磅！京东云自研第四代云主机发布；曝国外物理学家开发出用于量子计算机的汇编语言2021-03-02 11:02:43

开发者社区技术周刊又和大家见面了，快来看看这周有哪些值得我们开发者关注的重要新闻吧。谷歌推出了GKE Autopilot用于交付Kubernetes 曝微软将发布基于Excel的低代码语言：Power Fx 国外物理学家开发出用于量子计算机的汇编语言流量洪峰磨练，京东云造“京刚”！谷歌与英特尔合推
使用keras_bert调用bert的简单方法2021-03-01 14:58:32

mark一下使用keras_bert调用bert的简单方法，来源于某位大佬，在此表示感谢（找不到来源之处了）。 import json import numpy as np import pandas as pd from keras_bert import load_trained_model_from_checkpoint, Tokenizer, load_vocabulary # 超参数 from keras.layers impo
读BERT论文记录2021-02-27 23:03:06

最近阅读了提出BERT的论文，做一个简要的阅读记录，供大家和自己阅读。题目： BERT：Pre-training of Deep Bidirectional Transformers for Language Understanding 通过深层双向Transformer来提高语言理解能力摘要我们引入了一种新的语言表示模型叫做BERT，BERT代表了：Bidirectiona
DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter学习2021-02-23 11:32:36

1. 总结论文地址论文写得很简单，但是引用量好高啊
bert2021-02-22 19:31:23

预训练过程代码在这里在encoder最后一层，取出来被打mask的词的向量，加入线性层在变化为embending的输出，取得softmax进行celoss。 roberta的byte的编码方式 https://zhuanlan.zhihu.com/p/121787628

首页 < 6 7 8

ICode9

模型压缩实践系列之——layer dropout2021-03-28 22:54:45

可解释性论文阅读笔记2-Leveraging Language Models2021-03-28 22:53:59

【Github】nlp-paper: 按主题分类的自然语言处理文献大列表2021-03-28 22:51:50

Dive into BERT：语言模型与知识2021-03-28 21:51:23

ALBERT 告诉了我们什么？2021-03-28 21:51:11

我不太懂BERT系列——BERT预训练实操总结2021-03-28 20:51:38

火山翻译：工业级应用与研究2021-03-26 14:54:11

面试题：预训练方法 BERT和OpenAI GPT有什么区别？2021-03-26 13:51:08

bert源码解读【学习笔记】2021-03-24 13:30:46

中文纠错（Chinese Spelling Correct）最新技术方案总结2021-03-20 15:58:01

bert-for-tf2源码解读10------权重参数对应的结构图2021-03-19 13:33:59

复制粘贴发明人和Java 语言发明人相继去世2021-03-18 20:04:40

【关系抽取-R-BERT】定义训练和验证循环2021-03-17 09:33:56

意图识别及槽填充联合模型bert2021-03-16 22:01:36

模型训练相关参数问题2021-03-12 18:05:00

code embedding研究系列六-C-BERT2021-03-09 12:01:48

Bert/Albert-CRF模型代码初试2021-03-08 19:01:46

从NLP中的标记算法（tokenization）到bert中的WordPiece2021-03-07 23:29:43

莫烦nlp-BERT双向语言模型2021-03-04 21:01:44

基于BERT的通用语命名实体识别论文翻译2021-03-04 20:30:27

重磅！京东云自研第四代云主机发布；曝国外物理学家开发出用于量子计算机的汇编语言2021-03-02 11:02:43

使用keras_bert调用bert的简单方法2021-03-01 14:58:32

读BERT论文记录2021-02-27 23:03:06

DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter学习2021-02-23 11:32:36

bert2021-02-22 19:31:23