北京市教委线上教学时长不应超过线下课时

大中小学生开始居家学习,一套网课“监管方法”出炉。市教委在关于疫情防控期间以信息化支持教育教学工作的通知中明确,各单位要对课程内容、教学过程和平台运行开展监管,延期开学期间的在线教育不得上新课,不得超纲、超标,不增加学生、教师和家长负担。

同时,市教委明确,要合理安排线上教学时长,一般应少于线下课时;鼓励个高校推动网课学分互认。在网上学习过程中,要加强个人信息保护,选用第三方平台和服务的应明确个人信息使用规则,不得借机超范围采集个人信息。

3月16日,对北京大学援鄂医疗队“90后”医生董锦沛来说,是一个难忘的日子。这一天,他和医疗队的小伙伴们得知习近平总书记回了信。接受采访的时候,董锦沛正准备去上夜班,话语中充满激动和开心。

但是大规模的广告投入似乎并未带来对等的回报,字节跳动的几款产品在今年纷纷经历调整。

正如潘欣所说,虽然现在字节跳动进军教育暂时遇到了挫折,但我也不会因此就看轻它的未来。2019年即将过去,字节跳动未来还会继续在教育领域“大力”布局吗?(雷锋网雷锋网雷锋网)

该方法最初源于谷歌研究者 Dai&Le 于 2015 年发布的 LSTM LM 论文,论文相关链接为:

上述实验使用的原始数据如下:

作为最早孵化的一款教育产品,上线刚不久,GoGokid就获得集团的大力支持,先是邀请章子怡成为品牌代言人,然后是冠名《爸爸去哪儿6》等电视综艺节目,同时还覆盖地铁等线下公告渠道,在推广方面可谓不遗余力。

鼓励高校推动网课学分互认

六、问题以及需要考虑的事情

新出现的范例是:既然可以重新使用 BERT 对语言扎实掌握的基础,模型为什么还要不断针对每一个新的 NLP 任务从头开始学习语言的语法和语义呢?

从2月7日到武汉,董锦沛在危重症病房已连续工作一个多月。他是北京大学第一医院消化内科医生,日常工作就是和来自医院不同科室的同事救治危重症患者。

在课堂教学方法上,大力小班通过例题强化、情景关联、课后交叉练习不断强化学习效果,采取鼓励式教学,拓展学生视野。

自注意力机制是一种序列到序列的操作,它通过将每个词的内容融合到它的表示中的方式来更新输入标记的嵌入。这允许它同时对所有输入的字之间的关系建模,这一点与 RNN 有所不同,RNN 中的输入标记是按顺序来读取和处理的。自注意力使用点积计算词向量之间的相似性,计算所得的注意力权重通常被视为注意力权重矩阵。 注意力权重捕捉单词之间关系的强度,我们允许模型通过使用多个注意力头来学习不同类型的关系。每一个注意力头通常捕捉单词之间的一种特殊关系(带有一些冗余)。这些关系中的一部分是可以直观地解释的(比如主客体关系,或者跟踪相邻的词),而有些是相当难以理解的。你可以把注意力头集中看作是卷积网络中的滤波器,每个滤波器从数据中提取一种特定类型的特征,这些提取出来的特征将最大限度地帮助神经网络其他部分做出更好的预测。 这种自注意机制是 Transformer 的核心操作,但只是将其置于上下文中:Transformer 最初是为机器翻译而开发的,并且它们具有编码-解码器结构。可以将 Transformer 编码器和解码器的构造看作 Transformer 模块,其通常由自注意力层、一定量的归一化和标准前馈层组成。每个模块对输入向量执行此序列操作,并将输出传递给下一个模块。在 Transformer 中,它的深度是指 Transformer 中模块的数量。

今年4月,在脉脉上GoGokid被爆出大量裁员,但是截止目前,GoGokid还处于正常运营中;而aiKID网传被并入GoGokid,其官网、公众号和APP长久未更新。

BERT 微调实际上会更新模型中所有参数,而不仅针对新任务中特定层的参数,因此这种方法不同于将传输层参数完全冻结的技术。

浏览这些文献时,我发现了其中出现的一些常见概念:

五、BERT 出现之前的一些方法?

细数下来,近年来内,字节跳动通过孵化、投资并购等方式,已经推出了四款教育产品。

上述模型必须同时学会两项任务,因为它实际的训练损失是两项任务损失的总和(即 MLM 和 NSP 可能性平均值的总和)。

掩膜语言模型(MLM)任务。这项任务鼓励模型同时以单词级别和句子级别学习语言的良好表示。简单地说,一个句子中 15% 的单词是随机选择并用标记隐藏(或「掩蔽」)。该模型的工作原理是利用前后的单词预测这些隐藏的部分,因此,我们试图从损坏的输入重新建立起完整的文本,左边和右边的内容都被用来做预测。这允许我们搭建考虑到所有文本的单词表示。与 ELMo(一种基于 RNN 的语言模型,用于生成由上下文感知的单词嵌入)等方法不同,BERT 同时学习它的双向表示,而 ELMo 是由两个不同的语言模型分别独立地对从左到右和从右到左的语言表示进行学习,然后连接。我们可以说 ELMo 是一个「浅双向」模型,而 BERT 是一个「深双向」模型。 下一个句子的预测(NSP)任务。如果我们的模型被用作语言理解的基础,那么了解句子间的连贯性将有助于它实现目标。为鼓励模型学习句子间的关系,我们添加了下一句预测任务,在该任务中,模型必须预测一对句子是否相关,即一个句子是否可能继续连接着另一个句子。句子中的正训练对是语料库中真实相邻的句子,负训练对是从语料库中随机抽取的两句话。这不是一个完美的系统,因为随机抽样的一对句子实际上可能是相联系的,但这样对于任务的需要来讲已经足够好了。

一、从 BERT 文献中得出的一些启发

各高校要发挥本校信息化建设优势,以高校主体、社会参与的方式,共同组织实施在疫情防控期间的在线教学。积极推动网络课程学习学分互认,鼓励学生择优选用教育部推荐的公共慕课、专属在线课程和相关网络课程资源及虚拟仿真实验课程,组织教师为学生提供网络教学、线上讨论、答疑辅导等,保证疫情防控期间教学进度和教学质量。

现在已经有很多关于 BERT 的论文发表。从上图我们可以发现以下几点:

目前这一领域的进展迅速,我们现在从最先进的模型中看到的结果,即便在仅仅五年前也是难以置信的)例如,在问答任务中表现出来的超越人类的性能。

BERT(来自 Transformer 的双向编码器表示),是 Google 研究人员构建的一个预训练语言模型(LM)。这个语言模型是基于激励模型学习一个对语言深层理解的任务上训练的;LM 的一个常见的训练任务是预测下一个单词(比如:「猫坐在__上面」)。

实际上,类似迁移学习这种先对模型进行预训练再对特定任务进行微调的方式,并不少见,比如计算机视觉研究人员通常使用大型数据集(如 ImageNet)上预训练好的模型。 NLP 领域长久以来,则一直通过重用词嵌入来进行「浅层」迁移学习。

但是,BERT 是在什么任务上进行训练,能够激励它对语言的学习有这样良好及普遍有效的理解呢?未来的工作中也许可以调整学习策略,但原论文就使用了下面两个任务:

一旦训练好的基础的 BERT 模型,后续通常需要经过两个步骤来对其进行微调:首先在无标签数据上继续进行无监督训练,然后通过添加一个额外的层并在新目标上训练,从而学习实际的任务(这里无需使用过多的标记数据)。

清北网校业务也未能避免动荡。今年10月,有媒体报道称,“清北网校”负责人刘庸已经离职。人事动荡似乎并没有造成太大影响,目清北网校的寒假班和春季班前仍在招生中。

我希望这篇文章对 BERT 所引发的研究热潮提供了一个合理的回顾视角,并展示了这个模型在 NLP 研究领域中是如何变得如此热门和强大。

请注意这份 BERT 论文清单很可能是不完整的。如果与 BERT 相关论文的实际数量是本人所整理的两倍,我不会感到惊讶。在这里做一个粗略的数量估计,目前引用过原始 BERT 论文的数量已经超过了 3100。

当局称,这名持枪者向FSB安全警卫开枪,并打死一人。另一名联邦安全局雇员受重伤。另有四人受伤,其中包括一名平民。尽管有人猜测这次袭击可能是恐怖分子所为,但FSB尚未证实该说法。

2019 年是 NLP 发展历程中具有里程碑意义的一年,从阅读理解到情感分析,针对各大重要任务的解决方案都迎来了新的记录。

同时在抖音上,雷锋网(公众号:雷锋网)发现了大力小班的广告投放,目前仅有寒假数学思维小班课,25人一班,面向三年级到初一学生,课程体验价为9元。不过还未发现语文相关课程的推广,可能与平台刚上线不久有关。

NLP 领域最新发展进程中的两个主要趋势是迁移学习和 Transformer 的兴起,我非常期待看到这两个研究方向在 2020 年的发展。

市教委表示,各单位要落实网络信息安全主体责任和网络安全等级保护制度,加强网络安全管理和技术保障能力,切实做好安全监测、日常值守、信息通报等工作,做到疫情期间网络安全不松懈。

如果你对其中一些模型的名称感到好奇,这些名称实际上是 NLP 的研究人员对《芝麻街》中的人物着迷的体现。我们可以将这一切归咎于(开先例以《芝麻街》人物命名)的论文 ELMo,论文相关链接如下:

所以,大力小班聚焦于数学和语文两大学科就不足奇怪。这也是字节跳动一贯以来选择切入教育赛道的方法。

据今日俄罗斯网站报道,枪声响起后,FSB的警察和安全部队立即做出了反应。被困在附近建筑物里的目击者拍下了身穿防弹衣、头戴钢盔、手持步枪的警察蹲在花盆后面与嫌疑人交火的画面。目前,开枪男子已被击毙。

“这名患者住院后第一次笑了,而且笑得很开心。”董锦沛说,那个微笑,他永远忘不了。现在,经过团队悉心照料,这名患者已经可以下床站一会儿、慢慢走几步了。

BERT 模型通过使用上述 Transformer 设置,在 2 个无监督语言模型上进行训练。关于 BERT 训练,最重要的是它不依赖于标记数据,也就是说它可以使用任何文本语料库,而不需要任何特殊标记的数据集。BERT 论文的模型就是使用维基百科和一本书的语料库进行训练的。与其他「普通」的语言模型相比,BERT 使用的数据是廉价的,这边是它所具备的一大优势。

如果你发现使用掩蔽的方法有点问题:那么你其实是对的。由于一个片段中随机有 15% 的单词被遮蔽,因此可能会出现多个。确实是这样,但是 BERT 将这些被遮蔽的单词彼此间看作独立,这是存在限制的,因为它们实际上很容易形成相互依赖的关系。这也是在 XLNet 论文(https://arxiv.org/abs/1906.08237)中提到的一点,有些人认为它是 BERT 的继承。

业务动荡并未影响教育布局

实际上直到我试图编撰一份去年发表的与 BERT 有关的论文清单时,我才意识到它到底有多受欢迎。我收集了 169 篇与 BERT 相关的论文,并手动将它们标记为几个不同的研究类别(例如:构建特定领域的 BERT 版本、理解 BERT 的内部机制、构建多语言BERT 等)。

据官网资料介绍,大力小班目前聚焦数学、语文两大学科,采用小班直播教学,将北京地区优质教学资源提供给新兴城市的中小学生。大力小班由北京大力优学教育科技有限公司投资设立,法定代表人是韦瀚雄,同时在股权关系上,大力优学属于字节跳动有限公司的全资子公司。

计算机视觉领域,何凯明曾有一项工作《Rethinking ImageNet Pre-training》表明,预训练和微调主要有助于加快模型的收敛速度。这一思考和观点,是否也同样适用于 NLP 领域的工作呢?

2019年12月,字节跳动推出“大力小班”,主打小班直播课。

除了盘活教育部门本身的资源,各区、学校可结合实际,积极选用实力强、技术优的企业服务平台和学习资源,开展线上直播课堂、网络点播、在线辅导等。市教委说,要主动与企业建立开放共建、资源共享、成果互惠的协作机制,研发更多优质网络课程、微课、在线课程等产品,推动转变教学方式,优化人才培养模式。

表面上看,字节跳动在教育上的诸多业务布局似乎还未产生多少亮点的成绩,但字节跳动早已吸取了在GoGokid上的教训,此后的业务没有采取大规模的广告投放,基本都是低调上线,这说明字节跳动依然在进行低成本的试错,从而总结经验教训,剩下的也许就是时间问题。

居家学习,打破校园围墙,优质教育资源覆盖面进一步扩大。市教委明确,要发挥市级统筹作用,整合汇聚多方优质在线课程、数字图书、电子教材等数字资源,与教育部国家教育公共资源平台对接,积极吸纳共享企业优质资源,依托北京市教育公共资源平台,面向各区教育资源平台开放共享,支持学校开展“互联网+教育”应用。

其中最为突出的研究趋势是迁移学习在 NLP 的应用,即在特定的语言处理相关任务中,运用大量预训练模型对它们进行微调。在迁移学习中可以重新使用预构建模型中的知识,提高模型的性能和泛化能力,同时大量减少具有标签的训练样本。

自2018年正式入局,从孵化到投资并购,从1对1到大班课、小班课,从英语到数学、语文,字节跳动在教育领域探索的脚步依旧没有停止的迹象。

董锦沛还记得有名88岁的女患者,进院后一直非常乐观,积极配合治疗。出院当天,这名患者还在病房里小跑几步,对医生说,你们看我棒不棒?临走前,她还和当班医生、护士每人拥抱了一下。

市教委明确,要合理安排线上教学时长,一般应少于线下课时,延长课间休息时间,适当增加艺术欣赏、体育锻炼和家庭劳动等活动,保护学生视力。在线服务平台提供者要采取安全有效手段,防范和制止有害信息传播,保护学生身心健康。

BERT 原论文写得很好,我建议各位读者再温习下,原论文链接为:https://arxiv.org/abs/1810.04805。我将论文中用到的此前语言模型预训练和微调常用的一些主要方法总结如下:

我们跟随她的脚步来看:

二、BERT 到底是什么?

随着这一核心概念与简单的微调步骤和相应的开源代码叒叒出现出现时,就意味着 BERT 已迅速地传播开来了:翻译的语句要能体现出“很快传播”的意味:初发布于 2018 年底的 BERT ,2019 年就已经变成了非常流行的研究工具。

一个有趣的现象是,从 2018 年 11 月份发表 BERT 的原始论文的时间与大概 2019 年 1 月份开始出现一大波相关论文的时间之间的间隔,相当短。 BERT (相关)论文最初的发表浪潮往往集中在一些核心的 BERT 模型的即时扩展和应用上(比如:图中红色、紫色和橙色部分),例如使 BERT 适用于推荐系统,情感分析,文本摘要和文档检索。 然后从 4 月开始,一系列探讨 BERT 内部机制的论文(图中绿色部分)相继发布,例如了解 BERT 如何通过建模进行语言的分层,并分析注意力头之间的冗余现象。其中特别令人印象深刻的是一篇名为「利用 BERT 重新探索经典 NLP 的传播途径」的论文(相关论文链接为:https://arxiv.org/abs/1905.05950)。该论文作者发现了BERT 的内部计算可以反映传统 NLP 的工作流程,即词性标记、依赖项分析、实体标记等。 然后在 9 月份左右,又发布了一系列有关压缩 BERT 模型尺寸的论文(如图青色部分),例如DistilBERT,ALBERT 和 TinyBERT 等论文。其中,来自 HuggingFace 的 DistilBERT 模型是 BERT 的压缩版本,其参数只有先前的一半(从 1.1 亿降至 6600 万),但在对重要 NLP 任务的实现上却达到了之前性能的 95%(具体请参阅 GLUE 基准; https://gluebenchmark.com/)。原始的 BERT 模型并不轻巧,这在计算资源不足的地方(如移动手机)是一个问题。

从实用性的角度来看,这固然是令人兴奋的,但更有趣的是,BERT 和相关模型可以促进我们对于如何将语言表示为计算机能够理解的语言,以及哪种表示方法能让我们的模型更好地解决这些具有挑战的语言问题有基本的理解。

2019 年,是 NLP 发展史上值得铭记的一年,也当之无愧的「BERT 年」。

针对“网络堵车”等问题,本市将加强市、区、校基础网络、数据机房、云服务的运行维护,主动会同网络服务商制定工作方案,做好网络运行分析检测,发现问题及时解决,为各类在线教育服务提供稳定可靠的运行条件。确保各级教育视频会议系统安全运行,为及时传达工作部署和指挥疫情防控提供支撑。

实际中,使用 BERT 进行迁移学习,通常只有经过训练的编码器栈才会被重新使用——首先将模型的解码器切掉一半,然后将编码器 Transformer 模块用作特征提取器。因此,我们不关心 Transformer 的解码器对它最初训练的语言任务做出的预测,我们只关心模型内部表示输入文本的方式。

开源机器学习模型的价值。作者免费提供了 BERT 模型和相关代码,并提供了一个简单、可重复使用的微调过程。这种开放性对于加快研究进展而言是至关重要的,并且我有理由怀疑如果作者不那么直爽的话,该模型是否会受到同样程度的欢迎。 严肃看待超参数调整问题,认识到它的重要性。RoBERTa 的论文中,提出了一种更具原理化的优化设计(如更改训练任务)和更加范化的超参数调整方法来训练 BERT,这在学术界引起了轰动。这种不断更新的训练制度,再加上它只对模型使用更多数据进行更长时间的训练,就再次将各种 NLP 基准性能的纪录提升到了新的高度。 关于模型大小的想法。最初,BERT 作者发现了一个很吸引他的现象:即使在非常小的数据集上,仅通过简单地增加模型大小也可以极大地提高模型的性能。这也许在某种意义上意味着,你「需要」数亿个参数来表示人类的语言。2019 年的其他几篇论文中指出,仅通过扩大 NLP 的模型规模即可带来模型的改进(例如众所周知的 OpenAI 中的 GPT-2 模型)。当然,这里还有一些新的技巧可以用于训练大到荒谬的 NLP 模型(例如 NVIDIA 的拥有 80 亿参数的庞然大物 MegatronLM)。但是,也有证据表明,随着模型尺寸的增加,模型的效果会递减,这与计算机视觉研究人员在添加到一定多数量的卷积层时会遇到壁垒的情况相似。关于模型压缩和参数效率论文的成功发表,表明可以在给定大小的模型中获得更多的性能。

这两年,通过孵化、投资并购,从1对1到大班课、小班课,从英语到数学、语文,字节跳动几乎将教育行业主流的赛道和模式都尝试了一遍,似乎铁了心要在教育领域做出一些“奇迹”。

下面是所有这些论文的分布情况:

让我们返回到前面,来讨论一下 BERT 到底是什么。

近年来,国家陆续出台政策,对以“应试”为导向的课外培训开展整治和监督,素质教育迎来发展机遇,因而以培养孩子学科素养和能力的数理思维、大语文等成为市场的“宠儿”。

如图,我们的 NLP 模型变得越来越大。摘自 DistilBERT 论文。

另外,要加强个人信息保护,选用第三方平台和服务的应明确个人信息使用规则,不得借机超范围采集个人信息,确保个人信息安全。

这在当时也被称为「NLP 的 ImageNet 时刻」,与此同时,2019 年基于这一趋势的相关研究工作也在持续开展。

这使得后来的诸如 BERT 和 ERNIE 模型也开始以相关任务命名,变得不可避免。我非常热切地在等待一个 BIGBIRD 模型,那么我们不妨将其压缩版本称为 SMALLBIRD?

“大力小班”在抖音上的推广

除了网上上课,各区、学校还要充分运用“互联网+”、大数据、人工智能等技术采集师生健康状况,掌握学校人员流动情况,进行数据分析与趋势研判,为有针对性制定疫情防控措施、安排教学活动提供决策参考。要通过网络平台和新媒体等渠道,加强疫情防控知识宣传和经验推广,及时发布师生关注的信息,解除教师、家长、学生的疑虑和困惑,尽可能减少不良舆情,维护校园安全和稳定。

无监督的基于特征的方法(如 ELMo),该方法使用预训练表示作为输入特征,但使用针对特定任务的架构(比如:它们为每个新任务更改模型结构)。事实上,所有研究者最喜欢的单词嵌入方式(从 word2vec、GLoVe 到 FastText)、句子嵌入和段落嵌入都属于这一类。ELMo 还提供单词嵌入,但以上下文敏感的方式,标记的嵌入或者表示是从左到右和从右到左的语言模型隐藏状态向量的连接。 无监督的微调方法(如 OpenAI 的 GPT 模型),它对有监督的下游任务的所有预训练参数进行微调,并且只通过引入一些针对特定任务的参数,来最小程度地改变模型结构。预训练是在未标记的文本上进行的,学习任务通常是从左到右的语言模型或文本压缩(就像自动编码一样,它将文本压缩成矢量形式,然后从矢量重建文本)。然而,这些方法使得对上下文建模的能力受到了限制,因为它们对给定单词的模型通常是单向、从左到右的,它没有能力将所有后来的单词合并到其表示中。 从有监督的数据进行迁移学习。此外,还开展了一些工作来迁移从具有大量训练数据的监督任务中学习到的知识,例如使用机器翻译模型参数来对不同的语言问题的权重初始化。

如图为在 2018 年 11 月至 2019 年 12 月间发表的与 BERT 相关的论文集合。y 轴代表的是对引文数目的对数统计(由 Google Scholar统计),它的下限为 0。这些文章中的大多数是通过在 arXiv 论文的标题中搜索关键词 BERT 找到的。 

刚到武汉,董锦沛坦言“心里有些担心”,他和同事负责的病区是新改造病房,一共50张床位。医护人员到位后,病人陆续从别的地方转运过来,病床很快收满了。看到这么多被疾病折磨的病人,董锦沛和同事把精力都投入到抢救病人上。

据官网介绍,大力小班主打名师辅导、小班互动学习和一站式教学服务。在数学和语文课程内容上,主要培养学生十大数学能力和四大语文素养。

疫情期间,“德育课”将实现每日一课。本市遴选知名教师录制了一批网络德育课程。各区教委还指导幼儿园利用“互联网+”方式开展家园共育、亲子互动等形式多样的活动。

雷锋网原创文章,。详情见转载须知。

2018年5年,字节跳动推出GoGokid,对标VIPKID,主要是面向4-12岁孩子的在线英语1对1学习平台。

疫情期间德育课“每天一课”

目前枪击事件的动机尚不清楚,俄罗斯侦查委员会发言人斯韦特兰娜·佩特连科表示,该案件已经交付中央机关进一步调查。

如图为在各篇 BERT 论文上移动鼠标时出现的数据。

这种信息通常具有更好的交互性,因此这里我给出了它的 GIF 图。如果感兴趣的话,你也可以打开以 Jupyter 笔记本形式记录的原代码,可以自行调整图中的参数,相关链接如下:

总结看,业务的频繁调整和人事动荡,并未影响字节跳动布局教育的信心。

2019年5月,字节跳动通过收购清北网校推出K12网校产品“大力课堂”,品牌后又改回“清北网校”,主打在线大班直播课。清北网校由刘庸于2018年4月创立,曾获得徐小平的真格基金1000万天使轮融资。

“每逢病人出院,都是我们最开心的日子。”董锦沛说。

雷锋网原创文章,。详情见转载须知。

外界难以猜测字节跳动在教育中的战略和打法是什么,前新东方在线COO潘欣就曾认为,字节跳动的教育战略就是找到最大的且已被行业验证可行的赛道进行内部孵化、多种尝试。内部孵化、赛马机制是互联网公司惯用的机制,但这个机制是否适合用于教育行业是有待商榷。

2018年12月,字节跳动推出aiKID。aiKID同样聚焦在线英语,与gogokid不同,aiKID面向1-4年级学生,主打AI互动课堂,强调利用AI自适应等技术辅助孩子学习。

“我们团队是多学科的综合团队,对病人整体救治十分有利。”董锦沛说。

但在 2019 年,随着 BERT 等模型的出现,我们看到了 NLP 领域转向更深度的知识迁移的重要转变,即迁移整个模型到新任务上,而这本质上是使用大型预训练语言模型作为可重用的语言理解特征提取器的方法。

开始时,武汉医疗物资紧缺,董锦沛和同事需要思考在有限条件下更好实施抢救。由于治疗没有特效药,保持病人良好的情绪非常重要。董锦沛记得病房里有名70多岁的患者,进院后就戴上了呼吸机,插了胃管。病人情绪非常低落,躺在病床上一直不言语。很多病人家属都会打电话过来询问病人情况,他的病情却无人问津。原来,这名患者的亲属都被感染住院或被隔离。董锦沛和同事多方联系,终于让患者在电话中听到了女儿的声音。

高科技采集师生健康情况

“那时真的很忙。”董锦沛说,“我们很快就投入到病人诊治和抢救中去了,一门心思想着怎么让病人尽快好起来。”

BERT 能够明显地让 NLP 任务轻易地实现迁移学习,同时在此过程中能够以最小化适应的方式在 11 个句子级和词级的 NLP 任务上,产生当前最好的结果。

三、BERT 是如何进行训练的?

BERT 微调可能需要几分钟到几小时,这取决于任务、数据大小和 TPU/GPU 资源。如果你有兴趣尝试 BERT 微调,你可以在 Google Colab 上使用这个现成的代码,它提供对 TPU 的免费访问。相关代码如下:

BERT 基于相对较新的神经网络结构 Transformer,后者使用一种称为自注意力的机制来捕获单词间的关系。在 Transformer 中没有卷积(如 CNN)或递归(如 RNN)操作,注意力是你唯一需要的。已有一些已经出版的优秀教程(http://www.peterbloem.nl/blog/transformers)对此进行了介绍,所以在这里就不再做详细介绍,如下为相关概念的简短介绍: