标签:Pre Dialogue 删除 EVA Training 对话
EVA
主要贡献
- 构建2021年最大中文对话数据集WDC-Dialogue,有1.4B context-response pairs。
- 基于Transformer架构,搭建2021年最大中文对话系统,有2.8B的参数量
WDC-Dialogue Dataset
数据收集
- Repost 转发
- Comment 评论
- Q&A 问答
数据清洗
- 删除平台相关的tag信息,例如Reply to @***
- 删除URL链接
- 将超过30轮的切分成小于30轮
- 将句子中重复超过6次的单词仅保留一份
- 删除回复过短/过长的对话
- 删除回复被判定为广告的对话
- 删除90% 3-gram为高频短语的对话
- 删除回复为通常反应的对话
- 删除回复和context一样的对话
另外还维护了一个违禁词表
(1)脏词、敏感词、方言;
(2)特殊主题词,例如罕见病毒或化合物的名称;
(3)名称、未知缩写;
(4)特殊符号和表情符号;
(5)与广告、图片、视频相关的文字等平台标志;
数据分析
Method
Model
典型的Transformer结构。
Tokenization
通过subword构建30000 token的词表。
Pre-Training Details
为了解决一些过短的对话,在EVA预训练中加入了短对话合并的操作。
EVA2.0
Reference
EVA: An Open-Domain Chinese Dialogue System with Large-Scale Generative Pre-Training
EVA2.0: Investigating Open-Domain Chinese Dialogue Systems with Large-Scale Pre-Training
标签:Pre,Dialogue,删除,EVA,Training,对话 来源: https://www.cnblogs.com/hyserendipity/p/16589255.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。