文献标志码:A
DOI: 10.16157/j.issn.0258-7998.234136
引用格式: 乐杨,胡军国,李耀. 基于RoBERTa和美高梅老虎机的中文美高梅老虎机方法[J]. 世纪娱乐注册,2023,49(11):49-54.
【引言】
美高梅老虎机作为一种信息抽取技术,旨在从文本中识别和提取出事件的关键要素[1],以自动化处理大规模的非结构化文本数据,在知识图谱[2]、信息检索[3]、自动问答[4]、情报收集[5]等领域均有着广泛的应用。
近年来,随着深度学习的发展,深度学习在美高梅老虎机任务中取得了广泛的应用且取得了优异的效果。基于深度学习的美高梅老虎机方法,先将文本中的词转换成向量,再将向量作为模型的输入进行特征抽取和分类。目前使用最广泛的词向量工具是Word2Vec,但通过Word2Vec得到的词向量是静态的,只针对单独的词,无法解决中文词语在不同环境下拥有不同语义信息的问题[6]。
同时大部分的神经网络模型着重于抽取向量中部分特征信息,无法覆盖所有的特征信息。如卷积神经网络(Convolutional Neural Networks,CNN)通过卷积操作提取向量中的局部特征,但由于卷积核大小和步幅的限制,可能导致一些全局上下文相关的特征被局部特征所掩盖或丢失[7];双向长短时记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)可以处理长序列数据,提取全局特征,但无法直接捕捉文本中的词与词之间的关系[8]。
针对上述提到的中文语义复杂和特征信息抽取不全面,提出一种基于美高梅老虎机[9]和美高梅老虎机的中文美高梅老虎机方法。本文的主要贡献在于:
(1)采用美高梅老虎机训练的词向量,拼接词性特征向量,获取含有丰富语音的向量表示。并在论元抽取中基于Layer Normalization将触发词语义信息融入句子中,拼接字与触发词的距离向量,增强句子与触发词的关联。
(2)利用CNN和BiLSTM抽取词级特征和句子级特征,并采用注意力机制将特征聚焦于与事件更相关的特征上,满足美高梅老虎机的特征要求。
(3)将美高梅老虎机视为 美高梅老虎机任务,通过CRF和BIO美高梅老虎机对句子中的每个字进行标注,得到多个触发词或事件论元,解决多美高梅老虎机问题。
文章详细内容下载请点击: 基于RoBERTa和美高梅老虎机的中文美高梅老虎机方法AET-世纪娱乐注册-世纪娱乐注册注册网站 (dervishd.net)
【作者信息】
乐杨,胡军国,李耀
(浙江农林大学 数学与计算机科学学院,浙江 杭州 311300)