世界今头条!债券领域专用词向量研究

发布时间:2023-01-05 18:09:17     来源:华南科技网

债券市场是金融市场的重要组成部分。债券的全生命周期中会产生海量的文本数据,其中蕴含着债券市场大量的知识和规律。然而,这也导致了债券市场大数据的知识体系较为庞杂,且数据中一些冗余、错误和有用信息混杂交错,需要进行整合、清洗和挖掘来获取有用的信息。仅依赖人工处理难度较大,也是对社会资源的极大浪费。依靠债券领域得天独厚的数据优势,自然语言处理(NLP)技术具备模型端到端的设计和对特征工程弱依赖的特点,已成为赋能债券领域各应用的强大助力,带动着金融业逐步迈入智能金融新纪元。

目前,NLP技术正广泛应用于智能 *** 、定制化推荐、自动文摘、舆情分析、文档分类等债市服务中。然而,这些应用的实现往往取决于债市文本数据和特征质量。在运用NLP技术对特征进行自动化提取的过程中,债市文本作为非结构化的字符数据,无法直接被计算机识别,需要转化为具有语义信息的数值形式。具体地,需要将由多个词构成的文本空间转化为高维向量空间,即利用向量表示词,向量之间的距离刻画词与词之间的相近程度,最终形成“文本-词”的债市数字词典(词向量)。

本文为填补债市专用词向量的空白,利用词向量训练技术,以债市特定文本作为训练语料库,训练出一套富含债市领域先验知识的数字词典。该词向量区别于传统关键词、规则匹配,已经具备一定的语义表达能力。


(资料图片仅供参考)

词向量编码方式选择

词向量本质是以词为单位,用多个数值对文本进行编码,编码方式主要包括独热(one-hot)、共现矩阵和分布式编码等,具体描述如表1所示。

目前较为流行的词向量编码方式为分布式编码,该种编码的优点在于:之一,通过度量向量之间的相似程度,词之间具备了“距离”的概念,这对很多NLP的下游任务(文档分类、命名实体识别、情感分析、问答系统等)极有意义。第二,该词向量的每一维都有特定的含义,同等维度的词向量,该词向量能包含更多的语义信息。因此,该词向量可以节省更多的存储空间,并提高计算效率。区别于离散编码,分布式编码在扩增新词汇时无需增大向量维度,所构成的语义矩阵不再稀疏,不会出现维度灾难。因此,本文所研究的词向量基于分布式编码。

词向量训练

本研究的详细流程见图1,主要分为债市文本数据选择、训练语料库构建及训练模型和对应的参数设置。

(一)债市文本数据选择

本研究所使用的数据来源为:截至2022年2月23日中国债券信息网(https://www.chinabond.com.cn/)的公开文本,主要涉及该网站的8个子栏目:债券市场、 *** 债券、金融债、信用债、月度纪事、宏观经济、国际动态和热点问题。该网站披露的数据均经过领域内专家筛选,质量可靠且覆盖面较广,共计13702篇文章,131224个自然段落,具体统计信息如表2所示。

(二)训练语料库构建

本文预训练语料库的构建分为两步:之一步,清除文章中所有非汉字成分,主要包括标点符号、字母等。第二步,利用“结巴”(jieba)工具对文本进行分词得到债市文本序列。其中,分词需要配备有停用词表(可忽略的不影响语义的词)和用户词表(领域内的默认专用词)。例如,文本“10月正式发行绿色债券”,清除非汉字字符后得到“月正式发行绿色债券”,去除停用词“月”“正式”,保留用户词“绿色债券”,经分词所得的债市文本序列为:“发行”“绿色债券”(见图1)。原文本中每个段落所得的债市文本序列 *** 构成了词向量训练的语料库,图2与图3分别展示了语料库中最频繁出现的前20和200个词。

(三)训练模型及其参数设置

本文使用的词向量训练模型为连续词袋模型(Continuous Bag Of Words,CBOW),该 *** 利用目标词的上下文词表示该词(见图4)。具体地,训练语料库记为D,词表 *** 记作W=(w1,w2,…,wN),N为词数目。词袋中任意一个词wi的输入和输出向量分别记作VWi和V^Wio。模型的目标函数(更大化对数似然函数)可定义为:

其中,wc=wt-W,…,wt-1,wt+1,…,wt+W代表目标词wt的上下文词,W为上下文窗口的大小。hwi代表目标词上下文词向量的均值或和向量。由于每次梯度迭代更新时,需涉及所有词向量,复杂度较高。为了加速模型计算,本文采用了负采样算法进行优化,即将每个目标词的上下文词作为正样本,对每个正样本采样多个负样本,每次梯度更新仅涉及所有的正负样本词。本文对每个正样本所采样的负样本为10,具体实现可参考文献。此外,本文过滤了词典中出现次数小于5的词,设置词向量的维度为200,上下文窗口为5,训练的轮次为100,初始学习率为0.025。

训练结果分析

(一)语义表达能力

本文通过词向量之间的皮尔斯相关系数来刻画词之间的相似程度,以衡量本文词向量的语义表达能力。表3以“绿债”“中债”为例,展示了与之最相关的词。其中,与“绿债”语义最相近的词语包括“绿色债券”“绿色”“债券”“绿标委”等与“绿债”有重叠字的词,还包括“贴标”“蓝色(债券)”“熊猫(债券)”等字面上不相关的词。对于“中债”,虽然汉语中含有“中”“债”的词很多,但是与之最相近的前3个词仅包括“中证”“中央国债登记结算有限责任公司”“中央结算公司”。由于训练过程中并未加入任何人工规则,这些结果表明该词向量已经可以自动捕捉到债市语料所蕴含的特征和规律,并将该特征存于数值向量中。不同于关键词匹配的语义识别,该词向量已经在文本的语义层面具备一定的理解能力。

(二)区分一字多义的能力

中文存在着大量的多义字,比如“风”可以指具象的自然界的空气流动现象(风速)、消息(闻风而动)、歌谣(国风),或抽象的社会长期形成的礼节(风气)、外在表现的态度和举止(风度)等。为阐述本研究词向量区分一字多义的能力,笔者分别展示了带有“风”和“能”的前50个词,并进行个案分析。具体地,首先对这些词对应的向量进行主成分分析(PCA),然后对结果的前2个主成分进行可视化。图5中“风”主要分成3类:自然界的风、风险和作风相关的语义。图6中“能”被分为:能力、能源和虚词能相关的语义。该结果揭示了该词向量保留了词之间的语义关系,即相近字义的词在向量空间上也是临近的,一定程度上可以区分一字多义。

(三)类推能力

本文选取了4对不同的债券类型和对应的发行主体,并对这8个词向量进行PCA降维,选择前2个主成分进行可视化。

如图7所示,结果发现发行主体和债券类型被分为两类(虚线圈),位于图的两侧。此外,箭头的指向表明,债券发行主体和对应债券类型在图中的位置关系与其概念关系保持一致。尤其是地方 *** 和中央 *** 之间的距离比其他发行主体近,对应的两种债券类型也比其他债券类型近。由于训练过程中并未加入债券和对应的发行主体之间的概念关系或相关先验知识,该结果表明本研究的词向量能够自动组织概念,并学习概念之间的抽象关系进行类推。

结论

本研究利用CBOW模型对中国债券信息网中的13000多篇债市文本进行训练,并获得了首套债市领域专用的数字“词典”,填补了债券领域专用词向量的空白。该“词典”共有76042个债市专用词,每个词由200维向量组成,其内容涵盖了债券市场的各个子领域。不同于关键词匹配,该词向量能够区分一字多义,且可以针对特定概念群进行类推,已经具备了一定的语义表达能力。

当然,本研究中出现了一些错误的结果:一是分词导致的错误,比如“创债”“年国”等;二是一些无意义的词没有过滤,比如“首只”“十七”等;三是一些噪声词干扰词向量的训练,比如与“中债”最相近的词“精选”“高等级”“成分”等。为了解决这些问题,后续将尝试更多成熟的分词工具,并根据债市数据特点设计更多的用户专用词表和停用词表。此外,后续会补充更多的债券信息来源,以扩充词向量的训练语料库,训练出一个语义表达能力更强的债券领域专用词向量。

参考文献

[1]陈德光,马金林,马自萍,等. 自然语言处理预训练技术综述[J]. 计算机科学与探索,2021,15(8).

[2] Mikolov T, Sutskever I, Chen K et. al. Distributed Representations of Words and Phrases and their Compositionality[J]. Advances in Neural Information Processing Systems, 2013(26).

本文原载《债券》2022年12月刊

◇作者:中央结算公司博士后科研工作站 华娇娇

中央结算公司博士后科研工作站 杜通

中债金科信息技术有限公司 唐华云

◇ 编辑:鹿宁宁 廖雯雯

标签: 债券市场 中央结算公司

精彩推送

乘用车市场信息联席会发布数据 10月乘用车市场零售为184万辆

11月8日,乘用车市场信息联席会发布数据显示,今年前10个月乘用车市场零售达1671 6万辆,同比增长3%,...

2022-11-09

至正股份发布公告 拟1.19亿元收购苏州桔云51%股权

11月8日晚间,至正股份(603991)发布公告称,公司与SUCCESS FACTORS LIMITED签署了《购买资产协议》,...

2022-11-09

旅游合同暗藏猫腻 中消协点评这些属于不公平条款

11月8日,中国消费者协会官网发布《不公平格式条款点评系列九:旅游领域不公平格式条款点评》,其中针对...

2022-11-09

天键股份IPO排队近11个月 天键股份冲A胜算几何

在同行业企业迪芬尼、豪恩声学IPO告败后,电声产品制造商天键电声股份有限公司(以下简称天键股份)也向A...

2022-11-09

MSCI入摩“三步走” 三年MSCI主题基金不断涌现

自2019年11月8日,美国明晟公司(又称摩根士丹利资本国际公司,MorganStanleyCapitalInternational,以下...

2022-11-09

世界今头条!债券领域专用词向量研究

债券市场是金融市场的重要组成部分。债券的全生命周期中会产生海量的文本数据,其中蕴含着债券市场大量的知识和规律。然而,这也导致了债券市

全球观热点:财鑫闻丨摘帽概念股逆势飘红,一大批保壳式重整袭来……

大众网·海报新闻记者沈童报道临近农历春节,A股震荡走高,其中ST板块整体表现较为突出。1月5日,

2022新茶饮门店数约48.6万家 哪个品牌门店最多?

中新网1月5日电中国连锁经营协会近期发布的《2022新茶饮研究报告》显示,我国新茶饮市场规模从20

行业观察|星恒驶上互联网+快车道,电动车配件企业如何拥抱流量?

近年来,电商已经成为各个行业销售的新趋势。随着电动车消费群体越来越年轻化、产品需求越来越个性化,以电商平台、短视频平台等为代表的线

焦点讯息:西安城市发展临潼:20.00亿元中期票据获准注册

西安城市发展临潼:20 00亿元中期票据获准注册

资讯推荐:受高通胀和市场不确定性拖累 德国11月出口意外下降

其中,德国对其更大出口伙伴美国的出口环比下降1 5%,而对欧盟成员国的出口则下降0 4%。11月进口降幅也超出预期,为3 3%,而普遍预期为下降0 5%。Hau

全球速讯:鱼跃医疗陷涨价风波,成本上升还是趁疫打劫

1月2日晚间,对于此前血氧仪涨价的问题,江苏鱼跃医疗设备股份有限公司在投资者互动平台回答了投资者的提问。有投资者指出,鱼跃医疗自12月初

跃升24位!奥海科技荣列2022年广东制造业企业500强第106位

在广东省工业和信息化厅、广东省发展和改革委员会、广东省商务厅的指导下,由暨南大学产业经济研究院、广东省制造业协会、广东省发展和改革

每日热门:文旅部:元旦假期国内出游5271.34万人次 体现三大特点

央视网消息:据文旅部网站消息,2023年元旦假期全国文化和旅游假日市场总体安全平稳有序。假期期间,全国国内旅游出游5271 34万人次,同比增长

世界最新:六大博客看后市:A股跳空大涨 还能上车吗

1月5日消息,三大指数今日集体大涨,创业板指盘中涨近3%,一度收复2400点关口。板块方面,白酒股持续大涨,钠电池、光伏、储能等赛道板块强势

当前聚焦:日本 *** 声称1月8日开始将对来自中国旅客采取新防疫措施,外交部回应

【环球时报-环球网报道记者陈青青】在1月5日举行的外交部例行记者会上,有外媒记者提问,日本***称从1月8日开始,将对来自中国的旅客采取新的

当前简讯:江南奕帆:刘锦成累计质押股数为404万股

江南奕帆(SZ301023,收盘价:38 65元)1月5日晚间发布公告称,截至本公告日,刘锦成累计质押股数为404万股,占其所持股份比例为17 44%。2022年1

最新资讯:人民币对美元中间价大幅上调 重返6.8区间

中新社北京1月5日电(记者夏宾)中国外汇交易中心5日公布数据显示,人民币对美元汇率中间价为6 8

方正中期期货:玻璃市场2022回顾及2023年展望

方正中期期货黑色建材研究中心魏朝明之一部分玻璃行情回顾一、玻璃期货行情回顾图1-1玻璃主力合约价格元 吨资料来源:wind、方正中期研究院202

乘联会:预计12月全国新能源乘用车销量73万辆 有望创出乘用车厂商销量历史新高

【乘联会:预计12月全国新能源乘用车销量73万辆有望创出乘用车厂商销量历史新高】乘联会预估12月新能源乘用车厂商批发销量73万辆,环比11月约

天天微资讯!一副雪板 N个职业——冰雪消费的就业带动日益明显

新华社长春1月5日电(记者王昊飞、许畅、颜麟蕴)滑雪教学、雪具养护、雪板销售、装备快递……一副滑雪板

香港青年联会第30届会庆及会董就职礼举办,杨政龙将带领青联全力筹办运营青年宿舍

香港特别行政区行政长官李家超、中联办副主任陈冬、香港青年联会主席杨政龙一同带领台上嘉宾进行许愿树—基层青年成长计划启动礼12月29日,

朱兴良先生秉承高质量交付理念,精心助力日照开元名都大酒店建设

传承开元名都的盛唐风华和诗礼东方的待客之道,日照东湖开元名都大酒店如今已成为日照商旅新地标。作为国内豪华国风商务酒店品牌代表,开元名

阅山海玩转八仙引领品牌营销新势力数藏2.0崛起

作为数字出版物的新形态,数字藏品甫一面世,就获得市场极大关注及收藏者、二次元玩家、投资者等众多群体的热烈追捧。其运用区块链技术,对

快消息!刚刚,A股沸腾!大涨原因找到:又是一篇小作文!

原标题:刚刚,A股沸腾!大涨原因找到:又是一篇小作文!新冠病毒很可能存在眼部趋向性!XBB 1 5成迄今更具传染性奥密克戎亚型来源:中国基金

收评:SC原油、沪镍跌超5%,低硫燃料油跌4%,燃料油跌近4%

1月5日午盘收盘,国内期货主力合约跌多涨少。SC原油、沪镍跌超5%,低硫燃料油(LU)跌4%,燃料油跌近4%,PTA跌超3%,短纤、沪银跌近3%。涨幅方

白酒概念板块涨1.95% 古井贡酒涨10%居首

今日,白酒概念板块整体涨幅1 95%,其中34只股票上涨,11只股票下跌。数据显示,截至今日,白酒概念板块近一周涨幅1 90%,近一月涨幅1 90%,近

当前观察:智能手表、手环、App测血氧靠谱吗?专家:仅供参考

央广网北京1月4日消息(记者郭佳丽)近日,一些老年人在感染新冠后出现“沉默性缺氧”的问题引发关注,血

全球滚动:“四天半工作制”背后的乐视:只要赚钱,什么都干

“四天半工作制”背后的乐视:只要赚钱,什么都干,乐视,贾跃亭,工作制,互联网公司,致新

天天热消息:高端住宅市场退烧,总价超5000万高价房成交大跌四成

在下行的房地产市场中,高端住宅与普通住宅一度走出截然不同的行情,楼市低迷丝毫未能影响这个特殊市场火爆

天天资讯:比亚迪仰望品牌首款车型定名仰望U8 王传福:高端品牌不应该是买料堆料

比亚迪董事长兼总裁王传福表示,20年前,比亚迪正式进入汽车行业,技术创新是变革中占领先机的唯一机会。他介绍,比亚迪坚持自主研发,与供应

市监总局:免税企业应严格履行网购七日无理由退货义务

市场监管总局今天(5日)对中国中免、海南免税、中免日上、中出服免税、中侨免税、王府井、深圳免税、珠海

即时焦点:今起机票燃油附加费下调,800公里以上降至80元

1月5日,机票燃油费正式下调,调整后的费用收取标准为:800公里以上航段每位成年旅客收取燃油附加费8

A股放量走高!沪指四连阳,创指涨近3%,白酒股集体活跃

中新经纬1月5日电5日,A股三大指数高开高走,沪指涨逾1%,日线四连阳;创业板指盘中重返2400点

股票留底仓100股的好处有哪些?股票留底仓100股具体原因有哪些?

诚然股市赚钱需要机会,但机会往往不是从天上掉下来的,而是通过自己的努力,可以获得比别人更多的机会。作为交易者,应该有多少闲鱼资金花

股票在停牌期间能否交易?股票停牌的原因有什么?

股票在停牌期间能否交易?股票停牌是证券市场术语,是指股票价格因某些新闻或活动而持续上涨或下跌证券交易所暂停其在股票市场的交易。待情

看点:方正中期期货:物是境非 苹果价格重心将下移

方正中期期货研究院侯芝芳摘要2022年苹果指数呈现高位区间波动,其中阶段性趋势比较明显的时间段主要是一季度和9月份,一季度表现为明显的上涨

仙人指路K线由来及其结构特征有哪些?仙人指路K线介入点怎么看?

仙人指路,原本是国际象棋中的一着棋,在古代被称为兵局。既能为马开路,又能试探对方棋路,意为投石问路,以定策略。因为不可预测的意图,

龙头股什么时候卖?什么时候是卖出股票的适当时机?

众所周知,龙头股是在一定时间趋势比较好的的一种股票,买的时候是比较稳定的。但许多人不这样做不知道龙头股的卖出信号是什么,导致错过这

开仓是什么意思?股票开仓的最优方法有哪些?

投资者在投资的过程中,投资的第一步就是开仓,那么开仓是什么意思?股票开仓的最优方法有哪些?接下来小编将通过以下内容进行详细解答。开仓

打新基金怎么买?打新基金注意事项有哪些?

新基金属于场外基金,打新基金是指基金以买入新股的交易。简单来说就是用来买新股的资金。进行基金T+1交易,当天买入,第二个交易日确定市

什么是股票盘口?股票盘口中的数据及其信息有哪些?

什么是股票盘口?在市场中,股票的盘口是指交易过程中的实时盘面数据窗口。数据通常包括委托比例、五个交易挂单数据、股票开盘价、股票收盘

股票k线怎么看?K线图包含哪些内容?

股票的基本知识要懂。随着买股票的人增多,股票的k线也要看,可以帮你分析股票的涨跌。k线图是一种特殊的市场语言,不同的形态有不同的含义

仙人指路与避雷针区别有什么?仙人指路和避雷针分别代表什么?

仙人指路与避雷针区别有什么?仙人指路是k线模式中的k线组合,通常出现在股票上涨的早中期,后期往往会出现新一波的行情,并且已经突破了之

【全球新视野】华泰财险受让安达保险整体保险业务获批 后者工商注销程序将逐步完成

中国网财经1月5日讯(记者郭伟莹)1月4日,银保监会发布关于华泰财产保险有限公司(以下简称“华泰财险”)受让安达保险有限公司(以下简称...

世界关注:西贝贾国龙变卦:启动三年上市计划,西北菜龙头多元化难行

西贝贾国龙变卦:启动三年上市计划,西北菜龙头多元化难行,快餐,美食,餐饮,中餐,西北菜,西贝贾国龙

每日互动(个推)获评2022中国技术品牌影响力企业

近日,“中国技术先锋”年度评选结果公布,“2022中国技术品牌影响力企业榜单”正式出炉。数据智能上市企业每日互动(***)(股票代码:300...

方正中期期货:2022年期权市场回顾与2023年展望

摘要近两年商品市场波动明显加大,企业和投资者风险对冲的意愿和内在需求也在不断提升,期权作为精细化的风险管理工具,受到广大企业和投资者

交科院周健:预计今年春运客运量达17亿人次,创近四年新高

周健预计,2023年春运期间铁路民航客运量将呈现更快恢复势头,占全社会营业性客运量比重有望大幅提高。2023年春节返乡需求将出现“补偿式”...

微资讯!g20峰会什么时候开始?2016年杭州g20峰会举办时间

1、据了解,中国将于2016年9月4日至5日在杭州举办G20第十一次峰会。2、  2016年杭州g20峰会举办时间:2016年9月4日-5日  2016年杭州g

主管全国保密工作的是什么机构?主要任务是什么?

1、国务院主管全国保密工作的职能部门。2、1988年4月国务院机构改革,国务院设立国家保密局,为国务院部委归口管理的国家局,是主管全国保密工

观速讯丨文档格式有哪几种?文档格式的规范要求有哪些?

1、如今,随着电子技术的发展,许多人将通过电子邮件发送信息和文件。或者在公司与公司之间的交流过程中,他们中的许多人也通过电子邮件相互交

精彩推荐