一、研究目的
本研究设计拟通过LDA主题模型对我国上市公司披露的“区块链”相关文本进行深度挖掘与探索,评估这一文本与选题的价值,以期为后续研究提供经验借鉴。
二、研究设计
2.1研究样本
研究拟采用我国A股上市公司(非ST)于2015-2020年间在年报中披露的“区块链”相关文本字段,来源为CNRDS(中国研究数据服务平台)-BLOCK子库。
2.2研究方法
①文本挖掘与聚类分析
为了挖掘我国上市公司使用区块链的主要动机(战略目标),论文将运用探究文本主题分布的经典模型——隐含狄利克雷分布模型(Latent Dirichlet Allocation,LDA)对年报中披露的“区块链”文本进行主题挖掘和聚类分析。具体来说,这一过程的实现遵循以下步骤(如图2-1):①首先对上市公司区块链文本进行分词(运用jieba库)、去除停用词的预处理。②而后运用doc2bow包(词袋模型)将处理过的文本向量化并生成文档-词项矩阵(Document-Term Matrix,DTM),实现文本的定量化输出。③最后运用pyLDAvis包实现LDA模型的交互可视化并计算得出上市公司区块链信息披露文本的主题强度列表。
图2-1研究框架图
②计量模型(文献回顾)
企业对于区块链的信息披露行为可以通过主题模型分类,但本研究暂未确定这一行为给企业带来的结果(绩效)。目前和这一研究主题密切相关的文献中,Yen(2021)通过LDA主题模型,对美国上市公司年报中有关“区块链(Blockchain,Distributed Ledger technolog*)”和“加密数字货币(Cryptocurrency,Digital Currency,Bitcoin,Litecoin)”的文本进行了主题分类(见Table 4),并根据“文档-主题(Document-Topic)”概率矩阵确定了上市公司的区块链信息披露主题分布。进一步地,基于信息披露与价值相关性的理论基础,Yen(2021)实证检验了不同主题下与“区块链”和“加密数字货币”相关的信息披露行为是否对公司股价具有显著性影响(即投资者对公司参与区块链技术及其应用的评价所持态度为积极还是消极)。研究发现,只有提及区块链技术解决方案(bitcoin technology solutions)和风险因素(risk factors)的信息披露具有正的价值相关性,而提及比特币交易的信息披露具有负的价值相关性。在另外的行业分析中,我们发现加密货币相关的信息披露行为在除金融业以外的行业具有负价值相关性,而其他区块链信息披露行为在金融和非金融业均具有正价值相关性。
表2-1 LDA主题模型对美国上市公司关于“区块链”和“加密数字货币”相关文本提取的五大主题
财务理论前沿2021学术研讨会的文集中,罗勇根(2021)采用企业在“管理层讨论与分析”(MD&A)中披露“区块链”的相关信息,从商业信用的角度实证检验企业披露区块链相关信息是实质性披露还是策略性披露。研究发现,企业披露区块链的相关信息越多,获得的商业信用也显著增加,即符合了论文所提出的“实质性披露假设”。但是论文在做出这一假设的背后并未对上市公司的区块链披露文本进行具体挖掘,以探究上市公司区块链信息披露行为的真正动机,而是仅基于“信息披露有助于上市公司获取商业信用”这一观点进行了实证检验。诚然,区块链有助于减轻企业与企业、企业与客户间的信息不对称水平,实现信息共享的同时降低了交易间的不确定性,最终缓解了违约风险并帮助企业获得更多的商业信用融资。但企业对区块链的信息披露的“实质性陈述”并不都指向商业信用的提高,比如上市公司将区块链用于“供应链管理”(食品、医疗等供应链上下游信息共享)或是“信息安全领域”(联盟链实现信息难以篡改),最终带来的绩效应该是“运营效率/顾客满意度的提升”。
也就是说,论文所探讨的“区块链”相关的信息披露有助于企业获得商业应用,但①论文未对披露文本进行主题分类,而是单纯以是否披露以及出现的“区块链”词频作为观测变量,这先验地将“上市公司对区块链的披露行为”视作了“获取商业信用”的一项途径,但信息披露(年报)的主要对象是投资者,因此选取的因变量“商业信用”存疑,可能检验其的价值相关性更为合理;②论文最终选取的研究样本过大,上市公司将区块链用于“金融服务”(供应链金融等)的披露样本应当只占所有研究样本中的部分(还存在其他披露主题),因此探究不同主题分类的“区块链”文本与其对应的信息披露绩效会显得更为科学。
另一方面,论文在分词时的处理值得学习,如建立字典部分:为提高分词准确性,文章根据《中国区块链技术和应用发展白皮书》、《中国区块链金融应用与发展报告》、《中国区块链政策现状及趋势分析报告》,通过人工阅读的方式获得了“区块链”、“智能合约”、“数字签名”等关键词,构建了专用字典。文本分析流程中我有很多不规范之处,还需要多研读论文和进一步的学习,才能使最终的分析结果更加科学合理。经过几天对LDA主题模型的初步探索,初步得到了以下的研究结果。
三、研究结果
(一)主题强度分析
主题强度是指聚类后的每个主题在语料库中占的相对分量,计算结果能够反映中国上市公司对区块链某些应用领域的重视程度,主题强度高代表该领域为区块链应用的重点。
图3-1上市公司区块链披露文本LDA主题模型分析结果
图3-1是pyLDAvis中多维缩放后的Intertopic距离图,圆形大小表示主题出现的频率。pyLDAvis采用多维尺度分析,提取主成分作维度,将主题分布到两个维度上,各圆形圆心之间的距离远近表示主题之间的接近度,分隔越开,聚类效果越好。由图3-1可知,三个主题间间隔距离较大,即主题间相似度较低。同时,三类主题按主题强度从高到低排序分别为48.6%、30%、21.4%。
由表3-1可知,词频最高的词项分别为“区块链”、“技术”、“产品”、“科技”、“研发”等,可以洞见上市公司信息披露重点在于“区块链产品技术研发”,和区块链(金融科技)给公司带来的“管理创新”等方面,侧面可体现出区块链在年报中最广泛的披露内容较为泛化,具体的细分应用领域不在最长提及的术语之列。
表3-1词频统计结果Top10
关键词 |
区块链 |
技术 |
产品 |
科技 |
研发 |
词频 |
1144 |
959 |
320 |
288 |
279 |
关键词 |
创新 |
管理 |
互联网 |
物联网 |
金融 |
词频 |
270 |
255 |
249 |
226 |
216 |
(二)主题结构分析
图3-2主题1前30个最相关词汇词频比重可视图
通过LDA可以得到主题词分布,该分布可以获取每个潜在主题的结构。这种结构通过每个支持该主题的词的概率值表示,概率值越大,说明该词与主题的关联程度越大。图3-2以主题1为例展现了选定的主题内的估计词占整体词频的比重,并可视化展现了与主题1关联程度最高的前30个词项,分别为“技术”、“区块链”、“研发”、“科技”、“创新”等。每类主题的前10位词项及其概率分布具体见表3-2。
表3-2上市公司区块链文本主题内容的词项及相关度
相关 主题 |
产品技术研发 |
金融创新与物流管理 |
数字版权保护 |
词项 |
Correlation |
词项 |
Correlation |
词项 |
Correlation |
上 市 公 司 区 块 链 信 息 披 露 文 本 |
技术 |
0.036462 |
区块链 |
0.030356 |
区块链 |
0.029217 |
区块链 |
0.035594 |
技术 |
0.022293 |
技术 |
0.015797 |
研发 |
0.011372 |
物流 |
0.012176 |
产品 |
0.015282 |
科技 |
0.009504 |
管理 |
0.009844 |
管理 |
0.006598 |
创新 |
0.009300 |
科技 |
0.009824 |
创新 |
0.006200 |
互联网 |
0.008380 |
金融 |
0.007416 |
互联网 |
0.006162 |
产品 |
0.008294 |
创新 |
0.006436 |
研发 |
0.005494 |
物联网 |
0.008203 |
互联网 |
0.005895 |
数字 |
0.005195 |
数据 |
0.008017 |
物联网 |
0.005717 |
版权 |
0.004746 |
金融 |
0.006743 |
产品 |
0.005618 |
内容 |
0.004721 |
LDA得到的三个主题是特征词构成的集合,每个主题都可以视为上市公司区块链应用中一个战略侧重点。表3-2集合了各所选主题内容的局部特征词,在查阅语料的基础上对特征词进行人工判定,为主题依次命名。其中由于各词项与主题的相关度差距较大,故在人工判定中主要考虑与主题相关度高的前五个词项,分析理解词义并总结归纳。
值得注意的是,上市公司区块链文本前几位词项高度重合,极有可能因为惯用同一套“话语体系”,如“加大区块链技术等科技创新技术的研发投入”,导致上市公司对区块链的实际应用领域如“溯源”、“供应链”、“能源”等关键词出现频率很低,且与主题的相关度不高。这也侧面体现出“区块链”相关信息在上市公司年报中出现的概率不像在媒体中出现的那么高,披露信息的高度重合也说明这一文本语料的挖掘价值有限。目前实质涉及“区块链信息披露”的“公司-年”观测样本共456条,实证检验意义有限。经过聚类得出的结论,我们可以发现文本挖掘的关键不仅在于选题,还和获得的语料质量息息相关。只有获取有足够研究价值的语料,才能从所获得的丰富的信息中挖掘并发现知识。
参考文献
[1] Yen J C, Wang T. Stock price relevance of voluntary disclosures about blockchain technology and cryptocurrencies[J]. International Journal of Accounting Information Systems, 2021, 40: 100499.
[2]罗勇根等,区块链技术与商业信用:实质性陈述还是策略性披露[A].见:《财务研究》编.财务理论前沿2021学术研讨会论文集[C].北京:对外经济贸易大学, 2021, 97-130.