欢迎浏览杂志社官方网站
会计论文

基于汉语熵的XBRL 分类标准元素适用性研究

【摘要】XBRL 分类标准中的财务元素适用性是评价分类标准的主要依据。文章从信息论的视角出发,将汉语熵和冗余度作为衡量指标,从信息含量和可理解性两个维度评价我国XBRL 分类标准元素的适用性。研究表明:2015 年分类标准优于2010 年分类标准,主要表现为信息含量的增多和语言内部规律性的增强,提高了分类标准的可理解性;与年报实务对比,目前的分类标准元素所承载的信息仅包括实物年报的核心内容,还不能完全覆盖传统的PDF 年报内容,可理解性需要利用软件展示。

【关键词】XBRL 分类标准;汉语熵;冗余度;适用性

一、引言

在信息技术飞速发展和资本市场全球化的背景下,信息使用者更加注重差异化、实时可靠、跨时空和跨行业的可比较的会计信息,传统的会计信息披露模式已无法满足以上要求。于是,作为全球财务报告信息技术革命的开始———XBRL(可扩展业务报告语言)应运而生。XBRL分类标准是XBRL 技术的核心部分,也是生成和解释实例文档的基础。分类标准中定义了XBRL 具体数据所对应的财务元素,依照XBRL 规范定义的词汇表(元素清单)和勾稽关系。元素清单中列示的财务元素反映信息披露的基本信息单元,是XBRL 分类标准的核心。

元素适用性是指作为承载财务信息基本单位的财务元素,能否准确、合规、完整、高效地满足财务信息披露的需求。元素适用性的高低代表分类标准的优劣,直接影响各国的XBRL 技术发展和应用,因此,有必要对分类标准元素适用性进行科学的量化评价。

本文的贡献在于从信息论角度,将汉语熵和冗余度作为衡量指标,从信息含量和可理解性两个维度评价我国2010 年、2015 XBRL 分类标准元素的适用性,为分类标准制定和完善提供科学依据,也为XBRL 分类标准评价研究提供一个新的研究视角。

二、文献回顾

近年来,XBRL 分类标准的评价重点在于评价元素适用性,而元素适用性主要表现为元素的准确性、合规性、完整性和效率性。

在准确性上,Debreceny 等认为,可以从元素的定义和元素之间的关系链接两方面来考察。分类标准定义的元素必须具有严密的概念定义,在使用过程中不会发生歧义,同时匹配正确的属性;表示元素之间关系的链接库,设置要准确,包括位置和计算关系等。孙凡等依据现代语言学的基本原理,从语法形式化和语义形式化两个维度对XBRL 的现行技术体系结构进行了分析,指出其在语法形式化方面存在元素和规则定义不足等问题,并基于未来的发展需求提出了相应改进策略,拓展了XBRL 的研究视角,利于推动XBRL 标准的应用。张天西构建了XBRL下的财务信息元素理论,提出粒度概念,建立元素粒度度量模型,进而构建基于元素粒度的分类标准元素遴选模型,并阐述了如何使用该模型以确定分类标准元素边界,从而解决分类标准制定过程中的问题,提高分类标准质量。

在合规性上,由于越来越多的国家和地区发展及应用XBRL 技术,陆续制定相关的实施政策,有效保证了分类标准元素的制定严格遵守XBRL 技术规范、XBRL 财务报告分类体系结构框架以及相应地区的会计准则,所以,这方面几乎无研究。

在完整性上,Bovee 等通过元素匹配,发现分类标准与公司财务报表中的元素整体匹配度较好,但也存在差异,还需修订分类标准。Cohen 则在Bovee 的基础上指出分类标准元素完备性欠佳和企业实际披露需求的矛盾是企业扩展元素的原因,并分析了元素扩展的优缺点。国内学者高锦萍等也通过元素对比117 家上市公司的2005年年报,考察了上交所当年发布的《中国上市公司信息披露分类标准》制定的完整性,结果显示两者存在较大差异。研究表明,分类标准的完整性在一定程度上体现了XBRL财务报告信息的充分性。Zhu Wu 将完整性量化为标准中定义的信息元素覆盖原始文档中信息元素的程度,并以此为基础构造一个评价数据交互标准质量的框架。之后,Zhu Wu 又系统开发了一个以复杂性、完整性、相关性和数据互操作性四个质量指标来评估大规模数据标准质量的框架,并利用两个基于GAAP 的分类标准版本和相应的上市公司财务报表进行实证研究,证实了框架的有效性,对制定和改进数据标准、选择和采用数据标准的决策者提供有价值的参考。

在效率性上,Boritz No 选取美国证监会XBRL 资源报送试点项目(VFP)的实例文档,检查了分类标准元素的适用性,发现企业扩展元素时,与分类标准中的元素重复了,实例文档中有10%的扩展元素存在有效性、可比性差和其他错误,且约2/3 的实例文档存在这些问题,严重拉低了信息质量。赵聪通过将通用分类标准与2010 120家上市公司的财务报告对比,发现通用分类标准存在元素定义不足,同时又存在元素冗余问题,有些标准元素在实务中不曾使用过,并提出用删除解决冗余问题。此外,黄长胤对比通用分类标准附注项目和PDF 财务报告附注项目中的元素,证明了通用分类标准在实际使用中效率低下。

综上发现:以往有关XBRL 分类标准元素适用性研究中,多采用手工元素匹配的方式验证元素的效率性和在数量上的完整性欠佳,研究视角单一;纳入研究的元素类型有限,集中于货币型元素;利用其他领域的知识对XBRL 分类标准进行跨领域研究还很少,且多为理论性研究,可操作性不强。

三、研究设计

(一)研究思路

在信息论中,信息是事物的运动状态或存在方式的描述,而熵是描述信息不确定性的量度,语言负载的信息是语义。语言编码具有多重性,包括语音代码、文字代码、手势和表情等副语言代码。本文的研究对象是财会领域的XBRL 分类标准附注元素及财务报告附注内容,将其看成信息披露的主要载体,属于以文字代码传递语义信息的语言编码。所以,本文从信息的角度,借助汉语熵和语言的冗余度,将更多类型的元素纳入了研究范围,从元素承载信息的完整性和元素的可理解性上评价元素适用性是恰当可行的。

本文将财会领域的XBRL 分类标准的附注元素及财务报告附注内容看成信息披露的主要载体进行实证研究。利用Python 编程进行文本过滤后,再进行中文分词,批量统计词频,利用公式(2)计算词熵H,公式(4)得出冗余度R1,公式(5)计算冗余度R2。从信息论的角度,通过计算附注元素的信息含量,从元素承载信息的完整性上而不是单纯地从数量上评价元素适用性;通过计算元素的语言冗余度,从元素语言的内部规律上衡量元素的可理解性,以此评价元素适用性。

(二)衡量指标的选取

1.元素信息含量的衡量

香农将自信息定义为某一信源发出一个信息带有的信息量,数学表达为(I xi=-logpxi)),是某信息出现的概率。1948 年,香农又在其发表的论文中借鉴热力学中熵的概念,提出了信息熵的概念,用于度量信息量,并给出了计算信息熵的数学表达式

信息的基本作用是消除人们对事物的不确定性,消除了多少不确定性就相当于人们获得了多少信息。从信息学的角度来说,熵越大,系统越混乱,单位信息量就越大

为确定一个字符平均拥有多少信息量,使自然语言更高效地被机器识别、存储和传输,信息熵的概念被引入语言学研究中。

在自然语言中,语言的熵指信息接收者接收到语言信息之前,语言符号出现的不确定程度大小,即语言所负载的信息量的多少。当语言接收者接收到语言符号之后,不确定程度被消除,熵就变为零。根据香农对信息熵的定义,在自然语言中,可以假设一种语言子集的字符V 大小为L,且不考虑每一个字符之间的相关性,即每一个字符等概率出现。

一个语料中的每一个字符都会有一个字频,根据大数定理,该字频在样本量足够大的情况下就构成了一个概率分布,可利用以上公式计算出整个语料的平均熵和信息含量。但要特别注意,某一个字符单独的熵计算公式为-logpxi))。

在汉语中,信息熵被称为汉语熵,一般是指以汉字为基本语言单位的汉字熵,用于确定一个汉字平均拥有多少信息量。冯志伟对书面文本进行手工查频计算出了不考虑上下文影响的汉字熵为9.65 比特。后又得出考虑上下文影响时包含在一个汉字中的熵,即极限熵为4.0462 比特。其研究成果为汉语的信息化处理作出了重要贡献。但是,在汉语中,词本身就是人们交际的最小语言单位,而且词也初步体现了前后语言符号的相关性,通过分词,就能确定一些字之间的固定搭配。所以,以词为语言的基本符号计算汉语的熵(又称汉语词熵),比以字为单位更符合汉语使用的实际情况。在20 世纪80 年代,以当时的北京航空学院为首的十个单位进行的现代汉语字频、词频统计工程,就根据选定的语料库计算出来汉语词的信息熵,即H 汉语词=11.4559 比特/ 词。

综上,本文从信息的角度,利用汉语词熵作为衡量XBRL 分类标准元素的信息含量指标。

2.元素可理解性的度量

有研究表明,语言表达与信息熵、冗余度有密切的关系。冗余信息与语言理解也存在很大的关系。

信息学上的“冗余”与汉语常用的语义是有区别的。信息学上的冗余是为了避免遭受信道噪音的干扰,运用语言、文字形式的重复或累加传输信息。也就是说,为了保证理解,总是给出比实际需要多得多的信息。所以,冗余法则是信息论中信息传输和变换过程中所要求的一条重要法则。为了衡量冗余信息,香农提出了“冗余度”的概念,认为冗余度是对信息确定性、有序性和可预见性的度量,指超过传递需要量的信息。

语言的冗余是指存在于语言中的重叠信息,其源于语言内部的规律性,可看作语言结构带来的信息量。冗余信息不仅是一种语言事实,在大多数情况下也是一种交际需要,并不是多余的无用信息。

 


热门期刊