摘要近年来,随着“大数据”的飞速发展,一个重要却鲜为人知的概念“智慧数据”应运而生,智慧数据已经并将持续在数字人文领域发挥巨大作用。图书馆、档案馆和博物馆(简称“图档博”)所拥有的数据资源是数据时代各个领域,尤其是数字人文领域的无价之宝。如果采纳大数据的模式和思维方式、智慧数据的实现方式。以非结构化数据到结构化数据的组织和整合过程为手段。产生机器可理解并可采取行动的、一源多用、高效率运作的数据.图档博以及相关行业将携带这些丰富的资源进入数字时代的主流。本文在阐释智慧数据的概念、方法论的转变、数字人文及其与图书馆关系的基础上,通过一些范例来展示信息服务的新思路。特别是针对文本型和非文本型原始数据的结构化和语义化处理新方法.由此证明:在语义网和大数据时代。图档博机构不仅是智慧数据的提供者也是直接受益者,智慧数据建设不仅能有效促进数字人文的发展,也将成为图档博机构最重要的新兴工作。
关键词 智慧数据,大数据,数字人文,图档博数据,结构化数据
0引言
走向2020的年代是数据的时代,数据已成为基础性社会资源。作为社会生产力的核心要素之一,数据在数量、质量、形态、作用等多个方面正在发生翻天覆地的变化。首先,大数据浪潮带来的不仅是数据量的激增,还有显著的国家战略层面的投资和保障,以及跨国跨领域的巨大数据应用。各行各业的专家和政府官员都在努力运用大数据解决重大现实问题。第二,语义网(sem锄ticweb)的快速发展和w3C发布的一系列技术标准持续推进数据质量在结构化和语义化方面的深入和优化。从字符串(Strings)级别的超链接到事物(Things)之间的关联.数据所能表达与揭示的内涵越来越丰富。第三,关联数据(LinkedData)技术的成熟使得机器可理解和可处理的高质量数据集发布变得日益便利,由此大大促进了结构化与语义化数据资源的建设和再利用。与之相应,数据管理技术新格局也逐渐形成,以图数据库、键值数据库、列式数据库、文档数据库为代表的NoSQL类数据库,与传统的关系型数据库互为补充,满足了不同场景下数据管理与利用的多元化需求。资源描述框架RDF(ResourceDescriptionFr.work)三元组存储(Triplestore)与sPARQL查询语言已经成为语义数据管理的技术基础。第四,在数据应用与知识服务方面,知识图谱技术正在快速普及。从基于文本的关键词匹配和传统信息检索发展到智能化的知识检索,离不开合理的领域概念建模,由此导致知识本体和元数据描述模型数量飞速增长。搜索引擎巨头借助大型本体和元数据标准schema.org,鼓励全球的站主(WebMaster)在网页内直接建构带有语义的结构化数据。第五,人与数据的共生机制已经成形,从资源创建角度来看,大众直接创建、分享、整合与再利用数据已经十分普遍。从文化建构角度来看,参与文化(PanicipatoryCulture)已经被社会接受。大众参与活动已经进入很多领域的工作流程,用户行为数据正在被分析利用,社会化网络则是这些数据的最直接来源。
随着“大数据”的飞速发展,一个重要却鲜为人知的概念“智慧数据”应运而生。那么,什么是“智慧数据”?图书馆、档案馆和博物馆(以下简称“图档博”)如何借助大数据和智慧数据并以前所未有的方式融入数字时代的主流呢?本文将在阐释智慧数据、数字人文及其与图书馆的关系之后。利用一些范例来展示信息服务的新思路.特别针对文本型、非文本型原始数据的结构化和语义化处理的新思路和新方法,证明图档博等机构在语义网和大数据时代不仅是智慧数据的提供者也是直接受益者.智慧数据建设不仅能有效促进数字人文的发展.也将成为图档博机构最重要的新兴工作。
同时。本文特别强调,当把大数据和智慧数据放在数字人文的背景下时.首先要明确“数据”这个术语的含义。在数字时代,人们可能通常认为数据只是数字格式。虽然把数字数据和数据分析联系起来是正确的.但需要充分理解“数据”和“数字数据”的含义不是等价的。数据的类型也不限于定量数据。开放档案信息系统0AIS的参考模型(IS01472l:2012(CcSDSS650.0一P—1.1)Spacedata锄dinfb瑚ationtIansfersystems一0penarchivaliIlfbmationsystem(0AIS)一Referencemodel)将数据定义为“以适合于交流、阐释、处理的形式化方式对信息的可重新解释的表示”,同时提供了数据的示例:比特序列、数字表格、页面上的字符、讲述者的声音记录、亦或月球岩石样本。“数据”这个定义是在“信息”的语境下给出的,信息是“任何可以交换的知识类型。在交换过程中,以数据为表现形式”。BorgIn(2015)在其《大数据,小数据,无数据:网络世界中的学术研究》一书中曾对“数据”的定义和相关术语进行了全面回顾,进而提出一个总体概括:“数据是对用于学术研究的有关某现象的观察结果、事物对象,或其他作为现象的证实的实体的表现形式”。基于这样的定义来讨论图档博数据资源的巨大价值,可有效引导我们思考如何运用数字人文手段来挖掘这些无价之宝。
1从大数据到智慧数据
1.1智慧数据的定义
在刻画大数据的特征时.往往可以见到多个“V”,而这些“V”还在不断增加。除了数据的规模(volume)、数据的流转速度(velocity)和数据的类型多样性外,还有其他维度,如数据的易变性和数据的真实等。在合理使用的情况下,大数据可以带来另一个最重要的“v”:巨大的价值(value)。通过对带有这些特征的大型数据集的有效处理,可以从中发现隐藏的模式、意外的相关性和令人惊讶的联系。而“智慧数据”就是实现大数据特征中最后一个“V”——价值(value)的方法,即通过对任何规模的可信的、情境化的、相关切题的、可认知的、可预测的和可消费的数据的使用来获得重大的见解和洞察力,揭示规律.给出结论和对策。简单来说,智慧数据就是从大数据中得出有意义的信息。智慧数据的价值是在大数据的容量、速度、多样性和真实性基础上.通过提供可操作的信息和完善决策来实现的