一 数据交易概述
数据只为少数具有专有性和资源的组织创造价值,使数据具有可共享性、可发现性和易于集成性。共享易于发现和集成的数据很困难,因为数据所有者缺乏信息(谁需要什么数据),而且他们没有动机以易于他人使用的方式准备数据。数据市场平台可以以弥补信息和激励的不足,并解决数据共享、发现和集成的问题。在数据市场平台中,数据所有者希望共享数据,因为如果他们这样做,他们将获得收益。鼓励消费者共享他们的数据需求,因为市场将为他们解决发现和集成问题,以换取某种形式的货币。
为了在组织内部运作以减少数据孤岛的内部市场,以及跨组织运作以增加每个人的数据价值的外部市场,迫切需要将数据视为一流资产,以将数据的价值扩展到更多的组织,数据市场平台可以作为实现这一目标的一种机制。
二 数据交易要素
数据定价。市场必须对数据集进行定价,以满足买家请求数据的需求和卖家共享的数据集供应。
市场设计。如果没有正确的规则来管理卖家、买家和仲裁者的参与,市场将被博弈并崩溃。这一领域的关键问题是,当资产是数据时,如何设计市场规则,数据是可自由复制的,可以以多种不同的方式组合。
即插即用市场机制。市场可以有多种类型:i)组织内部的数据仓库,在这种情况下,员工薪酬可能增加;ii)价值是适当激励的外部跨组织数据;iii)跨组织,但使用共享数据作为激励,例如医院交换医疗数据。市场的目标也可能各不相同,从优化交易数量到社会福利、数据效用等。
数据混搭。由于所提供的数据将具有与所需数据不同的格式,因此实现卖家和买家之间交易的一个关键要求是一个混搭平台,该平台可以将数据集组合成我们所说的数据混搭,以匹配供需。
数据混搭须支持数据融合运算来对比同一主题的不同数据源。数据融合算子产生的关系打破了第一范式,即每个单元格值可能是多值的,每个值来自不同的来源。当买家希望对比提供相同数据的不同信息源时,数据融合运营商是合适的,即来自城市数据集、传感器和手机的天气预报信号。例如,卖方2拥有属性bl,该属性几乎与b相同,但具有一些不重叠、冲突的信息。买方可能有兴趣观察这两个信号,或它们的差异,或它们之间的相似性等等。数据混搭是使用关系、非关系和融合操作的数据集的组合。
数据市场管理系统。数据市场平台还要求平台支持卖家和买家。卖家需要访问统计隐私技术,以便在共享数据时感到安全。例如,如果没有处理PII信息的能力,卖方2将不会共享数据,尽管这样做可能会带来潜在的金钱利益,因为泄露此类信息可能是亵渎。买家需要能够精细地描述他们的数据需求,以及他们愿意为特定任务获得一定程度的满意度而支付的资金。例如,购买者应该有能力定义他们只愿意为实现至少80%准确度的分类付费。数据市场管理系统的一个要求是为卖家、买家和混搭提供支持。
建立信任。卖方、买方和混搭者之间的信任程度将因情况而异,即无论是在内部市场还是在整个经济中。数据市场管理系统的一个要求是实现帮助参与者相互信任的机制,例如使用去中心化架构,在加密数据上实现计算,以及支持上下文完整性。
市场模拟。用于制定合理市场设计的数据应用并没有考虑到实践中存在的邪恶、无知和偏见行为。因此,在部署之前,有必要在对抗性场景下模拟市场设计。
三 数据交易平台示例
(一)交易数据的分类示例
大类
小类
1.地理空间数据
2.人口数据
3.商务数据
4.市场金融数据
5.消费者数据
6.B2B数据
7.运输和物流数据
8.环境数据
9.信用评价数据
10.房地产数据
11.网络数据
12.移动应用数据
13.法律数据
14.医疗数据
(二)交易数据提供者示例
(三)交易数据的价格示例
1.固定价格
2.可变价格
3.无具体价格
从以上示例可以看出数据价格的因素包含了数据范围、数据数量、数据时效、数据质量、更新频次和数据合规等。
(四)数据交易平台示例
四 数据的价值与价格
数据的价值是什么?这个问题让经济学、法学、商学、计算机科学和其他学科的学者和从业者忙得不可开交。从宏观经济的角度探讨了这个问题,以研究数据对经济的影响。从微观经济学的角度研究了对单个公司和组织的影响。我们专注于更窄但具有挑战性的目标,即选择一个让卖家和买家满意的价格。
问题的关键在于,对于卖家和潜在买家来说,数据集的价值可能不同。例如,卖家可以根据他们在获取和准备数据方面所花费的精力来选择对数据集进行定价。买家可能愿意根据数据集可能给他们带来的利润预期为数据集付费:例如,他们将在多大程度上改进流程,以及这一过程的价值。这些策略都不能保证收敛到一个价格,从而在参与者之间达成交易协议。
然而,这就是当前Dawex、Snowflake的数据交易所等数据集市场的定价方式。卖家为不了解买家估价的数据集选择价格,而愿意支付该价格的买家获得数据集,却不知道数据集对解决他们的问题有多有用。这让买卖双方都不满意。购买者可能会为没有产生预期结果的数据集支付高昂的价格。同样,卖家可能低估了可能产生更多利润的数据集,因为他们缺乏买家想要什么的信息。
最后,除了买方和卖方对数据集价格的意见外,我们还必须考虑数据集所产生的外部影响。首先,如果数据集是以独占权限交换的(假设这是可能的),则交易会对那些被拒绝访问数据集的实体产生外部性。其次,包含人的信息的数据集会产生外部性:潜在的伤害和隐私损失。最后,涉及数据集和价格的交易会向其他人传达这些公司对数据的价值。根据经济学理论,所有这些交易成本都会对现实世界的市场产生影响,因此必须将其考虑在内。
五 国家数据局在数据交易中的作用
数据是一种两用商品,既有经济价值,也有社会应用。当其作为公共产品的货币价值并不总是与其商业或自由市场价值相同。在商业环境中,如果数据生产者没有感知到显著的经济回报,他们就不太可能通过数据市场平台共享重要资源。此外,如果没有适当的激励和保障措施,不受限制的数据交易可能会导致普遍存在的社会不平等和偏见的放大。因此,国家数据局在减少这种摩擦方面需要发挥着核心作用。为了实现增加数据交易的好处,并减少自由市场原则与数据作为公共产品的概念之间的冲突,国家必须建立健全的开放数据战略和平衡的数据交易监管框架。
本文来自微信公众号 “数据驱动智能”(ID:Data_0101),作者:晓晓,36氪经授权发布。