PG电子【中国】平台网站 - PG SOFT

头条 数据挖掘侵犯著作权的法律解决方案PG平台 电子|PG电子平台
× 快速导航
PG平台资讯
分类
头条 数据挖掘侵犯著作权的法律解决方案PG平台 电子
发布日期:2024-04-12 15:15:15

  随着人工智能科技的迅猛进步和其在各领域的深入应用,人工智能自主创作文学、艺术作品等已成为常态。与人类依赖历史文献和资料作为灵感来源相似,人工智能创作也离不开海量数据作为其创作的灵感来源。在智能化的信息处理流程中,海量的创作素材被转化为机器可解读的数据,并注入人工智能系统,构建出庞大的知识库以供机器学习。根据著作权法律的基本原则,一般情况下,任何人在使用他人享有著作权的作品时,必须经过授权或可构成合理使用,否则将构成对著作权的侵犯。

  数据输入是人工智能创作的基础和前提,而人工智能模型获取数据的步pg电子网站骤被称为“数据挖掘”。数据挖掘的进步紧密依赖于数据技术的革新和智能算法的崛起。在人工智能算法的运作中,数据扮演着至关重要的角色,无论是用于算法的训练还是预测,数据都是不可或缺的基石。以ChatGPT为例,其生成内容的工作流程涵盖了以下关键步骤[2]:先收集多元化原始数据,然后清洗、标准化预处理数据以确保质量和一致性,接着进行数据标注以提供训练样本,再提取特征供模型学习,最后进行模型训练并输出结果。

  GPT使用的海量数据来源大致可以分为三类。第一类是公有领域内容,不受《著作权法》约束,可自由使用。第二类是通过合同授权的内容,GPT可在法律范围内使用。第三类是未获得授权的内容,这些信息和数据原本受到著作权的保护,然而GPT却未经许可地进行了数据的挖掘与使用,通常是通过网络爬虫技术来抓取网络上的数据和信息、非法地获取数据库中的内容,以及未经允许将非电子形式的数据内容进行数字化等手段实现的。

  2023年12月27日,《》以侵犯版权为由起诉OpenAI和微软,成为了第一家起诉这两家公司侵犯其文字作品版权的美国大型媒体[3]。《》称其发布的数百万篇文章被用于训练两家公司旗下的人工智能,这些人工智能现在被视为可靠的信息来源,与《》等新闻机构展开了直接竞争。从该诉讼不难看出,关于人工智能数据挖掘引发的著作权侵权问题将引起极大的反响,该案目前尚未进入审理阶段,由于美国是判例法国家,该案的判决结果将很大程度上影响未来美国对于数据挖掘的司法裁判。

  而对于我国而言,目前关于数据挖掘侵犯著作权的实践案例较少,通过“威科先行”数据库进行检索,以“数据挖掘”为关键词,选择案由“知识产权侵权纠纷”,检索发现目前我国并没有生效的相关判决,而因人工智能创作引发的著作权侵权纠纷中[4],当事人及法院多是将“人工智能生成物是否属于作品以及著作权归属”作为争议焦点,未就人工智能利用数据来源是否合法进行讨论。但是从GPT的发展模式可以看出,其在迭代升级的过程中伴随着的是数据挖掘规模的扩大,同时前文提到的其利用的第三类数据即未经授权的数据,规模也将进一步扩大,因此未来类似诉OpenAI和微软的案例在我国也可能出现,我们有必要分析人工智能数据挖掘的侵权风险。

  尽管人工智能数据挖掘在处理海量数据、推动科技进步和增进社会福祉方面具有不可或缺的作用,其过程中却潜藏着著作权侵权的风险。这种风险源于数据挖掘对已有作品的复制、改编和传播,可能与现行著作权法产生冲突[5]。然而,随着人工智能技术的深入发展和广泛应用,我们也需要探索相关的法律框架和解释路径,以适应这一领域的快速变化。

  要使得人工智能数据挖掘使用他人享有著作权的作品的行为不侵权,可能的途径包括对他人作品授权使用、法定许可使用以及合理使用。首先对于授权使用,有观点认为,由于人工智能创作依赖大规模的文本数据作为学习基础,若对每一份作品都进行授权获取,将涉及高昂的交易成本,这在实际操作中显得不太现实。其次,法定许可使用制度需要由法律明确规定,而在著作权领域中,数据挖掘这一行为尚处于立法的空白地带,缺乏明确的法律规范和指导。因此合理使用似乎是作为数据挖掘侵犯著作权的抗辩的最好途径[6]。

  所谓合理使用制度,作为著作权限制与例外的核心制度之一,允许在特定条件下,他人无需获得著作权人的同意或支付相应报酬,即可自由使用受著作权保护的作品。各国针对数据挖掘所制定的合理使用规则,对于当前人工智能数据挖掘行为的合理使用制度应用具有重要的指导意义。

  英国在欧洲率先通过立法确立了数据挖掘的合法性。2014年,英国在修订《版权法》时,特别引入了第29A条,为以非商业性研究为目的的文本和数据挖掘活动提供了法律依据[7]。这一条款允许利用计算机分析技术复制已合法访问的版权材料,从而避免了版权成为技术创新的障碍。然而,英国在赋予数据挖掘合法性的同时,也设置了一系列严格的限制条件,比如数据挖掘的对象必须是合法获得的版权材料,并且数据挖掘的使用目的仅限于计算机分析和非商业性使用等。由于人工智能在数据挖掘和使用行为上的复杂性,这些规定在实际应用中可能面临一定的挑战。因此,在英国《版权法》的框架下,人工智能数据挖掘未必能够完全适用合理使用规则。

  美国不同于英国以立法形式明确将数据挖掘列入合理使用范围,美国采用了基于四要素标准与司法判例为指导的开放性立法。美国《版权法》第107条规定了合理使用制度,即以四要素作为判断标准,通过综合分析使用者的使用是否符合相关法定要素来判断该使用是否为合理使用。而目前由四要素标准发展而来的“转换性使用”规则是最有代表性的主流观点,成为美国法院审理合理使用案件的重要认定标准。在美国《版权法》合理使用制度框架下,人工智能的数据挖掘行为有相当可能性得以构成合理使用。

  与英国、美国等国家不同,我国《著作权法》第24条所列举的12种法定著作权例外情形中,尚未明确将数据挖掘纳入其中。这意味着在当前法律框架下,数据挖掘行为在国内缺乏直接的合法性依据。人工智能的数据挖掘行为大都并非出于“个人学习、教学或科研或公共文化机构”等目的,而是具有商业性质的。因此,难以直接引用该条款作为侵权抗辩的依据。鉴于这种情况,一个值得深入探讨的问题是:人工智能的数据挖掘行为是否能够被纳入《著作权法》第24条的兜底条款保护范围之内。

  从实际案例来看,兜底条款在为人工智能数据挖掘行为提供法律依据方面同样面临挑战。以谷歌公司与王莘的著作权纠纷案[8]为例,法院在判断是否构成合理使用时,考虑了多个因素,包括使用作品的目的和性质、受著作权保护作品的性质等。在综合考虑了这些因素后,法院认为谷歌公司未能提供充分的事实证据来支持其合理使用的主张。因此,法院驳回了谷歌关于合理使用的抗辩,认定其行为构成了侵权。由此可见,依据当前《著作权法》相关规定,人工智能数据挖掘行为被我国法院认定为合理使用具有难度,仍存在较高侵权风险。

  因此有学者认为[9],针对数据挖掘合理使用,我国《著作权法》可以作出适当调整,包括两种方案,一种是效仿英国,将数据挖掘增设为一种新型合理使用情形;第二种是效仿美国,在增设一项关于合理使用认定的一般性条款,并且为合理使用的法定列举情形补充一条兜底性规定。还有观点认为[10],2020年《著作权法》已将“三步检测法”引入合理使用制度,增加了立法弹性,现有体系尚可应对新兴合理使用的情况下,没必要推倒重来,建议以合理使用制度的兜底条款为接口,修订《著作权法实施条例》引入数据挖掘专门例外。

  本文更认同第一种观点,即将数据挖掘增设为一种新型合理使用情形。因为我国对于合理使用制度采取的是列举式立法例,因此立法者效仿美国增设一般性条款的可能性极小;而《著作权法实施条例》第二十一条仅是强调了合理使用不得损害著作权人的合法权益等原则,未指出合理使用的具体适用情形,因此也不适宜在其中引入数据挖掘的专门例外。

  但是无论是上述的何种观点,都要求对现行法律作出修改,《著作权法》上一次修改距今间隔较短,短期内作出修改的可能性不大。除此之外,2023年8月15日生效的《生成式人工智能服务管理暂行办法》第七条规定要求提供者对所提供的生成式人工智能产品或服务中使用的预训练数据和优化训练数据的来源承担法律责任,确保其来源合法,并且不得包含任何侵犯他人知识产权的内容。也就是说《生成式人工智能服务管理暂行办法》并未就数据挖掘设置任何著作权例外。《暂行办法》从首次公开征求意见到正式发布,仅经历了短短三个月的时间,由此可见生成式人工智能的飞速发展对法律监管的迫切要求,但依然没有对数据挖掘合理使用制度作出回应,从这一角度可以发现,我国立法者对于数据挖掘合理使用制度仍然持保守态度,因此短期内数据挖掘合理使用制度很难在我国落地。

  前文分析了在合理使用条款中增设数据挖掘情形是解决现行法律下数据挖掘侵犯著作权的较好方式,但是当前修改法律的方案在我国短期内很难实现,那么是否能从别的角度突破这一困境?

  数据挖掘的客体是数据,而数据的价值不仅在于可作为人工智能训练的基础,还可以广泛应用于生产、分配、流通、消费和社会服务管理等各环节,并且《中央、国务院关于构建更加完善的要素市场化配置体制机制的意见》已将“数据”与土地、劳动力、资本、技术等传统要素并列为要素之一。《关于构建数据基础制度更好发挥数据要素作用的意见》(下称《数据二十条》)提出了四项数据基础制度,分别为数据产权制度、数据要素流通和交易制度、数据要素收益分配制度以及数据要素治理制度,其中又以数据产权制度为核心,并且《数据二十条》第三条进一步提出来数据产权“三权分置”方案,分别为数据资源持有权、数据加工使用权、数据产品经营权[11]。

  而其中“数据加工使用权”就是针对数据处理者提出的,在数据挖掘过程中,人工智能的提供者也正是数据处理者。但是《数据二十条》对于数据处理者收集数据依然要求为“在保护公共利益、数据安全、数据来源者合法权益的前提下,承认和保护依照法律规定或合同约定获取的数据加工使用权”。也就是说,人工智能数据挖掘使用的他人享有著作权作品的依然需要通过著作权人授权才可获得使用权,这就回到了前文所说的他人作品授权使用的问题,依然存在高昂的交易成本、实现困难的问题。

  但是,《数据二十条》第六条提出“探索由受托者代表个人利益,监督市场主体对个人信息数据进行采集、加工、使用的机制。”也就是说为了降低谈判和交易成本,可以考虑引入第三方机构来代理个人数据所有权的行使[12]。随着数据应用技术的不断进步,个人数据的使用场景愈发多样化,而大多数个人数据主体由于缺乏专业知识,往往难以作出明pg电子网站智的决策。为了简化权利人的维权流程、提升权利行使的效率和便利他人对个人数据的合法使用,个人数据资产账户可以交由集体管理组织(如数据信托机构)进行托管。由数据信托机构与数据处理者就具体的使用费用进行协商。数据信托机构在获得数据主体的明确授权后,将有权以自己的名义行使各项数据权利。

  作品不当然是数据,被数字化的作品才是一种数据,而当前人工智能数据挖掘所使用的他人作品多是经过数字化可被机器识别的,因此该类作品就是一种数据。那么根据《数据二十条》所提倡的第三方机构来代理个人数据所有权,著作权人可以事先将其作品交由如数据信托机构的集体管理组织托管,再由该集体管理组织统一与人工智能提供者签订协议,人工智能服务提供者即可获得数据加工使用权,对这类数据进行处理则等同于获得了著作权人的授权。