消费者安全 数据安全审计 企业合规师 备案登记 劳动用工合规管理 知识产权合规 个人信息与隐私权保护 企业廉洁合规 经营合规 风险提示与预警信息 IPO合规 安全生产合规管理 企业合规典型案例 合同合规管理 企业合规实务 企业数据合规 企业刑事合规
网络犯罪 人工智能合规 网络安全 新基建安全资讯 保密科技 数据合规 元宇宙合规 数字合规 网络与数据法学 电信网络诈骗 区块链合规 信息与网络安全 网络不正当竞争 数字贸易合规 数据出境合规 互联网合规
上市公司合规管理 税务合规 企业合规管理 商业秘密 财务合规 商业合规 内控资讯 合同法律 信息披露风险 公司法实务 人力资源合规 信用规制 知识产权合规 合规尽职调查 内控稽查 内部控制和风险管理合规 会计监管风险 税务异常处理 税务检查应对
征信合规 涉税合规 经济犯罪案例 合规文化主题月 劳动与人力资源合规 合规运行报告 网络直播合规 信用合规 刑事合规管理 工程合规与舞弊调查 涉案企业合规 安全审计 合规科技 劳务派遣合规 采购合规 财务风控 招投标合规
国际注册合规师 公司治理与公司合规 全球金融监管动态月刊 境外合规专项行动 国企合规 反不正当竞争合规管理 出口退税合规风险 全球反垄断 全球企业合规事务 国际监管合规服务 合规风险 进出口管制和贸易制裁 境外投资和“一带一路” 跨境投资和经营合规 知识产权内部控制 商业贿赂 外汇合规 合规与诚信
证券合规 银行合规 金融犯罪合规 保险合规 金融消费者保护 银保监督 私募合规 互联网金融合规 银行合规资讯 投融资合规 支付 银行合规综合 金融安全 信托合规 担保合规 金融合规 信用合规 股权合规 内保外贷合规 外汇合规 保理合规
ChatGPT的技术架构支撑的智能内容生成系统,在法律上可以表达为:智能主体、算法架构、训练数据、输出表达。在我国现有的法律体系内,ChatGPT面临窃取数据、算法操纵、信息殖民、违法和有害言论等风险。为了促进我国人工智能的关键核心技术的发展,我们应当积极建构数据产权制度,变革知识产权制度,优化信息监管制度,为新技术发展提供制度保障。
一、ChatGPT的技术核心与法律表达
ChatGPT是美国人工智能研究公司OpenAI发布的一款智能聊天机器人,通过 “模仿学习+强化学习”表现出非常通用且强大的自然语言处理能力,不仅可以与用户进行高质量的对话,而且可以准确地按照用户意图问答、对话,完成文档概况、文本创作等场景任务,甚至可以撰写行业报告、营销方案等[1]。难能可贵的是,ChatGPT可以主动承认错误,质疑不正确的对话,支持上下文理解并展开连续多轮对话。
ChatGPT之所以能够实现复杂的智能对话,端赖于其独特的核心技术构成,其可简要归纳为三点:其一,基于GPT-3.5(Generative Pre-trained Transformer 3.5)自然语言处理模型,主要包含超大的统计语言模型或顺序文本预测模型,使用RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)技术进行训练。这一训练范式增强了人类对模型输出结果的调节,并且对结果进行了更具理解性的排序。奖励和优化模型获得SFT(Supervised Fine-Tuning)模型。训练奖励模型(Reward Model,RM)采用PPO(Proximal Policy Optimization,近端策略优化)强化学习来优化策略。其二,大数据:截止2022年11月参数量已经达到千亿级,预训练的数据量达到百T级;该模型使用来自互联网的文本数据库进行训练,包括从书籍、网络文本、维基百科、文章和互联网其他文本中获得的高达570GB的数据。更准确地说,它在5000亿个单词组成的训练数据上进行了高强度训练。其三,逻辑算法,ChatGPT仍然是黑盒模型。目前还未能对ChatGPT的内在算法逻辑进行分解,虽然使用AI对齐水平,加入了道德和伦理因素,但是并不能保证ChatGPT不会产生攻击甚至伤害用户的表述。[2]
ChatGPT不仅是技术上的一次突破,而且其强大的功能可能会带来生产关系的变革,考量和冲击现有的法律体系。考察其功能实现路径,我们不难发现ChatGPT作为智能机器人在法律语境下可以做如下表达:
其一,在支持人工智能为法律主体的国家,ChatGPT可以获得主体地位;
其二,构成ChatGPT的自然语言处理模型、反馈模型、优化模型等以计算机语言和程序代码实现,可以归类为著作权法上的计算机软件;
其三,ChatGPT不同于搜索功能的大语言库,[3]依赖于获取的超量数据,受数据法律规范和相关文本访问与使用的约束;其四,ChatGPT的输出和表达涉及信息的表达和传播,受信息法律的监管和规制;其五,其运用算法进行内部训练和学习,可能存在著作权侵权和合理使用的疑问。
二、现有法律框架内的风险评价
在我国当下的法律语境中,调整信息的规范方式有内外之别。存在于内心无发乎于外者当属内心自由的范畴,不受法律的约束,由此延及私人领域的学习自由、交流自由和表达自由。个人可以利用一切可及的资料和素材充实自己的知识,提高自身的智识水平,达致高水平的专业能力;在他人允许的范围内,可以自由选择交流的对象,交换自己的思想和观点;通过写作和自言自语自由表达自己的思想,或者借助一定的表达工具记录自己的想法和观点。所有这一切私人行为只要限定在不影响他人的范围内,当不受法律的监控和规制。如果信息以一定的方式表达并公之于众,对他人产生智识、思想或情感上的影响,那么以信息为中心形成的多种社会关系就成为法律所调整的对象,为法律所规范。信息的传播因其方式的不同分别受到新闻法、出版法、网络信息法等规范的约束。具备独创性的作品在复制、传播过程中形成了一系列的财产关系。侵权性抄袭、复制、网络传播等行为引发相应的侵权诉讼。
ChatGPT是一款在模型框架内对大语言数据运用算法和算力训练而成的智能对话机器人。其强大的智能对话和文字处理功能皆建立在模型对大量资料的存储、运算、识别和调用中。依照信息规范的内外路径,ChatGPT包含了信息的内部处理程序和外部表达程序。在内部信息的处理过程中,其通过预先的学习、强化、反馈等过程,生成大语言库,在接收到用户对话或需要的内容指令,生成经过大算力之后的信息,然后将信息文本或对话通过编码输入,再通过解码输出最后的内容,即用户最终需要的文本、语音对话等。整个过程都在ChatGPT的内部程序和算法控制的范围内运行。从信息的内部规范路径审视,这些行为都属于私人领域的事务,并不受外部规范的约束。但是ChatGPT并非像自然人一样自行控制自己的内部学习,其全部的私行为其实为程序员施行大量的外部性社会行为的结果。剖析ChatGPT内部的运行机理,我们可以将其为集成程序所进行的外部行为归纳为一个流程,即
资料搜集、数据攫取——加工整合成大语言数据库——命令的接收和算法运算——结果输出。
首先,从目前报道的情况看,ChatGPT的大语言信息来源于公开的网页信息、信息资源库(比如,维基百科等)、数字图书馆、专业数据库、社交平台等内容,使用爬虫协议等底层技术通过对大语言信息的搜索、归类、分析,训练ChatGPT成为智者。所爬取的信息如果属于公开可以利用的数据,自然就可以归入大语言库,如果属于信息来源方采用技术措施加密或不愿意分享的内容,ChatGPT就无法合法取得,否则构成破坏技术措施侵权,或者因非法访问、处理他人数据,构成不正当竞争侵害。由此可见,ChatGPT的训练学习和智能对话建立在大量信息的获取基础上,在不同的语言区域内,由于获取某种语言的信息广度和限度不同,导致ChatGPT处理和输出的信息量有所不同,在不同语言操作的情景对话情形下,ChatGPT输出的结果有所偏差,比如,在英语对话的场景中获得的结果比某种小语种输出的结果丰富。考虑到ChatGPT非对话情境下的强大翻译能力,用户可能获取的结果更多源于对英语信息的处理。如此以来,ChatGPT在推动信息流动的同时,反而加重了知识产权塑造的信息殖民格局。如果考虑到ChatGPT所在国善于政治操弄,ChatGPT政治立场上“选边站队”,[4]那么在ChatGPT置入意识形态内容,比如对平权意识、种族问题、性别问题等,它都会有一套符合美国政治标准的处理方案,并不是一个纯粹全球性的东西。[5]这反而更便捷于对他国发动信息战和政治攻击。
其次,在信息处理和形成的过程中,除面对数据权益和垄断的问题,还牵涉对享有知识产权信息的处置。ChatGPT的训练和学习过程是否存在知识产权问题,需要知识产权的例外和豁免?或者如上述的私人学习过程,根本不涉及知识产权问题呢?著作权对于私人学习行为,包括学习、研究、欣赏以及介绍、评论、说明某一问题引用的内容予以著作权侵权例外。ChatGPT的大语言训练过程,包含了对海量数据的处理,自然也涉及对作品的学习和利用,这个训练过程归入私人学习的范畴呢,还是属于复制、剪辑和重新排列组合呢?在著作权规范表达及其延伸至表达的物化载体前提下,我们大可不必究问形成表达的内部过程,不管是对于私人的学习,还是人工智能的内部训练,只要其最终的表达不落入著作权权利覆盖的范围内,自然不会侵犯著作权。唯一的疑问在于,ChatGPT内部训练学习的过程中,是否牵涉对他人数据的非法访问、存储、截取和运算。目前在我国法域内,数据的非法操作可能涉嫌构成不正当竞争。为了推动数据的流通,促进数字经济的发展,未来需要探索数据产权制度,为数据流通提供足够的制度支撑。
综合以上论述,ChatGPT的内部训练可以归结为法律规范上的数据使用问题,如此以来,ChatGPT的法律评价主要牵涉外部表达的法律性问题。
最后,考虑到ChatGPT强大的对话、思辨和学习能力,我们将其视为言论者或发言者并不过为。就言论者而言,其表达受到更多的人权宪章、国家主权、反邪教、反歧视、鼓吹战争、犯罪色情等限制。从我国的信息管控法的层面分析,这属于公法所控制的信息范围,任何组织和个人不得传播。
利用信息优势和技术优势,对他国政府、人民和社会进行污蔑、歪曲和抹黑,进行所谓的意识形态渗透,搞双标,操纵国际议论孤立和压制他国,以所谓的人权问题,颠倒黑白,扶植和组织反对势力对他国进行网络攻击和数据篡改等等一系列侵害他国信息安全和信息主权的行为都可能被ChatGPT翻越管控,放大、突出和散播。
第二类信息管控的是有害价值观和意识形态的软影响,虚假信息,煽动、拱火和挑拨,未经证实的伪科学,以及利用政治手段打压经济、文化、疫情等全球化和国际化的共同问题。尤其是私权争端的政治化,比如美国通过的商业秘密执行法案,将知识产权争端政治化和妖魔化等等有害言论。[6]第三类为ChatGPT口头对话和文字表达涉嫌对他人人身性权利的损害,包括隐私权、人格尊严等等的隐私、歧视性侵害。文字表达涉嫌对他人作品的抄袭和剽窃,这其中可能会加重网络洗稿、超大数据片段的重新排列和组合,犹如混音作品对大量音乐音符的抽取和重组,加重了传统三步法、层次法等内容比对判断作品侵权方法应对的难度。
三、面向技术未来的法律变革
当前围绕AI的主导权争夺战愈演愈烈,不管对于哪个领域,数据都是AI不可或缺的基础资源。在汽车、医药、能源行业AI应用发展居于前列,新药的研发有赖于对病例的大数据分析,借助于AI针对病症、病灶的药物分子研究可以提高药物的研发效率,保证新药的有效靶点数。汽车的AI驾驶技术,电力的有效分配和电力系统的持续供应依赖于AI的算力和精准反应。AI智能有效运行的核心是数据,建立有效的数据流通和交换制度,解绑约束信息自由流通的知识产权制度,是推动ChatGPT新一代人工智能技术发展的必由之路。
(一)构建数据产权制度
(二)变革知识产权制度
(三)优化信息监管制度
我国对涉及国家主权和安全的信息采用绝对监管原则,虚假和不实信息由网信部门协助通信、卫生、公安、文化等部门执法,知识产权和侵害人身类信息主要依赖权利人自身维权。信息的分类分级管理体制和健康良好网络生态环境的总目标,使得我国的信息管控比较严格,国外未经认证的网络信息不可访问,损害政治生态和国家体制的信息不得传播,网络内重大问题和实质问题的讨论和争辩鲜少见到。
ChatGPT作为科技领域内的现象级成果,既能展开智能对话,又能够完成撰写代码、论文、诗歌、小说等等任务。但是其可能成为传播错误和虚假信息的工具,制造或加重各种歧视性话题,威胁他国网络安全和薪资主权,成为其所在国发动信息战的武器,诸如此类的缺陷让公众担心。
为了推动我国人工智能的发展,我们应当以数据流通为着力点,松绑知识产权对人工智能训练内容的限制,对信息流通和传播抱持宽容的态度,切实扫清阻碍生产力发展的旧生产关系,新立或修改不适合技术发展的法律法规。
注 释
1.王金桥:《嗨ChatGPT,人类对你最好奇的是什么呢?》,中科院之声,2023-02-16。
2.ChatGPT发展历程、原理、技术架构详解和产业未来。
3.由于 ChatGPT是一个大型语言模型,不直接具备网络搜索功能,因此不连接搜索引擎的版本只能基于2021年所拥有的数据集进行回答。
4.贾骥业、王林:《ChatGPT爆火,伦理安全拷问现行治理体系》,中国青年报,2023-02-21 。
5.承天蒙:《复旦教授徐英瑾:ChatGPT并不具备纯粹的全球性》,澎湃新闻?科创101,2023-02-16。
6.美国2023年初通过了《商业秘密保护执行法案》,可以利用政府力量对涉嫌侵害商业秘密的外国组织和个人启动刑事追诉程序。
7.张佳欣、刘园园、陈 曦:《ChatGPT:“顶流”之下,看人工智能喜与忧》,科技日报,2023-02-16。
8.万勇:《ChatGPT引发著作权问题新思考》,法治日报,2023-02-15。
© 2024 All rights reserved. 北京转创国际管理咨询有限公司 备案号: 京ICP备19055770号-4
Transverture International Group Co Ltd, Guangdong Branch
地址:广州市天河区天河北路179号尚层国际1601
深圳市福田区深南中路2066号华能大厦
佛山顺德区北滘工业大道云创空间
东莞市大朗镇富丽东路226号松湖世家
梅州市丰顺县留隍镇新兴路881号
长沙市芙蓉区韶山北路139号文化大厦
欢迎来到本网站,请问有什么可以帮您?
稍后再说 现在咨询