数据合规治理去向何方？_北京转创国际管理咨询有限公司广东分公司

编者按：自1956年“人工智能”的概念首次被提出已过60余年，此间，人工智能从虚化的代码逐渐转化成实践应用，催生出一批批商业故事。不过，人工智能规模化商用并非坦途，概念的火热一直以来未能助推技术突破与商业应用。

时间来到2022年，生成式AI发展为人工智能发展再注入一针强心剂。ChatGPT横空出世，被视为通用人工智能的起点和强人工智能的拐点，引发新一轮人工智能革命。人工智能发展似乎找到了自己的主流叙事。

不过，技术创新的同时也带来了监管难题。如何平衡发展与安全，中国正在摸索自己的AI治理路径。南财合规科技研究院与观韬中茂律师事务所推出《中国AI治理的独立思考——生成式人工智能发展与监管白皮书》，通过分析生成式AI的发展现状、政策导向、实操中面临的风险，以及各国的监管路径，以期为未来的AI治理提供有益思路。

生成式人工智能发展一日千里，与惊喜相伴的是对其引发的安全隐患担忧。生成式AI的模型层是生成式AI得以实现的关键环节，依赖于更高质量、更丰富的训练数据集。如何判断数据收集行为以及留存的数据内容是否合规，已成为当前相关技术发展亟待解决的问题，更是大模型产品未来健康发展的关键。数据安全问题正变得越来越重要，甚至可能成为产品的“阿克琉斯之踵”。

因此，必须关注炼造大模型带来的次生问题，比如数据跨境流动中的难点与困境，再比如个人信息，尤其未成年人信息在模型训练、应用过程中的合规，这些都是生成式AI数据治理过程中需要予以特别关注。

数据跨境：多重不确定性叠加

海量数据推动大模型“涌现”功能的出现。数据从何而来？

一是各个厂商历史积累的数据，数据的具体类型和质量取决于厂商的主营业务情况；二是公开渠道爬取的数据，受限于当前各类反爬取技术和规则，此类数据获取将愈加困难；三是各类免费或付费的第三方数据库与数据集，例如GPT数据来源中全球最大的免费网页数据库Common Crawl，各类高校，以及企业科研机构所搜集和处理的开源数据集如WikiQA（微软研究院发布）、EXEQ-300K（北京大学、宾夕法尼亚大学、中山大学发布）、ArxivPapers（Facebook、伦敦大学学院、DeepMind发布）等。

可以看到，大模型数据获取过程中不可避免的涉及数据跨境问题。除此之外，数据跨境问题还可能存在于服务提供等环节。

目前，除少部分自行开发、部署模型的提服务提供者供以外，大部分服务提供者仍需倚赖第三方技术服务商搭建模型或以接入API等方式使用生成式AI服务，而这些技术方的服务器一般部署于境外。例如，一家位于中国大陆的企业，通过API接口的方式接入位于北美的生成式AI技术服务提供商，而该服务商的服务器部署于印度，此时可能面临相关数据出境所带来的风险。

除此之外，在提供生成式AI服务过程中，不仅涉及数据出境问题，还可能涉及数据入境。例如，经过境外模型处理后产生的数据通过AI交互方式返回给中国用户时，也需考虑境外国家关于数据出境的合规要求和限制。

从境内外关于生成式AI技术的法律规制来看，目前，服务提供者在应用生成式AI模型的过程中，可能会面临四方面与数据跨境相关的风险与挑战：

一是大陆地区尚未被列入核心技术供应商开放服务范围之内。

目前，如OpenAI等核心生成式AI技术提供方并未将中国大陆地区列入其服务提供对象范围，在此背景下，如果因为使用相关服务给大陆企业造成了损害后果（如数据泄漏等），企业的权利应当如何得到保障？

此外，部分企业通过自行建立或租用专线（含虚拟专用网络VPN）的方式，连接到境外的生成式AI技术模型，这一做法如未经电信主管部门批准，则涉嫌违反工信部《关于清理规范互联网网络接入服务市场的通知》的规定，违规风险极大，尤其是当企业以营利为目的专门向其他企业提供此类服务的，情节严重的情况下，还可能构成非法经营罪，将会面临刑事风险。

二是数据出境方面，情况存在不确定性。

根据《网络安全法》、《个人信息保护法》、《数据出境安全评估办法》等法律法规规定，在进行数据出境前应当履行相应的出境合规义务，例如进行事前安全评估，如涉及个人信息的，还应当进行个人信息保护认证、签署标准合同等，而由于企业使用生成式AI模型服务中涉及的数据出境情况存在不确定性，因此，在履行出境合规义务上可能存在滞后性。

目前，生成式AI模型的应用路径主要分为两种，其一，是企业将其收集的数据提供给生成式AI模型，并向其提出数据处理请求，该情形下，企业在提供数据前可以结合业务需求及合规义务要求对数据进行预处理、筛选，以限定其所提供的数据范围，从而使得相关数据出境风险处于可控范围之内。其二，是用户直接使用企业接入生成式AI模型的服务平台，这种情况下，由于用户是直接向生成式AI模型提供数据的主体，对于企业而言，用户提供哪些数据存在很大不确定性，从而触发相关的数据出境合规义务要求。而且，由于该情形下向境外提供个人信息量级的不确定性，将导致企业难以确定数据出境合规路径。

三是个人信息出境时如何告知并取得个人或其监护人的单独同意。

根据《个人信息保护法》的要求，基于个人同意向境外提供个人信息的，应当取得个人的单独同意。从目前行业实践来看，企业通常通过弹窗勾选的方式取得数据出境相关的单独同意，但是在告知方面，基于生成式AI模型的特殊性，如何在事前告知可能出境的个人信息范围，将会成为企业在履行相关告知义务时不得不面临的现实困境。

四是如何满足境外出口管制的要求。

经境外的生成式AI模型处理后产生的数据面临相关国家、地区的监管。不同于欧盟的严格限制，例如美国对于数据跨境流动的监管要宽松许多，对于数据跨境流动，美国偏向于限制政府权利，其跨境数据隐私保护策略主要靠有限的立法和行业自律。

如前所述，经境外的生成式AI模型处理后产生的数据或产品如返回给中国用户，需要考虑境外国家关于数据出境的合规要求和限制。例如，在OpenAI公布的用户协议中，亦明确规定其提供的服务受美国出口管制相关规则所约束，不得出口到任何美国禁运国家。

同时，根据美国商务部工业与安全局官网公布的禁运规则解释文本及其对应表格，中国属于清单中的D组禁运国家，主要禁运领域为“国家安全、核工业、化学与生物领域、导弹科技和其他军事领域”，虽非绝对禁运，但是，对于电子产品、电子通信、电脑、信息安全等领域相关的设备、组件、材料、软件及其相关科技向中国的出口，仍需要向美国相关部门进行报批。

值得注意的是，出口管制适用的范围不仅包括实体货物，还包括计算机软件、数据、技术等，这就意味着受《美国出口管制条例》等法律法规约束的货物相关的数据亦需遵循相应的规制。因此，对于经生成式AI模型处理后返回的数据，是否符合境外出口管制方面的合规要求，亦是企业在将来迎接监管时可能面临的挑战。

数据安全：需关注Prompt injection攻击

新技术快速发展，也需警惕其中风险。在数据成为宝贵资产的今天，海量数据的安全如何保障？与此同时，大模型的恶意使用行为如何预防？也是快速发展过程中需要关注和回应的问题。

具体来看，生成式AI需要关注并回应数据泄露、网络安全、重要数据处理等关键问题。

关于数据泄露，基于大模型强大的系统学习能力，以及交互方式上相对的自由与不受局限，导致交互过程中存在较大泄漏数据或商业秘密的风险。例如，近日，某韩国头部企业发生了三起生成式AI产品的误用与滥用案例，包括设备信息泄漏和会议内容泄漏。其中，涉及半导体设备测量资料、产品良率等内容或已被存入AI模型的学习资料库中。

为规避数据泄露风险，此前已有不少企业明确禁止员工使用生成式AI模型，包括摩根大通、德意志银行、埃森哲、富士通、软银、高盛、花旗等公司。

网络安全方面，大模型的“滥用风险”似乎是伴随着大模型兴起一直为人们紧密关注的议题，对于生成式AI模型的开发者而言，在训练模型的过程中需要思考如何有效预防用户的恶意使用行为，例如利用模型撰写编码或病毒，用于攻击网站等，从而引发网络安全风险。

同时，大模型也似乎更容易受到“提示语注入攻击(Prompt injection)”的影响。例如，给出ChatGPT能够接受的假设，引导它违反自身的编程限制，生成不合适或有害的内容。如何防止恶意使用者诱骗模型突破限制使用范围，也将成为生成式AI模型应用过程中可能面临的一大挑战。

重要数据处理方面，基于大语言模型的特性，其模型的训练和完善都有赖于大量数据的帮助，不同数据类型、数据量级的叠加，不排除构成重要数据乃至核心数据从而触发相应的合规义务。

同时，我国目前《数据安全法》等法律法规中虽然提出了“重要数据”、“核心数据”的概念，但二者的判定依据尚未明晰，这种不确定性也使得生成式AI模型应用面临的合规风险增加。

比如某企业通过某生成式AI模型堆砌数据，但当数据量增加到某一量级时已构成重要数据，此时如本身模型技术支持位于境外，企业将会面临重要数据出境相关的合规风险。

个人信息：关注收集、使用、响应等环节

当前，随着个人信息保护意识的不断加深，大模型发展过程中如何保护个人信息，成为发展过程中必需回答的问题。对于个人信息的保护，需要重点关注收集、使用、权利响应等环节，同时尤其关注儿童信息。

个人信息收集场景方面，大数据时代，生成式AI模型难以规避因收集个人信息所带来的风险，这类风险不仅可能发生在模型的训练阶段，也可能发生在模型的实际应用阶段。

在模型的训练阶段，大模型往往需要获取多元化、丰富的语料进行训练，在这个过程中，难免会采取爬虫等技术方式通过互联网等公开渠道获取大量数据，如何避免因爬取或其他手段获取公开渠道的个人信息而构成侵权等法律风险？如涉及从第三方获取的数据的，如何审核个人信息来源的合法性和个人的授权情况？这都是应当思考的问题。

例如，某生成式AI模型在训练的过程中爬取了某点评网站上关于某餐饮店的评价，但由于某用户在点评时透露了自身的个人信息，导致该部分个人信息进入到模型语料库，进而涉嫌侵犯他人个人信息权益。

在模型的实际应用阶段，如何精准识别AI与用户交互过程中所收集的个人信息，并进而履行个人信息保护相关的合规义务，也将成为生成式AI模型应用者所要面临的一大挑战。

不同于一般应用程序中填入式的收集个人信息方式，大模型由于涉及人与AI的交互，很难在事前对可能收集个人信息的场景进行完全罗列，而更近似于“客服热线”的场景，在此背景下，应当如何在事前向个人告知收集个人信息的目的、方式和范围并取得其同意，也是值得研究的问题。

个人信息使用场景上，目前，部分生成式AI产品以改善服务为由使用用户提供的内容（其中包含个人信息），但显然，仅以改善服务为由要求收集用户信息并不符合最小必要原则，本质上是对于“企业训练模型之需”与“用户享受服务之需”的混淆。目前，OpenAI已提供用户拒绝其使用个人信息进行训练的途径。

除此之外，在大模型的交互模式下，对于个人信息的披露可能不同于往常意义上的“公开披露”，而更类似于一种“被动公开”，即当某个用户的真实个人信息被摘录于语料库后，之后任意用户通过询问等方式均可以得知相关个人信息，此时由于对象为非特定自然人，相较于向特定个人“提供个人信息”，可能更接近于“公开个人信息”的范畴。

因此，对于模型开发者而言，应当慎重考虑在语料库以及训练模型的过程中是否加入真实个人信息。例如，某直销机构需要向客户公开披露直销员的联系方式等，但由于并未告知直销员，导致直销员的联系方式被其他人通过与AI的问答获取，并用于其他目的，此时企业可能会因为未事前披露使用目的而涉嫌侵犯他人个人信息权益。

个人信息权利响应场景方面，生成式AI也带来一系列难题。

在大模型下，关于个人信息权利响应的实现似乎远远没有想象中来得容易。例如，就查阅权和更正权而言，提供者应当如何确定个人信息的范围并提供给用户查阅或更正？

如前所述，模型通常存储的是交互记录，而不会在识别个人数据后将其作为单独的存储单位。就删除权而言，如果这部分数据已被用于模型训练，此时，从技术上而言难以做到完全删除，仅能通过过滤数据或者重新训练的方式以最小化这部分个人信息对模型输出可能产生的影响。

同时，如果大模型技术提供方位于境外，收集的个人信息将通过API接口传输至位于境外的主体，如何向个人告知向境外行使个人信息权利的途径，也将成为服务提供者需要面临的现实问题。

如何处理儿童个人信息，也成为生成式人工智能合规治理过程中需着重考量的因素。

在训练大模型的过程中，服务提供者需要基于自身的目的，考量是否有收集儿童个人信息的必要性。

如果业务本身并不面向或针对儿童，但如遇到医疗健康事件等小概率事件下可能会收集儿童个人信息，也应当在隐私政策等个人信息声明中告知并获得有效同意。

如不存在收集任何儿童个人信息的必要性，则应从技术和制度角度防止误收儿童个人信息。例如，某10岁的儿童通过网站的广告页面进入了某生成式AI模型服务提供页面，并输入了自身的姓名等个人信息，此时，由于系统无法准确识别使用者的年龄，在无形中收集了该名儿童的个人信息。目前，如OpenAI也已经关注到此类问题，但可能出于对现有技术判别年龄的有效性等考量，其并未采取进一步动作。