AI也要被管起来了
时间:2023-04-20  浏览次数:663

  2023年春季,ChatGPT无疑是整个互联网世界的“顶流”,其惊人的语言对话能力给AI领域带来的冲击更甚于七年前与世界冠军李世石对战围棋的AlphaGo。3月下旬,OpenAI宣布ChatGPT接入第三方插件,这意味着它开始从聊天机器人蜕变成开发者平台。国外的AI技术不断迭代,国内各大巨头虽有布局,却仍有差距。同时,热度之外,ChatGPT也因其安全隐患遭多方禁用,人们对新技术的狂热追逐还未退潮,对AI可能引发的各种风险的担忧却持续升级。

  短短几天,就吸引了超过100万用户注册,仅仅过了2个月,月活跃用户就已经过亿,打破了此前Tik Tok用九个月时间将用户数累计到1亿的速度。

  互联网上对ChatGPT的讨论热火朝天。无论是传统的NLP(自然语言处理)任务,如抽取、分类,还是写代码、作诗等,ChatGPT都可以通过多轮对话的方式给出流畅的结果。

  热烈的讨论声中,很多人惊呼:“《流浪地球2》里那个不断自我学习,最终演化出自主思维的‘MOSS’,或许离我们已经不远。”

  人工智能现有的基本模型是以逻辑推理为核心的符号主义AI、以数据驱动为核心的连接主义AI(深度学习)、以反馈控制为核心的行为主义AI(强化学习)。而Chat-GPT正是对现有人工智能方法和技术的创新性整合。

  在“数据是燃料、模型是引擎、算力是加速器”的驱动下,以深度学习为核心的人工智能正犹如水和电一样赋能人类社会。

  ChatGPT恰如其分地体现了“数据、模型和算力”的特点:ChatGPT的训练使用了45TB的数据、近1万亿个单词(大概是1351万本牛津词典所包含的单词数量);使用了深度神经网络、自监督学习、强化学习和提示学习等人工智能模型。

  训练ChatGPT所耗费的算力大概是3640 PetaFLOPs/天,即用每秒能够运算1000万亿次的算力对模型进行训练,需要3640天才能完成。

  在大数据、大模型和大算力的工程性结合下,ChatGPT展现出强大的统计关联能力,可洞悉海量数据中单词-单词、句子-句子等之间的关联性,体现了语言对话的能力。

  因此,在不少计算机领域业内人士看来,ChatGPT的横空出世,给AI领域带来的冲击,更甚于七年前的AlphaGo战胜围棋世界冠军、职业九段棋手李世石的那场围棋人机大战。

  首先,此阶段的ChatGPT本质上更像是一个基于语义模型和预训练的聊天机器人,功能比较单一。

  其次,其数据库只更新至2021年9月,它所具备的参数和数据都是过去的数据,这些数据难以被更新,意味着我们无法通过它获得新闻或最新的数据。

  这也是为什么一旦用户提出的问题涉及到该时间点以后的内容,ChatGPT不是回复“不支持”,就是直接向用户返回编造的错误信息。

  第三,ChatGPT并不具备“记忆功能”和“理解功能”,这意味着你先前所询问的一些问题,GPT无法记住,当你重复询问同样一个问题,会获得截然不同的甚至是随机的答案,因为它不“理解”你的问题。

  最后,ChatGPT会生成甚至伪造许多的参考文献、不存在的网址或者生成大量“不负责任”甚至极其随机的回答。

  比如,随着全球的用户参与训练,很多种族主义的词汇或者是一些奇怪的异国概念进入数据库中,当这些对话被作为参数参与训练AI很可能得到完全无法理解的结果。

  当地时间3月23日,OpenAI宣布ChatGPT能够支持第三方插件接入,这些插件是专门为“以安全为核心原则的语言模型设计的工具”,可帮助ChatGPT访问最新信息、运行计算或使用第三方服务。

  首先是OpenAI自己提供的一个网络浏览器和一个代码解释器,前者允许ChatGPT从互联网访问信息,后者对于解决数学问题、数据分析、可视化和文件格式转换很有用,可使ChatGPT能够使用Python并在沙盒环境中处理上传和下载任务。

  ChatGPT直接从互联网上实时获取内容之后,在体验上已经与微软的New Bing不相上下。

  除了联网,这些插件使得ChatGPT能连接到第三方应用程序,之后ChatGPT便能够与开发人员定义的 API进行交互,从而增强 ChatGPT 的功能并允许其执行范围广泛的操作:

  举例来看,上述名单中,Wolfram开发的Wolfram Alpha是一套十分强大的科学问答系统,其数据来自各大学术网站、出版刊物与科学机构,用户可以从ChatGPT中选择并安装Wolfram插件,从而提高其计算智能。

  Open Table插件允许聊天机器人搜索可预订餐厅;Instacart插件允许ChatGPT在本地商店购物;Zapier可以与谷歌表格、Trello和Gmail等应用程序连接,适用于办公场景。

  为了促进新插件的创建,OpenAI已经开源了知识库检索插件的代码,开发者可以在其中创建并分享自己的插件,以造福用户。

  如果说ChatGPT是人工智能的iPhone时刻,那么加入了第三方插件,就是ChatGPT的App Store时刻了。

  这使得ChatGPT不再只是一个聊天机器人,而成为一个开发者平台,从而进一步巩固其主导地位。

  在商业层面,先前单纯的AI聊天机器人其实并没有太大的盈利想象空间,毕竟如今大众对于ChatGPT的热衷主要是新鲜感在驱动,单纯靠ChatGPT Plus这一付费订阅无法负担其惊人的算力成本。

  但当ChatGPT实现接入第三方插件之后,相当于是Chrome有了Chrome应用商店,从而有了更广阔的盈利空间。

  目前,OpenAI优先考虑少数开发者以及ChatGPT Plus的付费用户能够使用测试版插件,未来会更大规模地向更多用户开放。

  值得注意的是,ChatGPT的联网可能也会带来一些风险:联网之后它可能会执行恶意指令,例如发送欺诈性和垃圾邮件、绕过安全限制误导用户或滥用他人信息。

  不过OpenAI表示,已经在内部和外部实施多项保障措施以防止上述情况发生。他们仍在不断学习,希望能打造出既有用又安全的AI。

  当ChatGPT横扫中国舆论场时,国人无比期盼自己人能开发出同类产品,并与之同台竞技。而过去10年在AI领域投入超过1100亿元研发费用的百度,自然成为被关注的对象。

  3月16日下午,百度开启新一代大语言模型、生成式AI产品文心一言测试,从而成为第一家加入该赛道竞争的中国企业。

  在发布会现场,百度创始人、董事长兼首席执行官李彦宏通过问答的形式,展示了文心一言在文学创作、商业文案创作、数理推算、中文理解、多模态生成等五个使用场景。

  除了百度推出中国版ChatGPT,腾讯、阿里、华为、京东等巨头都有布局大模型的研发,而且也有相应的产品推出。

  今年3月22日,腾讯科技发布2022年年度报告,表示在AI大模型(预训练大模型)领域,腾讯混元AI大模型覆盖NLP(自然语言处理)、CV(计算机视觉)、多模态等基础模型和众多行业与领域模型,未来腾讯将继续投入大模型技术以促进产品创新及运营效率。

  同年11月,阿里推出AI开源社区“魔搭”(ModelScope),旨在打造下一代开源的模型即服务共享平台,致力降低AI应用门槛。

  2023年3月,阿里在“魔搭”上线了“文本到视频生成扩散模型”,只需要在该模型中输入文本,即可返回符合文本描述的视频,并且该模型能够基于文本描述进行推理,。

  据悉,华为在2020年就开始布局大模型,2021年4月的华为开发者大会2021(Cloud)上,华为云便发布了盘古系列超大规模预训练模型,其中鹏城盘古大模型是业界当时首个千亿级生成和理解中文自然语言处理大模型。

  在产业化方面,华为已发起了智能遥感开源生态联合体、多模态人工智能产业联合体,智能流体力学产业联合体等。

  2月10日,京东云旗下言犀人工智能应用平台宣布将整合过往产业实践和技术积累,推出产业版ChatGPT:ChatJD,其参数量预计为千亿级别,并公布了ChatJD的落地应用路线”计划包含一个平台、两个领域(零售和金融)、五个应用(内容生成、人机对话、用户意图理解、信息抽取、情感分类)。

  国内大厂纷纷官宣各自国产版ChatGPT的规划及进度,人工智能产业的发展看起来一片繁荣,但我们不得不承认的是:迄今为止,国内尚未有任何一家公司或者科研机构能够做出与ChatGPT同等效果的成果。

  俗话说,万事开头难。从乐观的角度看,国内GPT百家争鸣的现状总还是一个好兆头,这预示着一个正在进步的人工智能市场。只有不断优化产品和完善技术,推进行业内的合作和交流,才能够推动人工智能技术的发展和普及,更好地满足用户的需求和创新。

  前不久,据SBS等韩媒报道:三星刚引入ChatGPT还不到20天,就发生了3起机密数据泄漏事件,涉及三星半导体设备测量资料、产品良率等信息。

  然而,随着ChatGPT进入各个企业的步伐加速,越来越多员工认为技术需要迭代变化,加之半导体本身就是构建“生成式AI”的核心要素,于是三星决定:3月11日起,半导体设备解决方案(DS)部门可开始使用ChatGPT。

  一般来说,企业在引入新技术时,都会对员工进行相关的培训和教育,让员工了解新技术的使用方法和注意事项,避免因为员工的不当操作而导致机密泄漏等安全问题。所以,三星向员工发出了提醒:“注意公司内部信息安全,不要输入私人内容。”

  但现实是,三星刚允许员工使用ChatGPT不到20天,已掌握到的数据泄露事件就有3起——2起设备信息泄露和1起会议内容泄露。

  此外,Cyberhaven的一项统计结果告诉我们,ChatGPT提高工作效率是真的,但它会把对话内容作为训练数据也是线%的员工在工作场所使用过它——许多人称,因为使用 ChatGPT,他们的工作效率“提高了10倍”。同时,有6.5%的员工表示会将公司数据复制到ChatGPT中,更有3.1%的员工表示曾将公司的机密数据放入ChatGPT。

  除了上文的三星,还有摩根大通、美国银行、花旗集团、高盛、德意志银行等。近期,软银也向全体员工通报了禁止向Chat-GPT输入机密信息等注意事项。

  3月20日,多名ChatGPT用户表示在自己的历史对话中看到了他人的对话记录。还有不少ChatGPT Plus用户在Reddit和Twitter等平台发出截图,表示在他们的订阅页面上看到了其他人的电子邮件地址。

  3月25日,OpenAI发布声明承认,由于开源代码库中存在一个漏洞,部分用户能够看到另一个用户的聊天标题记录,此前已将ChatGPT短暂下线并紧急修补此漏洞。

  此外,OpenAI表示,在特定的9小时窗口期内,1.2%的付费版用户的个人支付信息可能被泄露。部分用户可能会看到另一名活跃用户的姓名、电邮、支付地址、信用卡后4码、信用卡到期时间等信息。

  为此,意大利个人数据保护局(DPA)以“非法收集个人资料;未成年人年龄核实系统缺失”之名宣布禁用ChatGPT。DPA声称,对ChatGPT可能侵犯隐私以及未能按要求验证用户年龄为13岁或以上表示担忧,并将开始立案调查。

  海量数据的积累确实可以带来人工智能的生产力质变,同时,从互联网诞生起就始终萦绕左右的数据安全、隐私保护等问题,也成为了人工智能大模型无法回避的伴生难题。

  如何确保数据授权、界定数据安全的责任与科技公司的义务,规避隐私泄露、知识产权等风险,这些都将是人工智能在大规模介入公共领域后,必须首先解决的问题。




上一篇:在全社会开展党史、新中国史、改革开放史、社会主义发展史宣传教育   下一篇:2023年首次!日全环食将于20日上演:中国局地可观赏