新智元报说念
剪辑:Aeneas 好困
【新智元导读】2026 年的数据荒越来越近,硅谷大厂们曾经为 AI 西宾数据抢疯了!它们纷纷豪掷十数亿好意思元,但愿把犄角旮旯里的相片、视频、聊天记载都给挖出来。不外,若是有一天 AI 忽然吐出了咱们的自拍照或者苦衷聊天,该奈何办?
谁能猜度,咱们多年前的聊天记载、支吾媒体上的陈年相片,忽然变得连城之价,被大科技公司争相疯抢。
当今,硅谷大厂们曾经纷纷移动,买下所有能购买版权的互联网数据,这架势简直要抢破头了!
图像托管网站 Photobucket 的陈年旧数据,底本曾经多年无东说念主问津,但如今,它们正在被各大互联网公司疯抢,用来西宾 AI 模子。
为此,科技巨头们知足拿出实打实的真金白银。比如,每张相片价值 5 好意思分到 1 好意思元,每个视频价值超过 1 好意思元,具体情况取决于买家和素材种类。
总之,为了购买 AI 西宾数据,巨头们曾经伸开了一场所下竞赛!
而最近闹得重振旗饱读的 Meta 图像生成器大翻车事件,更是让 AI 的西宾数据「刻板印象」庐山真面。
若是喂给模子的数据无法调动「偏见」,那各大公司要际遇的公论风云,或许少不了。
Meta 的 AI 生图器具画不出来「亚洲男性和白东说念主配头」或「亚洲女性和白东说念主丈夫」
巨头狂砸数十亿好意思元,只为买到数据「黄金」凭据路透社报说念,在 2000 年代,Photobucket 处于巅峰期,领有 7000 万用户。而今天,这家顶级网站的用户曾经骤降到了 200 万东说念主。
但生成式 AI,给这家公司带来了新生。
CEO Ted Leonard 昂扬性披露,现时曾经有多家科技公司找上门来,知足重金购买公司的 130 亿份相片和视频。
主张,天然就是西宾 AI。
为超过到这些数据,各大公司都终点舍得割肉。
而且,他们还想要更多!传说,一位买家默示,我方想要超过 10 亿个视频,而这,曾经远远超出了 Photobucket 能提供的数目。
据约略测度,Photobucket 手中持着的数据,很可能价值数十亿好意思元。
OpenAI 陷告状风云,版权太敏锐了当今眼看着,环球的数据都不够用了。
凭据 Epoch 议论所的分析,到 2026 年,科技公司很可能会耗尽互联网上所有的高质地数据,因为他们耗尽数据的速率,远远超过了数据的生成速率!
西宾 ChatGPT 的数据,是从互联网上免费抓取的。Sora 的西宾数据开端省略,CTO Murati 领受采访时支放纵吾的发扬,险些又让 OpenAI 大翻车。
诚然 OpenAI 默示,我方的作念法澈底正当,但前列还有一堆版权诉讼在等着他们。而其他大科技公司都随着学乖了,环球都在偷偷地为付费墙和登录屏幕背后的锁定推行付费。
如今,不管是古老的聊天记载,照旧被渐忘的支吾媒体上袪除的旧相片,忽然都变成了连城之价的东西。而各大公司曾经纷纷移动,急于寻找版权所有者的授权。毕竟,私东说念主储藏的东西,是无法抓取的。
外媒记者走访了 30 多名专科东说念主士,发现这背后荫藏的,是一个黄金市集。
诚然许多公司对于这个不透明的 AI 市集限制默示默默,但 Business Research Insights 等议论东说念主员以为,现时市集限制约为 25 亿好意思元,并揣度十年内可能会增长近 300 亿好意思元。
生成数据淘金热,让数据商乐着花对科技公司来说,若是不成使用免费抓取的网页数据档案,比如 Common Crawl,那本钱会是一个很可怕的数字。
然而一连串版权诉讼和监管激越,曾经让他们别无采用。致使,硅谷曾经出现了一个新兴的行业 —— 数据牙东说念主。而图片、视频供应商们,也随之赚得盆满钵满。
手快的公司,早就反映过来了。ChatGPT 在 2022 年底亮相的几个月内,Meta、谷歌、亚马逊和苹果就曾经飞速和图片库提供商 Shutterstock 完了公约,使用库中的数亿份图像、视频和音乐文献进行西宾。
凭据首席财务官披露的数据,这些来回从 2500 万好意思元到 5000 万好意思元不等。
而 Shutterstock 的竞争敌手 Freepik,曾经经有了两位大买家,2 亿张图片档案中的大部分,会以 2 至 4 好意思分的价钱授权。
OpenAI 天然也不会过时,它不仅是 Shutterstock 的早期客户,还与包括好意思联社在内的至少四家新闻机构签署了许可公约。
让推行「适应说念德」
同期兴起的,还有 AI 数据定制行业。
这批公司取得了与播客、短视频和与数字助理互动等现实宇宙推行的授权,同期还诞生了短期合同工集中,重新运行定制视觉抵制和语音样本。
当作代表之一的 Defined.ai,曾经把我方的推行卖给了谷歌、Meta、苹果、亚马逊、微软等多家科技大厂。
其中,一张图片卖 1 到 2 好意思元,一部短视频卖 2 到 4 好意思元,一部长片每小时不错卖到 100 到 300 好意思元,文本的市价则是每字 0.001 好意思元。
而比较迂回的赤身图像,售价为 5 到 7 好意思元,因为还需要后期处理。
而这些相片、播客和医疗数据的所有者,也会取得总来回额 20% 至 30% 的用度。
一位巴西数据商默示,为了取得罪人现场、打破暴力和手术的图像,他需要从考察、解放影相记者和医学新手里去买。
他补充说,他的公司雇用了风俗于看到暴力伤害的照拂来脱敏和标注这些图像,这对未经西宾的眼睛来说是令东说念主不安的。
而将图像脱敏、标注的职责,则交给惯于看到暴力伤害的照拂,毕竟未经西宾的东说念主眼看到这些图像,会很不安。
关系词,这些 AI 模子的「燃料」,很可能会激勉严重的问题,比如 —— 吐出用户苦衷。
大众发现裸舞 推特,AI 会反刍西宾数据,比如,它们会吐出 Getty Images 水印,逐字输出纽约时报著作的段落,致使再现真东说念主图像。
Getty Images 申斥 Stability AI「以惊东说念主的限制明火执仗地侵略它的常识产权」
也就是说,几十年前某东说念主发布的私东说念主相片或玄机想法,很可能在不知情的情况下,被 AI 模子原样吐了出来!
此次「ChatGPT 在回报中流露生分男人自拍照事件」,让环球颇为心焦
这些隐患,现时还莫得有用程序处理。
旁观骄慢,用户知足每月多付 1 好意思元,让我方的个东说念主数据不被第三方使用
Altman,也看上了合成数据
另外,Sam Altman 也早看到了合成数据的往常。
这些数据不是东说念主类径直创造的,而是由 AI 模子生成的文本、图像和代码,也就是说,这些系统通过学习我方产生的推行来逾越。
既然 AI 能创造出接近东说念主类的文本,天然也就能自产自销,帮我方进化成更先进的版块。
只好咱们能够跨过合成数据的枢纽阈值,即让模子能够自主创造出高质地的合成数据,那么一切问题都将应刃而解。
——Sam Altman
不外,这件事真实这样容易吗?
东说念主工智能议论者们曾经议论合成数据多年,但要构建一个能自我西宾的东说念主工智能系统并非易事。
大众发现,模子若是只依赖于自我生成的数据,可能会不断重迭我方的失实和局限,堕入一个自我加强的轮回中。
这些系统所需的数据,就像是在森林中寻找一条旅途,若是它们只是依赖于合成数据,就可能在森林里迷途。
—— 前 OpenAI 议论员、现任不列颠哥伦比亚大学贪图机科学讲授 Jeff Clune
对此,OpenAI 正在探索怎样让两个不同的东说念主工智能模子合作,共同生成更高质地、更可靠的合成数据。其中一个庄新生成数据,另一个则庄重评估。
这种程序是否有用,还未可知。
「限制」Is All You Need数据为什么对 AI 模子这样蹙迫?这要从底下这篇论文提及。
2020 年 1 月,约翰斯・霍普金斯大学的表面物理学家 Jared Kaplan 与 9 位 OpenAI 议论东说念主员共同发表了一篇具有里程碑真谛的东说念主工智能论文。
他们得出了一个明确的论断:西宾大讲话模子所用的数据越多,其性能就越好。
正如一个学生通过阅读更多竹帛能学到更多常识一样,大讲话模子能通过更多的信息更精准地识别文本模式。
很快,「只好限制富余大,一切就齐有可能」便成为了 AI 边界的共鸣。
论文地址:https://arxiv.org/ abs / 2001.083612020 年 11 月,OpenAI 推出的 GPT-3,便愚弄了其时最为雄壮的数据进行西宾 —— 约 3000 亿个 token。
在给与了这些数据后,GPT-3 展现出了惊东说念主的文本生成才能 —— 它不仅不错撰写博客著作、诗歌,致使还能编写我方的贪图机程序。
但如今看来,这个数据集的限制就显得相称小了。
到了 2022 年,DeepMind 将西宾数据径直拉到了 1.4 万亿个 token,比 Kaplan 博士在论文中揣度的还要多。
关系词,这一记载并未保持太久。
2023 年,谷歌发布的 PaLM 2,在西宾 token 上更是达到了 3.6 万亿 —— 简直是牛津大学博德利藏书楼自 1602 年以来采集手稿数目的两倍。
为训 GPT-4,OpenAI 白嫖 100 万 + 小时 YouTube 视频但正如 OpenAI 的 CEO Sam Altman 所说,AI 终究会耗尽完互联网上所有可用的数据资源。
这不是预言,也不是耸东说念主听闻 —— 因为 Altman 本东说念主就曾亲眼目睹过它的发生。
在 OpenAI,议论团队多年来一直在采集、计帐数据,并将其汇集成巨大的文本库,用以西宾公司的讲话模子。
他们从 GitHub 这个贪图机代码库中提真金不怕火信息,采集了海外象棋走法的数据库,并愚弄 Quizlet 网站上对于高中锤真金不怕火和功课的数据。
关系词,到了 2021 年底,这些数据资源曾经耗尽。
欧美人体艺术为了下一代 AI 模子的开辟,总裁 Brockman 决定躬行披挂上阵。在他的提示下,团队开辟出了一款全新名的语音识别器具 Whisper,不错快速准确地转录播客、有声读物和视频。
有了 Whisper 之后,OpenAI 很快便转录了超过 100 万小时的 YouTube 视频,而 Brockman 更是躬行参与到了采集职责当中。
最终的故事环球都知说念了,在如斯高质地数据的加持下,地表最强的 GPT-4 横空出世。
谷歌:我也一样兴趣兴趣的是,谷歌其实早就知说念 OpenAI 在愚弄 YouTube 视频采集数据,但从未想过要出头抨击。
你猜的没错,谷歌也在愚弄 YouTube 视频来西宾自家的 AI 模子。
而若是要对 OpenAI 的活动大加申斥,他们不仅会露馅我方,致使还会激勉公众愈加激烈的反映。
不仅如斯,那些储存在 Google Docs、Google Sheets 等应用里的数十亿翰墨数据,亦然谷歌的指标。
2023 年 6 月,谷歌的法律部门要求苦衷团队修改管事条件,从而膨胀公司抵消费者数据的使用权限。
也就是,为公司能够愚弄用户公开共享的推行开辟一系列的 AI 居品,铺平说念路。
据职工披露,他们被明确指引要在 7 月发布新的条件,因为那时环球的防御力都在行将到来的假期上。
7 月 1 日发布的新条件不仅允许谷歌使用这些数据开辟讲话模子,还能用于创建像 Google Translate、Bard 和 Cloud AI 等等闲的 AI 技能和居品Meta 数据不及,高管被动天天开会相同在追逐 OpenAI 的,还有 Meta。
为了能够超越 ChatGPT,小扎不分日夜地催促公司的高管和工程师加速开辟一个能与之竞争的聊天机器东说念主。
关系词,到了旧年年头,Meta 也遇到了和其他竞争者一样的难题 —— 数据不及。
尽管 Meta 掌管着雄壮的支吾集中资源,但不仅用户莫得保留帖子的风俗(许多东说念主会删除我方之前的发布),而且 Facebook 毕竟也不是一个环球风俗发高质地长文的地点。
此前,小扎曾自重宣称 Meta Platforms 的看望数据,是 Meta AI 的一大上风生成式 AI 副总裁 Ahmad Al-Dahle 向高层披露,为了开辟出一个模子,他的团队简直愚弄了集中上所有可找到的英文竹帛、论文、诗歌和新闻著作。
但这些还远远不够。
2023 年 3 月到 4 月,公司的商务发展庄重东说念主、工程师和讼师简直每天都在密连结议,试图找到处理决议。
他们研讨了为获取新书的无缺版权支付每本 10 好意思元的可能性,并贪图了收购出书了斯蒂芬・金等作者作品的 Simon & Schuster 的想法。
与此同期,他们还贪图了未经允许就对集中上的竹帛、论文等作品进行摘记的作念法,并研讨进一步「给与」更多推行,哪怕这可能招致法律诉讼。
好在,当作行业标杆的 OpenAI,就在未经授权的情况下使用了版权材料,而 Meta 粗略不错参考这一「市集前例」。
凭据灌音,Meta 的高管们决定鉴戒 2015 年作者协会(Authors Guild)对谷歌的法庭判决。
在阿谁案例中,谷歌被允许扫描、数字化并在在线数据库中编目竹帛,因为它仅在线上复制了作品的一小部分,何况调动了原作,这被认定为合理使用。
在会议中,Meta 的讼师们默示,用数据西宾东说念主工智能系统应当相同被视为合理使用。
但即便如斯,Meta 似乎照旧没攒足数据……
AI 生图器具拒却「白东说念主和亚洲东说念主」合影最近,外媒 The Verge 的记者在屡次尝试后发现,Meta 的 AI 图像生成器具并不成创建一张东亚男性和白东说念主女性同框的图片。
不管 prompt 是「亚洲男性与白东说念主一又友」、「亚洲男性与白东说念主配头」、「亚洲女性与白东说念主丈夫」,照旧历程魔改的「一位亚洲男性和一位白东说念主女性带着狗含笑」,都无济于事。
当他将「白东说念主」改为「高加索东说念主」时,抵制依旧如斯。
比如「亚洲男性和高加索女性的婚典日」这个 prompt,得到的却是一张身穿西装的亚洲男性与身着旗袍 / 和服混搭的亚洲女性的图像……
AI 竟然难以设想亚洲东说念主与白东说念主并列而立的场景,这确凿有些匪夷所想。
而且,在生成的推行中,还荫藏着愈加机要的偏见。
举个例子,Meta 老是将「亚洲女性」情势成东亚神情,似乎忽略了印度当作宇宙上东说念主口最多国度的事实。与此同期,「亚洲男性」多为年父老,而亚洲女性却老是年青化。
比较之下,OpenAI 加持的 DALL-E 3,就澈底莫得这个问题。
对此,有网友指出,出现这个问题的原因是 Meta 在模子西宾时莫得输入富余多的场景示例。
简而言之,问题不在于代码自身,而在于模子西宾时所使用的数据集不够丰富,莫得充分遮掩所有可能的场景。
但更深档次的是,AI 的活动是其创造者偏见的体现。
在好意思国媒体中,「亚洲东说念主」时时就是指东亚东说念主,不符合这一单一形象的亚洲东说念主简直从文化坚决中被抹去,即即是符合的东说念主也在主流媒体中被旯旮化。
而这,只是因数据形成的 AI 偏见的一隅费力。
参考贵寓:
https://www.reuters.com/technology/inside-big-techs-underground-race-buy-ai-training-data-2024-04-05/
https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html
https://www.theverge.com/2024/4/3/24120029/instagram-meta-ai-sticker-generator-asian-people-racism
本文来自微信公众号:新智元 (ID:AI_era)
告白声明:文内含有的对外跳转联贯(包括不限于超联贯、二维码、口令等体式)裸舞 推特,用于传递更多信息,自便甄选时刻,抵制仅供参考,IT之家所有著作均包含本声明。