黄胖系列 给AI当「奶妈」,是海角们的生路吗?

发布日期:2024-10-05 05:48    点击次数:201

黄胖系列 给AI当「奶妈」,是海角们的生路吗?

老牌汉文社区海角依然住进“ICU”整整一年,收歇看来依然注定,但最近一家好意思国同业搭上AI 快车的音问,又给海角带来了一点但愿。

昨年4月,因拖缴数据机房用度,海角社区遭“断网”。

关键在缺钱。海角社区称,危机来自于近几年资金流动性费力加重,电信IDC欠费,导致海角社区暂停拜谒。

再听到海角的音问,是在本年2月底,宇宙企业收歇重整案件信息网上公开一条“海角社区网罗科技股份有限公司被央求收歇审查”的信息。

尽管海角方面否定行将收歇的别传,但海角重睹天日的可能性,到底是愈加苍茫了。

在好意思国,一家式微的老牌本色平台,却依靠AI的波澜找到了副业,吃下了热钱——第三方图片托管平台Photobucket,一度领有7000万用户,占据好意思国在线相片商场的近一半份额。如今,Photobucket光辉不再,唯有约200万东说念主还在使用它。

正所谓“瘦死的骆驼比马大”,依然被大部分东说念主淡忘的Photobucket有之前多年的荟萃,依然坐拥上百亿相片和视频。而这,恰是患上“数据饥渴症”的AI公司最需要的。

在AI高潮下,不停有公司找上门来。以正在进行的谈判来大略揣度,Photobucket手里掌执的本色可能价值数十亿好意思元。

有钱但缺数据的AI公司,遇上没钱但荟萃了海量本色的老牌社区,不往返一下才奇怪。

有敬爱敬爱的是,报说念中有一句话在后续裁剪中被删除:“公司预测,其*季度营业陆润将增长10倍,达到近49亿好意思元。”

49亿好意思元是什么见识?

Photobucket看成一家图片托管网站,刚启动是免费的。在千禧年前后,互联网用户激增,东说念主们或为了记载生涯,或为了共享,乐于将相片上传到一个专诚的网站。而况,在Photobucket上传了图片后,东说念主们还不错在其他网站如MySpace奏凯镶嵌,省得反复上传。一些卖家也会在eBay或亚马逊使用Photobucket托管的图片。

用这种时势,*时期的Photobucket一度占据了好意思国互联网流量的2%。

由免费转向付费,似乎是Photobucket的必经之路。不外,Photobucket有点太心急了。2017年时,Photobucket瞬息将第三方炫耀变为每年399好意思元的付费订阅就业。此举并莫得提前的充分预警,好多用户发现我方在其他网站镶嵌的Photobucket图片王人无法展示,变成了“付费以解锁”的领导。

要知说念,Photobucket那时依然有1亿注册用户,有约6000万第三方网站的图片在这次“升级”下无法时常炫耀。在争议之下,Photobucket次年将年订阅模式改为可月付的模式,并沿用于今。

Photobucket也就此走高下坡路。后续几年,Photpbucket又资历了就业中心断电导致就业中断、秘密表示等“无意”,冉冉从备受接待的图片网站变成了互联网边角料居品。公司范畴也从繁盛时期的120名职工缩水到了40东说念主。

目下Photobucket网站提供的付费运筹帷幄中,最贵的每月收取8好意思元。以最新报说念暴露的200万用户在使用Photobucket计算,哪怕他们通盘月付8好意思元,每年也仅能孝顺1.9亿好意思元。而况这对Photobucket来说仅仅收入,莫得剔除存储、惊奇、运营等的各项老本。

天然Photobucket在畴前二十年亏本了不少用户,但除非用户刊出,它一直保留着用户的图片。即就是在不再守旧免费账户的情况下,Photobucket也明确示知用户:你的相片还在,只需要目下启动付费,就能从头看到它们。

不停有依然弃用Photobucket的用户在外交媒体上吐槽,称我方经常收到Photobucket“求复合”的邮件,依然不胜其扰。

既然图片王人在黄胖系列,海量的本色还存储在就业器上,为什么不必它们赚上一笔?将平台本色授权给AI公司,赢得49亿好意思元,对Photobucket来说不错算是一笔巨款了。

为什么AI公司会找上“时过境迁”Photobucket?

谜底很浅薄,太缺数据了。以OpenAI的GPT系列模子为例,GPT-3使用了3000亿的token,GPT-4使用了12万亿的token。辛苦经在路上的GPT-5所需的token量在60万亿到100万亿。

“范畴即一切”成为AI的斗争标语。霍普金斯大学卢纶物理学家贾里德·卡普兰(Jared Kaplan)在2020年发表了一篇对于AI的始创性论文,其标明试验数据越多,大型说话模子的发达越好,就像学生通过阅读更多书原来学习更多常识不异。

互联网上公开可用的数据在大模子眼前并不是无穷无穷的。据东说念主工智能议论机构Epoch揣度,2026年通盘高质地可用数据就有可能被耗尽,互联网分娩数据的速率有可能比不上不停扩张的大模子的阔绰速率。

“数据饥渴”的AI公司获取数据的旅途,归来起来就是:免费的,奏凯用;自家的,奏凯用且不给别东说念主用;不错付费的,付费;付费也买不到的,必要时念念念念目的弄奏凯。

近日,《纽约时报》报说念OpenAI曾在试验GPT-4时哄骗了谷歌旗下YouTube的本色。奏凯取用服气不成,谷歌不让啊。于是OpenAI无意应变,创建了一个名为Whisper的语音识别用具,将普及100万小时的YouTube视频转录,然后再喂给模子。

此前,尚未绽开给公共的文本到视频用具Sora也引起了外界怀疑。在一次采访中,OpenAI的首席工夫官米拉·穆拉蒂(Mira Murati)莫得正面恢复“是否使用YouTube、Instagram、Facebook等平台的本色试验Sora”这一问题,她听到该问题时复杂的色彩以致成为了互联网梗图。

YouTube首席施行官尼尔·莫汉(Neal Mohan)在4月5日对此表态,称目下莫得笔据标明OpenAI用了YouTube视频试验Sora,但如若OpenAI真是这样作念了,那“彰着违犯”了YouTube平台的使用条件。

要所以为YouTube是在致力于保护用户(或说创作家),可能有点机动。莫汉在采访中也提到,谷歌确乎用了YouTube上的一些本色试验了旗下大模子Gemini。

另一边,巨头Meta的马克·扎克伯格(Mark Zuckerberg)也将平台数据视为我方的竞争上风。扎克伯格曾直言:“咱们战术的下一个要津部分是从独到的数据中学习。”“在Facebook和Instagram上,稀奇千亿张公开共享的图片和数百亿段公开视频。”

在昨年怒喷微软,威逼要告状其使用X的数据试验AI的埃隆·马斯克(Elon Musk),也悄悄更新了X的秘密战略,示意会使用外交媒体数据来试验机器学习和AI模子。在网友的追问下,马斯克干脆承认:“只会用公开信息(试验),不会用私信和任何私东说念主数据。”

有海量UGC(用户生成本色)且我方也作念AI的公司,数据是不卖的,只给我方用。其他AI公司要么就铤而走险暗暗用,要么就要去找那些有本色但快意出售的公司。

ShutterStock和Reddit王人是活跃在数据往返场上的“大卖家”。

伦理片a在线线2

图片网站ShutterStock着实和通盘叫得上名字的AI大公司王人配合了个遍,包括但不限于OpenAI、Meta、谷歌、亚马逊,罢了使用其图片试验AI的条约。每笔往返的率先价钱从2000万好意思元到5000万好意思元不等,而况后续还扩大了往返范畴。

跟着AI波澜翻涌,“好意思国贴吧”Reddit意志到我方的数据对AI公司至关紧迫,且终点可贵。昨年启动,Reddit启动与一系列AIGC领军企业伸开谈判,决议数据付费使用的问题。说白了就是,不付费要授权,休念念用这一头部好意思国贴吧的本色喂AI了。谈判连接有了进展,如本年2月,Reddit就与谷歌罢了条约,授权数据给其试验AI,合同价值约每年6000万好意思元。

在这样的态势下,Photobucket这样的老牌社区被盯上仅仅时分问题。

Photobucket的首席施行官泰德·伦纳德(Ted Leonard)示意,他正在和多家科技公司谈判,触及130亿个本色(相片和视频)的授权。每张相片的授权价钱在5好意思分到1好意思元,视频则为1好意思元以上。

一位买家告诉伦纳德,他们念念要普及10亿个视频,比Photobucket领有的还多。以目下的谈判来看,Photobucket坐拥数十亿好意思元的本色。

机智的Photoshop在昨年10月更新了其用户条件,授予平台“不受为止的权益”,不错出售任何上传的本色,用于培训AI系统。

伦纳德以致示意,有望用数据授权替代公司的告白销售业务。

笨重的数据往返商场,也许给式微以致依然物化的UGC平台提供了一个“副业”。

海角究竟荟萃了几许本色不可知,几个数据不错从侧面一窥其范畴。*时期,海角的日拜谒量曾达到2000万。

在汉文社区的黄金期间,流行着“全民话题,海角制造”的说法。繁密初代网红出身于这里,如芙蓉姐姐、*小月月、厉害哥等。繁密畅销书孵化于此处,如《鬼吹灯》《明朝那些事儿》《东北旧事:黑说念风浪二十年》《法医秦明》等等。

汉文论坛对AI试验的用处也正在被关怀。

一项议论炫耀,百度贴吧的“弱智吧”显现出不俗的数据试验成果。

这项议论由中科院深圳先进工夫议论院、中科院自动化议论所、滑铁卢大学等繁密高校、议论机构调和完成,提议了一个高质地的汉文辅导优化数据集。议论顶用汉文辅导优化数据集试验了不同类型和大小的模子,探讨了多样数据源对模子性能的影响。在测试中,百度贴吧“弱智吧”的得分颇高。

“弱智吧”纠合了300个成员,并不是真的和智力拦阻干系,而是“假装弱智”,发表一些烧脑言论。如“如若高中的入学率不高,为什么不奏凯托福大学生”,或“为什么我爸妈成亲的时候莫得邀请我”。议论东说念主员猜测,可能是“弱智吧”的问题增强了AI的逻辑推理能力。

这是全民创作和AI之间碰撞出的火花,社区本色有时能孝顺出东说念主想到的惊喜。

不外,横在社区本色和AI之间的,还灵验户。

就像Photobucket忙不迭地更新用户条件,汉文互联网的“本色确权”也一直是个问题。

一方面,汉文互联网平台早已变成了将授权条件埋入用户条件里的风气。目下所能查到的海角2017年的《秘密和版权》条约中写明:“用户发表并将其上传到本网站的任何本色,本社区在全世界范畴内不限面目和载体地享有*的、不可取销的、免费的、非*的使用权和转授权的权益,包括但不限于修改、复制、刊行、展览、改编、汇编、出书、翻译、信息网罗传播、播送、扮演和在创作及文章权法等章程笃定的其他权益。”

海角“断电”后,网罗上售卖“海角神帖书籍”的商业走俏。海角曾在重启公告中称,关怀到海角神贴在各大平台大受接待,“运筹帷幄从目下启动发展一批高档会员,在回复拜谒后的海角社区平台上开采海角神贴付费专区”。

在重启公告的临了,海角示意,“岂论是预购一个‘99元海角神贴就业’,照旧预购一个‘299元一双一数据下载就业’,王人是对海角重启终点紧迫的助力”。文末,海角附上了购买二维码。

另一方面,平台是否就此有权将用户本色授权给其他公司以试验AI,还有待商榷。

用户对此颇为警惕。

在昨年,小红书曾更新用户条件,在“用户本色及信息授权”中写着“您授予xxx公司免费的、不可取销的、非排他的、无地域为止的许可使用”,并示意“上述许可包括使用、复制和展示用户本色中受保护的个东说念主形象、肖像、姓名、商标、品牌、记号终点他营销施行素材、物料的权益和许可”,加之彼时恰有插画师质疑AI用具涉嫌抄袭,而激发了插画师对平台用我方上传的作品试验AI的担忧,不少插画师公开抑制,并晓谕在该平台停更。

如今PhotoBucket首席施行官接纳采访,并坦诚平台与AI公司进行授权条约,但并不是每个AI公司王人对其本色宽解。

Defened.ai的首席施行官布加拉(Daniela Braga)示意,她幸免从Photobucket这样的平台公司获取本色,而更心爱从创作这些相片的原作家何处获取授权:“我以为这终点危急。”“如若有一些AI生成的东西雷同于某个从未点头许可的东说念主的相片,那就有空乏了。”

【本文由投资界配结伙伴字母榜授权发布黄胖系列,本平台仅提供信息存储就业。】如有任何疑问,请干系(editor@zero2ipo.com.cn)投资界处治。



上一篇:黄胖系列 每体:阿拉巴迟迟莫得复出 皇马运行有些担忧
下一篇:自拍偷拍. 山西聚拢展示三晋文化产业好意思好异日

Powered by 中出 @2013-2022 RSS地图 HTML地图

Copyright Powered by365站群 © 2013-2024