手机浏览器扫描二维码访问
大语言模型是人工智能的一个落地应用方向,基础逻辑就是模拟类人神经网络,当训练数据达到一定规模时,会产生不可思议的效果,路阳就知道chatgpt的训练数据就是175o亿才开始爆,有了质的变化。
这个过程还需要人类来做干预训练,让模型能给出更加接近的正确答案。
不过,对于中文数据来说,最大的问题还是数据质量。
数据质量越高,模型的训练结果越好,而华文数据质量,路阳只能苦笑着摇摇头。
巅峰时期的华国互联网,优质网站数量接近千万级,而到了2o19年,这个数量降到了4oo万,曾经的四大论坛,天涯、猫扑、微博、贴吧,天涯半死不活,猫扑消失殆尽,至于微博,娱乐文化仍占主流,直到华芯的崛起,才让科技板块逐渐有了起色。
至于贴吧,男科不孕不育了解下!
唯一还在苦苦支撑的就只剩下知乎一支独苗,然而在大浪潮的侵袭下,9o%以上的数据变成了打拳、键证、润学,水军、自媒体、营销号、饭圈总是喜欢为了点鸡毛蒜皮的事吵得天翻地覆,可谓是垃圾场里建游泳池,不似粪坑胜似粪坑。
当然,国外的互联网也不见得好到哪里去,但他们的体量庞大。
路阳最近还让人帮做了个统计,假设中文文本数据1o亿条,高质量数据占比1%,英文文本数据2o亿条,高质量数据占比5%,过滤后,可用于aI训练的中文数据只有1千万条,而英文有1亿条。
这个量级的差距,就算路阳占得先机,最后训练出来的结果也无法越英文文本训练的人工智能。
实际上,英文互联网比华国要早几十年,真正的差距只会更大。
如果不过滤,那华国的数据肯定是足够的,但成长于充满广告、饭圈、矛盾争吵的数据环境中,路阳无法想象最终训练出来的模型会是什么样扭曲怪物。
中文数据还有另外一个大问题,那就是数据孤岛,国内的大厂从融资、估值到上市,都需要用户数据来讲故事,所以大量的数据被封闭在各大厂与平台中。
千度、阿里、企鹅都直接或间接的屏蔽了各自爬虫,即便有开源模型,数据也不会对外开放。
“提高华国互联网的优质数据,这方面已经提前在布局,而要解决数据孤岛问题,就得依靠国家的力量。”
路阳在心中思索着,电子科技大这边的行程,就是为了解决数据问题,华芯数据中心建成在即,需要大量高质量数据做填充,于是他计划与电子科技大这边合作,打造华国最大的知识分享社区。
硬件gpu部分,摩尔1o月下旬即将布款自研专业级gpu,软件就得依靠这个平台。
应若涵的执行力是路阳最为佩服的,不到三天时间,来自华国前三的导研究团队的专家进驻华芯二院,配合施小云设计零度控制系统。
“人都到了,按施教授的计划,这个系统需要两周才能完成。”
“半个月吗?那正好可以处理电子科技大的事?”
旋即路阳把平台的思路给应若涵做了个大概的介绍。
正如王德峰教授,汉语不只是一个交流工具,它融合了儒释道的思想,从仓颉流传而来的形象以及对炎黄血脉的认同,随着网络用语的扩散,很多承载着华国文化的词句语境可能都将不复存在。
把这些知识加入对模型的训练,不仅可以让文化得以传承,也可以让下一代更好的利用。
“我们的目标是建立起一个远已有数据库规模,开放、互通、合理规范的级华文语料库,并以此反哺华国互联网,输出优质知识。”
应若涵没想到路阳一下跨度拉得这么大,问道,“虽然我明白你说的,但这件事并不是最紧急优先的事,这个级语料库按你的要求,短期内也不可能做好,而且这跟量子芯片似乎也关系不大。”
路阳知道她最近关心的是胡稚那边的进度,芯片小组已经在暗中做了大量准备,并提醒国家加大防疫系统的演练与物资储备,但路阳这边的行动,却没有一件跟这个相关。
归根结底,一方面是路阳确实对这方面没什么知识,另一方面就是大事件是全球性的,根本不可能防得住,除非你真正执行闭关锁国,但那又太不现实,损失太大。
路线想了下,继续说道,“我们的最终目的是造出量子芯片,完成量子计算机,对吧。”
应若涵点点头,这是集团董事会都知道的。
“量子计算机的应用,最适配的就是人工智能领域,而人工智能领域说是第四次工业革命一点都不为过,它可以让华国的科技整体再上一个台阶。”
这说法,应若涵心中是不太认可的,但路阳的特殊性也让她明白,这么做方向肯定是对的。
见应若涵仍不明白,路阳解释道,“人工智能是需要训练出来的,用大量数据通过人工干预训练,当数据量达到一定级别,你可以理解为,会出现具有部分意识的人工智能,它能帮助人类整体提。”
这是路阳第一次把这件事告诉其他人,已经开始越现有的人类认知。
既然自己的系统使用条件苛刻,存在风险,那就干脆造个系统出来帮助华国,这就可以让整个华国加开挂。
哪怕应若涵对人工智能所知不多,但是凭借其高的智商,还是快想通了这一切,这样一来,路阳最近看似毫无关联的动作就可以串联起来了。
“路阳,你真的是来自2o23年?可我怎么感觉你所说的事,像是未来几十年后。”
人工智能帮助人类提,具有意识,这都是科幻电影里的场景,而往往科幻电影里的人工智能,大部分最后都变成反派boss。
是啊,只是5年而已,这中间的差距就已经如此之大了,如果再展二十年,未来世界又是什么样呢?
路阳并没直接回答应若涵的问题,也许对方也不需要他的回答。
“欧米人的科幻电影只能代表他们,华国真正意义上的科幻作品并不多,我现在也只能确认一点,只要你训练的数据足够多,质量足够好,一定会出现具有意识的人工智能,至于如何控制它,这就不是我能知道的了。”
“而且,这是一项颠覆世界的现,而人工智能的能力,最终还是要落到算力上来,这是一切的根本!”
简介关于洪荒我为天道,收割穿越者穿越成为洪荒天道,自带天道酬勤系统,可以无限重启洪荒世界。然而,每一次重启,都会有一位穿越者光临,他们有刚正不阿之人,也有圣母,更多的是苟道中人,不仅仅如此,他们还有强大的系统,不论他们的人品如何,他们都只有一个目的,那就是脱,脱自己这个天道,那么,所有穿越者,都是他的敌人。收割了他们,强大自身,脱大道,哎妈呀,真香!...
起点VIP20230222完结18277万字1621万总推荐文案一直在美国干着服务生的章驰,在回老家的时候无意之间得了一个宝贝,便开始置地买牧场,把一间小牧场慢慢经营大的故事。...
简介关于四合院开局干翻傻柱,众禽怒了李甲飞穿越到,意外绑定惹众怒系统,为了强大自己,我跟众禽对着干。众禽怒了!我赚翻了...
简介关于疯人院五年,老婆为我生了个女都市修仙爆燃爽文,快节奏,杀伐果断,热血无敌,装逼打脸。五年前,他的父母和妹妹惨遭杀害。为了找出真凶,他不遗余力。然而,家族不仅不支持他,还将他强行送进精神病院。五年后,他强势回归。现自己竟然喜当爹幸福来得太过突然。为了替父母报仇,为了让老婆孩子过上幸福的生活。廖尘凡誓要荡平一切罪恶,还世间一个公平公正。家族恶少,世家豪强,帮派大佬,官宦子弟,在我眼中,有如浮云。比财力,我有三位师父为我积累数十年的海量财富。比人脉,护国战神与我关系匪浅。比势力,我是隐门和华夏两大门派的门主。比实力,我金丹期的修为,各种手段层出不穷。宗师,蛊师,化境高手,炼气期,筑基期,金丹期。在我的眼里,如同土鸡瓦狗。轻轻一挥,就能叫他们灰飞烟灭!这是一个充满刺激和温情的故事,让你热血沸腾,心跳加。跟随廖尘凡的脚步,一起踏上修仙之路,揭开真相,重塑荣耀!...
甄序礼作为大集团的大总裁,最近这段时间总觉得自己身边的画风不对。合作公司老总拉着他的手说序礼啊,你那位男媳妇,他最近有没有空啊,可不可以请他到我家作作客啊甄序礼敌对公司老总放下脸对他谄媚笑着道甄总,你那位男媳妇,可以请他跟我吃个饭吗你放心,我可以付钱多少钱都行甄序礼警察找上了他,对他面无表情道甄先生是吗还请你约束下你的媳妇,不要让他乱搞封建迷信甄序礼甄序礼很想知道,为什么忽然间谁的嘴里都是他的男媳妇,天知道他跟他那位男媳妇根本不熟只是指腹为婚,不得不结婚好吗...
好消息林蕴蔓一瞬之间成了传说中的富家千金坏消息她穿成了小姐妹小说里的大怨种,她家的钱以后都要被她拿给男主嚯嚯好消息母胎单身狗林蕴蔓终于要有甜甜的恋爱啦坏消息按照剧情,她的新晋男友快嘎了好消息林蕴蔓怀崽了坏消息但其实她只是个送货的?好消息算了,随缘吧。林蕴蔓穿进了自家闺闺写的小说里,成为紧追着男主送装穿书小萌新的懵圈生活...