这个百度贴吧,路子越来越野了

这个百度贴吧,路子越来越野了

来源:雷叔写故事(ID:raistlin2017

最近弱智吧又火了。


这个百度贴吧,路子越来越野了


说它打败豆瓣、知乎、小红书成为最佳中文AI训练数据。


事情起始于arxiv上的一篇论文,文章里中科院想建立一个优质的中文AI数据集,为此就需要在中文互联网上搜集一些语料库。


这个百度贴吧,路子越来越野了

于是他们就在知乎、豆瓣、小红书等平台上找找素材,再拿去训练大模型。


说起来简单,但不是什么素材都能用。


比如他们在弱智吧上找了500个点赞最高的帖子,然后用GPT-4回答这些帖子(弱智吧的帖子经常是问句形式)


这个百度贴吧,路子越来越野了


再把帖子和回答组合成一个指令微调数据集,经过人工筛选,留下了240组数据。


这个百度贴吧,路子越来越野了

有了数据材料就可以去训练开源大模型,训练分8项测试,包括问答、头脑风暴、分类、生成、总结、提取等,最后用GPT-4给这些测试打分。


精华部分来了。


跑完规模较小的Yi-6B模型后,弱智吧版本的总分排第三。

这个百度贴吧,路子越来越野了

(CQIA-Subset是从各个数据源里,

再次提炼出来的精华子集)

到了Yi-34B,弱智吧版本的表现遥遥领先;


小红书的语料价值则在社交媒体之间垫底了。


这个百度贴吧,路子越来越野了

后来研究人员还做了安全评估,这方面弱智吧版本也名列前茅。


这个百度贴吧,路子越来越野了

总的来说,弱智吧的中文数据价值很高。


网友见状一顿狂欢,谁说弱智吧里都是弱智的。


但弱智吧真赢了吗?

相比于小红书、知乎、豆瓣的上千组数据,弱智吧仅有240组数据,这是不是太少了?


这个百度贴吧,路子越来越野了

而且,其他数据源用的数据都是本来就有的回答,由人类作出。


这个百度贴吧,路子越来越野了

这个百度贴吧,路子越来越野了

(即使小红书数据的回答部分,

看着像一键生成的,

也被标注为人类作出)

弱智吧的那组数据还是GPT-4去回答、GPT-4来评分的,那这是不是有既当裁判又当运动员的嫌疑呢?


这个百度贴吧,路子越来越野了

另外,整个事情也不像媒体报道的一样,是“弱智吧训练出了超强AI”,而是“借助弱智吧等的语料库对开源大模型进行微调”。


前者是举足轻重的意义,后者只是参与其中。


话说回来,虽然数据不太严谨,但是弱智吧的段子充满了逻辑陷阱和思维谬误,很适合用来测试大模型。


这正是弱智吧成立近二十年来矢志不渝在做的事:


边搞笑,边让人变得有智慧。




弱智吧已成为一个难以名状的语言宇宙。


首先,里面充斥着最基础的傻瓜问题。


只切一刀,如何把四个橘子分给四个小朋友?

孟德尔为什么要花几年去做实验研究而不是直接看生物书?

为什么每条隧道上面都压着一座山

这个百度贴吧,路子越来越野了

虽说“陨石为啥总落在陨石坑”这类问题不值得深思,但你也只有不被这些问题晃倒才能入门深造。


这个百度贴吧,路子越来越野了


其次是抖机灵。


古人有那么多封号,是不是说明古人很爱开外挂?

恐怖分子是由2个恐怖原子组成的,还是由1个恐原子和1个怖原子构成的?

高考满分才750,怎么才能考985?

既然快递要3天才到,为什么不提前3天发?

面对这些脑经急转弯,起初你会觉得尴尬,但多想一秒就能多一份冷幽默。不算什么坏事。


至于那些有头有尾的段子,字里行间流露出思维上的精准毒辣,它们带着欧亨利式结尾,注定让人爽得不可开交。


-狙击手车沉着冷静的击毙了最后一名人质

-使绑匪失去了所有谈判筹码

这个百度贴吧,路子越来越野了

-我家4400头猪,丢了一头,请问去哪里找啊?

-去4399找呀

这个百度贴吧,路子越来越野了

-严重的恐高症害得我终身无法低头捡到钱

-我有洁癖每次拉完屎都不敢擦屁股

这个百度贴吧,路子越来越野了

-朋友烧伤了,我王者荣耀有很多皮肤为什么不能移植给他?

-因为朋友没买英雄

这个百度贴吧,路子越来越野了

得越来越有感觉了,体会到语言高潮了吧。


那这时候又怎么少得了黄色笑话呢。


这个百度贴吧,路子越来越野了

吧主黄医师就曾是这方面的高手,他们在十多年前脑洞大开,编出各种段子,为的就是构建起弱智吧友好交流的氛围:


你可以无下限,但一定要够深刻。


这个百度贴吧,路子越来越野了

什么举世皆浊我独清,任何众人皆醉我独醒,都抵不上我很黄很暴力地醒着。


所以,用病态视角去审视正常社会里不正常一面,再合适不过了。不仅如此,看完之后你会觉得那些现实真刺激,那些段子真带劲。


接着一些对社会问题的针砭时弊呼之欲出。


“无头女尸拍大头贴竟被老板收钱惹民愤”


这是呼吁不要宰客。


这个百度贴吧,路子越来越野了


“阳光洒在地上,到底是照亮了尘埃,还是隐入了尘埃?”


这是告诉我们很多电影没那么敏感。


这个百度贴吧,路子越来越野了

别想多了的同时,也别想得太肤浅。


弱智吧里常常讨论性别议题。


很多吧友会站出来用浅显道理让人知道女性的不易。


这个百度贴吧,路子越来越野了

弱智吧里也定期关注国际时政。


很多吧友科普知识段子,就是为了揭露国外的阴暗面。


这个百度贴吧,路子越来越野了

谁说我们只讲无下限段子的,我们也关注宇宙起源、人性扭曲、道德沦丧,和世界和平。


吧友们只是在用另一种方式关心人类未来。


慢慢地,哲学味很浓的金句纷至沓来。


“怀念过去是不是在时间的长河里刻舟求剑”


这个百度贴吧,路子越来越野了


最后为了升华主题,迎合时代精神,


许多段子主打一个劝人向善、活着就好。


这个百度贴吧,路子越来越野了

这个百度贴吧,路子越来越野了

这些帖子里不仅楼主发言犀利,评论区同样意味深长地讲着警世恒言,让人对世界失望悲伤的同时,产生一点点好感。


换言之,弱智吧里都是说最狠的话,讲最善的事。


这个百度贴吧,路子越来越野了

看到这里你也就明白,这个吧里真没弱智,反而存在着被人忽视的生活达人和哲学大师。


他们对世界真相的揭露入木三分。


他们不像广告推荐里说得傻里傻气,急需治疗。


这个百度贴吧,路子越来越野了

世界参差不齐,但对才华的识别向来一致。


他们的存在,表明弱智吧在与AI较量中,暂时领先半个身位。



一个不争的事实是:

现在各平台的语言越来越扁平和匮乏,深度复杂的逻辑越来越没人看了。


要不就是弹幕里粉圈互撕。


连古人都不放过。


这个百度贴吧,路子越来越野了


要不就是生造缩写。


你惊呼yyds,我回复“蓅氺般の噯情”,咱们都有叛逆的青涩时光。


这个百度贴吧,路子越来越野了

要不就是对飚表情包。


你没读懂是你out了,大叔不能怪你,因为年轻人扼住了互联网的咽喉。


这个百度贴吧,路子越来越野了

要不就是阴阳怪气。


评论区里随意选一个表情符号,不打上“崩急乐孝典”等文字,都能提升嘲讽技能。


这个百度贴吧,路子越来越野了

要不祖安人式骂街。


构建一个“以对方母亲为圆心、直系亲戚为半径、生殖器为主武器、意淫为主技能,配以伦理、两性、家畜、宠物、殡葬行业等领域的特有动词及名词”的脏话体系。

这个百度贴吧,路子越来越野了

要不隔段时间刷“中式浪漫”。

前脚是“人不就活几个瞬间”,后脚是“咱俩一辈子幸福就完了”。

这个百度贴吧,路子越来越野了

要不劣币驱逐良币。

“十二生肖过13.5年”本是由“姬霓太美”演化出来的段子,但现在手机浏览器里,前几条根本搜不到正确答案。

这个百度贴吧,路子越来越野了

切换到搜狗或360搜索,

首页里也是玩梗为主)

最后呢,为了造梗而造梗,而不是去生成鲜活的语言艺术。

以致于狂欢过后,带来的好像只是一场场黑话盛会。

这个百度贴吧,路子越来越野了




此时此刻,弱智吧这种看似弱智,其实蕴含哲理的思考,非常难能可贵。


没有连篇客套话,不需要付出巨大理解成本,最后也不出现卖课广告,有的就是三言两语告诉你世间一些残酷真相。

这个百度贴吧,路子越来越野了

可能嘴臭,或许悲观,但比惺惺作态好很多。

更何况,人家骂人骂得如此搞笑,很有技术难度;更何况,人家也兢兢业业写着中文字。


希望以后关于世界的深度思考,不要只能装成是精神病人的呓语才好。

为此,我们最后附上去年下半年的弱智吧精选内容。

篇幅有限,选了45条,大家也可以练一练自己的思维。


这个百度贴吧,路子越来越野了

(图源:弱智吧日常)

这个百度贴吧,路子越来越野了

(图源:弱智吧日常)

这个百度贴吧,路子越来越野了

(图源:弱智吧日常)


图片来自网络

弱智吧除了弱智,什么都有

↘↘↘

本内容观点仅代表发布作者本人观点立场,欣文网平台只做信息内容展示和存储。发布作者:全网转载,转转请注明出处:https://www.xinenw.com/6815

(0)
上一篇 2024年5月2日 22:26
下一篇 2024年5月2日 22:27

相关推荐

  • 斗破苍穹:四人同时炼制九品玄丹,小伊抢夺魂虚子雏丹

    《斗破苍穹》第583话,众人吸收天地能量,同时炼制九品玄丹。不少人的斗气都被吸收,就是药田的药材都要不保。不过魂虚子偷鸡不成蚀把米,小伊抢夺了魂虚子的雏丹,让他没有机会成丹。 九品玄丹 聚天地之力炼制丹药,这种手法就是为了炼制九品玄丹。为了不让魂虚子抢风头,药万火也开始炼制九品玄丹。神农老人紧随其后,还不忘喊上萧炎一起。萧炎从来就不怂,也只有炼制成功九品玄丹…

    2024年5月5日
    21900
  • 钟薛高林盛开播卖红薯!直播带货成了「老赖」收容所…?

    △点击上方蓝字或下方卡片,和小柴一起防忽悠 还记得上个月,小柴写了一篇文章:钟薛高创始人称卖红薯也把债还上:网友,您可千万别…… 也就是上个月,跌落神坛的雪糕刺客钟薛高和其创始人林盛在沉寂一段时间后,残存的网红属性,又将其推向了热搜,原因是,林盛的「好兄弟」,也就是新浪财经CEO邓庆旭发了一条微博。 说林盛被限高,坐了一晚绿皮车到北京,告诉他,卖红薯也要把债…

    2024年5月30日
    10000
  • “听了相亲分析师的一席话,我决定不结婚了”

    本文转载自 公众号新周刊(ID:new-weekly) 作者:许峥 自今年4月起,社交平台上密集地出现了一种类型的博主,人称“相亲分析师”。他们对粉丝发来的相亲对象进行条件解剖,找出“地雷”,解释“为什么这个人不能嫁”。短短一个月,这些相亲分析师可轻松积攒40多万粉丝。 这让MCN机构找到了财富密码。招聘相亲分析师的广告上写着,“不求丰富经验,只求普通话过关…

    2024年6月9日
    6300
  • 合肥:一个大写的尴尬省会

    时尚城市研究院独家出品,未经授权不得复制转载 大概肯定没有哪个省会如合肥这般尴尬。 近日,安徽省马鞍山市出台《关于全面融入南京的若干举措》,提出的对接内容包括干部能力提升、产业协同、科创人才、规划对接和基础设施、生态环保、社会事业等6个方面共计26项举措,并“将融入对接南京工作情况纳入市委年度考核和月度考核”。 安徽的地级市,不全面融入合肥,却奔向南京的怀抱…

    2024年4月17日
    18200
  • 她发现,学神学渣,主要看爹

    作者 | 南风窗记者 姚远 值班主编 | 赵靖含 教育社会学家姜以琳时常与失望为伍。 她发现,人们对教育抱有一种不切实际的期待。在广泛的社会共识中,教育是改变命运的枢纽,是向上流动的阶梯,它是人类创造的、让这个世界更公平向善的伟大系统。 从前的姜以琳也这么想,所以在美国宾夕法尼亚大学攻读博士学位期间,她怀着美好的愿望走进教育社会学的田野,却逐渐在这片灿烂田野…

    2024年5月7日
    9400

发表回复

登录后才能评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
原欣文网读者需要重新注册,平台不断升级敬请见谅!