浅友们好~我是史中,我的日常生活是开撩五湖四海的科技大牛,我会尝试各种姿势,把他们的无边脑洞和温情故事讲给你听。如果你想和我做朋友,不妨加微信。
当年轻人在说“夸克真香”,他们在说什么?
文|史中
这世界上有两种人不好惹,P站用户和B站用户,而且他们还很可能是同一拨用户。
我相信B站用户永远正确。毕竟即使不正确,等把那些不喜欢他们的叔叔阿姨熬到帕金森擂不动键盘的时候,他们自然也就正确了。
所以,我的一个隐秘癖好就是:蹲守在很火的B站视频中,研究大家在弹幕里讨论什么东西。
前两天,我偶然看到了知名UP“苏星河”的一个视频《我来讲讲为什么Safari是手机上最好的浏览器》,结果正片还没开始,一票水友都在弹幕上刷:“夸克真香”、“夸克yyds”。
一堆夸“夸克”的夸夸词汇碾过屏幕,让屏幕正中的Safari图标多少带点尴尬。
可夸克到底好到啥程度,以至于一群粉丝要去Safari的地盘上游行?这个我还真拿不准。
我决定仔细研究一下。
当然我的研究方法比较NB,毕竟我是一个想认识谁就能认识谁的中哥,是时候施展魔法了。我戴上口罩冲进北京零下20度的寒风里,直接去找夸克App的产品技术同学们喝了个咖啡。
一个拯救学渣的搜索系统
一位夸克的同事看到风尘仆仆的我,说:“中哥你来晚了,整个2020年已经有好多老铁换了各种姿势夸我们了,用户量比火箭窜得还快。”
“你们究竟干了什么,难不成把大家都给PUA了?”我问。
那不敢,不过这两年我们在夸克搜索里做了很多功能,比如“指令控制”、“搜索直达”,大家都挺喜欢。但说出来你可能不信,2020年我们最香的模块是“夸克学习”。
他说。
“纳尼?夸克学习?有人在搜索里学习?学啥?咋个学法?”
我掏出手机定眼儿一瞧,还真有。。。
虽然心里全是问号,但中哥毕竟是身背一定流量的偶像,举止要沉稳。于是我冷静了一下,说:“我懂,我也是爱学习的人,在我的D盘专门有一个文件夹叫就叫做学习资料。总之我想和夸克学习的团队聊聊。”
于是,夸克学习的产品经理夏雅曈坐在了我面前。
你听听这个名字的风格,如果不是民国时期的人,那一定是个90后。果不其然,她是一位93年的妹子,创造了我从艺以来见过产品经理的年龄最小记录。
夏雅曈
然而她的记录只保持了15秒,因为旁边这位名叫寇至爽的团队成员是94年的。。。
寇至爽
故事就从2020年春天说起吧。
那时候,你懂的,几乎所有有头有脸的App都上线了疫情防护的模块。毕竟这么多年夸克是一票年轻人的心头好掌中宝,保护我方祖国的花朵很重要,于是夏雅曈他们春节加班搞定了帮大家防疫的“疫情实时动态”模块。
一口气还没喘匀实,他们突然发现一个有趣的现象:在夸克上“搜题”的老铁越来越多,暴增50%。
以太坊基金会开放 Fellowship 计划第四批申请:6月1日消息,以太坊基金会宣布第四批以太坊协议奖学金(EPF)申请正式开放,用户可在 6 月 16 日前提交申请,该计划为研究员提供为期四个月的奖学金,以推进以太坊技术,包括从开发客户端实现、测试和规范,到参与最新的核心协议研究。第四批 EPF 从 2023 年 7 月持续到 2023 年 11 月,最后在伊斯坦布尔的 Devconnect 举行现场活动。
EPF 是一项旨在通过为协议贡献者提供途径以获得做出有意义的贡献来支持以太坊核心协议开发的倡议。该计划专为对以太坊、其社区和去中心化技术的的开发人员和研究人员量身定制。[2023/6/1 11:52:57]
搜什么题呢?
“比如有人会搜《岳阳楼记》,这看上去很像是在做作业。”夏雅曈说。
“我不信,万一是古诗文爱好者呢?”我摆出鲁豫脸。
“从当时的大数据来看,搜语文知识的人通常也会去搜索勾股定理、英文单词之类,还有一些地理历史知识,你看,这就非常像学生了。”她说。
到底为啥这么多人在夸克搜题嘞?
其实很好解释:第一,夸克的用户群本来就是年轻人,有很多人在亲自上学。第二,疫情刚稳下来,学生们都被困在家里上网课呢,平时做作业遇到不会的题也没老师可问,最方便的可不就是上网搜么。
寇至爽他们想了想,忽然想出了一个“至爽”的脑洞——既然用户这么喜欢搜题,那我们为什么不帮人帮到底,送佛送上西天呢?
于是,他们设计了一个逆天的“小球”。同学在钉钉上网课的时候,夸克就变成一个小球安静地蹲在右下角,当屏幕上的PPT里出现了题目时,只需要点一下小球,见证奇迹的时刻就到了。
夸克会把屏幕截图,框选题目,它就会去后台的题海里匹配,然后瞬间返回这道题的答案。不仅有答案,还有解题过程和思路,比闪电五连鞭还快。
大概就是这么个效果
万万没想到,上个网课还开挂了呀。
金杯银杯不如学渣的口碑,大家都没反应过来,几天之内夸克App的下载量已经冲到各大应用商店的前头。
最巅峰的时候,所有过来的截屏搜索请求,有90%都是在搜题目。
寇至爽挑挑眉毛,示意我不用控制,可以尽情夸他。
仅仅是做了个小功能,就带来这么大的搜索量,夸克团队的小伙伴都惊呆了。不过开心之余,他们马上发现一个巨大的Bug——海量的搜题请求并不是每一次都能得到答案,有很多同学欢欢喜喜搜题来,但却两手空空回家去。
这是为啥呢?
这里给你科普一段小知识:
1、负责为同学们的题目找答案解析的东西叫做“搜索引擎”,这个你是知道的。2、搜索引擎分很多种,最主流的叫做“网页搜索引擎”,百度、Google,包括夸克主要的搜索引擎都是“网页搜索引擎”。你输入关键词,它能帮你找到相应的网页。3、还有很多其他搜索引擎,例如我们用到较多的就是“图片搜索引擎”。你输入关键词,它给你找到相应的图片,或者你上传一张图,它给你找来类似风格的图片。
2、另一边网络上有海量的题库,很多也是图片的形式,同样要抽取成纯文本格式。
3、最后把用户提交的题目和题库里的题目的纯文本做匹配,从而找到这道题的答案。
说到这你可能有点感觉了,搜题引擎和传统通用引擎不太一样:
如果把通用搜索引擎比作人人都坐的汽车,那搜题引擎就像是小区里送快递的“菜鸟无人车”,虽然个头不大,也不是人人都用,但技术含量却是杠杠的。
耐克Web3平台.SWOOSH“OurForce1”FirstAccess销售时间将延长:5月17日消息,耐克旗下 Web3 可穿戴设备平台 .Swoosh 宣布由于技术问题,其数字运动鞋系列Our Force 1的 First Access 销售延长至北京时间 5 月 18 日 14:59,原定于 5 月 18 日 00:00 的 General Access 销售将被推迟。.Swoosh 称,此前英国和其他欧洲国家 / 地区的许多 .SWOOSH 会员都遇到了 2FA 和电话验证问题,当前该问题已解决。此外,.Swoosh 在其博客文章中强调 Our Force 1不支持任何加密货币支付。[2023/5/17 15:08:00]
好,科普完毕,我们回到故事。
说个小内幕。在疫情之前,夸克搜题确实是个小众功能,所以团队并没有投入很多精力,背后的“搜索引擎”接入的是第三方服务,效果差强人意。
这回看到搜题量暴涨,团队同学们立刻从葛优躺变成了金刚狼:咱们是不是要自己推出一个搜题引擎?这样不仅掌握核心科技,还能大大提高解题率!
毕竟家里技术底子还是有的,夸克的同学们决定,搏一搏单车变摩托。
老司机斗麻匪
重担一下子压到了夏雅曈和团队的身上。
作为产品经理,他们首先要回答一些灵魂拷问:究竟哪些学生在搜题?他们会在什么情况下搜题?他们搜题时希望看到怎样的答案?
这些问题的答案可太太太重要了。毕竟,你懂的,如果搜题的都是学渣,想要抄答案,那这个产品道德上就不太成立了。。。
于是,夏雅曈在夸克里向使用搜题功能的同学们发送了邀请,让他们来一场赤裸裸的“灵魂自白”。
结果大大出乎意料。
我猜你和我一样,以为只有学渣会搜题。但事实恰好相反,学霸也搜题,而且搜得更多,更狠,更仔细。想想倒也合理,比你有钱的人,一般都比你努力。
其实学霸搜题的需求很复杂:不仅要找答案,还要了解详细的解题思路,还要知道这背后隐藏的知识点,最好再来几道同类型的题目巩固一下才心满意足。非常之鸡掰。
其实不光是学生,老师和家长也要搜题。
老师在课堂上要讲课,课后要批改作业、备课、辅导,拍照搜题可以帮他们把解题的时间节省下来,把更多精力放在琢磨教学内容上。
家长们主业是上班,晚上副业还得辅导孩子,经常还遇到题目不会做,甚是丢人。即使自己会做,但是有时又跟孩子讲不明白,这时候他们也需要搜题。
这些事实让夏雅曈他们虎躯一震,原来搜题功能真的可以帮助更多爱学习的同学节省时间,巩固知识。那这利国利民的事儿可就干也得干,不干也得干了。
2020年6月,就在人们在苏星河的视频上刷“夸克真香”的档口儿,“自研搜题引擎”项目正式上路了。
说到这,就不得不给你介绍一位新朋友,王杰雄。
王杰雄是一位技术大咖,想当初90后还忙着早恋的那些年,他已经加入了阿里云,和大家一起做“雅虎中文搜索”,掐指一算,搜索技术这事儿他已经干了十年。
王杰雄
接到夸克的任务,他露出了大菊已定的微笑:就这?
然而,上手之后不久,一种隐隐的哪里不对的感觉袭来。仿佛一个即将上任的县长,本来吃着火锅唱着歌,一抬头突然面前出现一票麻匪。
这第一个麻匪就是“文字识别准确率”。
文字识别,准确名称是OCR。它像一个不知疲倦的“誊写师傅”——你把一张图片给文字识别系统,它就能帮你把上面的字给识别、抄写出来。
过去24小时价值约1亿美元的杠杆头寸被清算:金色财经报道,根据 Coinglass 的数据,过去 24 小时价值约 1 亿美元的杠杆头寸被清算。其中 82% 来自空头头寸。大部分清算来自 BTC 头寸,约为 4100 万美元,其次是 ETH,约为 2150 万美元。[2023/4/26 14:28:28]
你有没有给支付宝绑过银行卡?扫一下卡面就能识别出上面的卡号,这就是文字识别系统干的。
例如拍这第5题,在拍题的时候会出现混入手写字、框选到其他题目、照片不清晰等等问题。
很多时候,带了噪声看上去就像完全换了一道题,系统自然就没办法把这道题和题库中的题目匹配准确。
这时,王杰雄他们就要尽力让系统学会“带噪搜索”。
简单来说,就是香农的信息论原理。信号有噪声的情况下,就要增加信息的冗余。
王杰雄说。
举个例子吧:比如你跟朋友打电话约在地铁站B口见面,电话里对方听不清你说的到底是B还是D,你也许会说:“我们在B口见面,AB的B,二B,不是四D。”
你看,你很可能不认识香农,但你自动采用了信息冗余策略,用了四种方式表达“B”,对方一般就不会理解错误了。
王杰雄他们正是用了同理的操作,每一道题都用不同的颗粒度切分,换几种维度表达。这种表达虽然啰里八嗦,但是却大大提高了匹配的精准度,算是曲线救国了。
不过这还不算完,更多的问题仍然摆在面前。
这第三个麻匪就是“公式归一化”。
上过中学的浅友都知道,各种题目到了中学就不再“单纯”了,比如这货:Cu(OH)CO,碱式碳酸铜。再比如下面这道题:
你发现没,题目里有各种角标、特殊符号,是你日常打字根本不知道怎么打出来的。
你都不知道怎么打,程序当然也不知道怎么打。。。不过,幸好科学家和代码大神们已经总结好了一些规则,用一串直线排列的代码就能表述出这些乱七八糟的公式。
可问题来了,对于同一种公式的表述规则有很多种,并不统一——就像同一部片儿,有avi,有rmvb,有mp4。。。两个人见面,一个人说“Hello”,另一个人说“弄啥嘞”,那不可能匹配成功。
于是团队必须把题库里的各种公式的每一种表述都找出来,然后转换成统一格式,这就是公式归一化。
除了上面说的三个麻匪,还有图片传输压缩、算法和功耗的平衡、题库本身丰富度等等,“麻匪”漫山遍野,一眼望不到头。。。。
王杰雄发现,这不是“让子弹飞”,这根本就是“乱打死”。这一大堆事要是等一个人搞完,那恐怕人类都登陆火星了。他赶紧吹响“集结号”——跟领导申请把其他技术同事一个个拉上船,并肩作战。
没顾得上开神马“誓师大会”,技术攻坚组就这样紧急成立了。
埋头苦干一个月,这套搜索算法终于做出了雏形。夏雅曈他们赶紧拿来一些测试题目,结果是:这套算法的识别率只有友商的一半儿左右。。。
这个结果,如翔一般。
盘了盘,王杰雄发现根本原因还是整个搜索的链路太长——用户拍照的清晰程度、用户框选题目的精细度、文字识别的准确程度、文件传输中的压缩比例、题目搜索的比对算法,每一步都有一定的信息损耗。
这种长链路的问题就如同你玩过的那种传话游戏,一个同学传给另一个同学,他再把听到的内容传给下一个同学。传到最后,往往已经把“前门楼子”传成了“肩膀头子”。。。
然而,市场的竞争不等人,疫情笼罩下的2020年,你懂的,各大拍照搜题软件都在拼命激战抢夺用户。
借贷协议Solend遭预言机攻击,已产生126万美元坏账:11月2日消息,Solana上借贷协议Solend发推称,检测到影响Stable、Coin98和Kamino的isolated pool的针对USDH的预言机攻击,已导致126万美元的坏账。此外Solend称包括Main pool在内的其他所有池都是安全的。目前Solend已经禁用受影响的池子,并将攻击者的钱包地址告知交易所。[2022/11/2 12:08:44]
果然,团队接到了来自领导层的惊天命令:自研搜题模块要在国庆节上线!thisisanorder,不容争辩。
王杰雄他们看看表,现在已经7月多了,过去论天过,现在就得论秒了。。。
二营长,拿我的“核武器”来
夸克学习技术团队把吃奶的劲儿都使出来了,疯狂地优化这个“传话游戏”。
那段时间,王杰雄他们做梦都在想优化策略。但是,经常出现的结果是:一个优化策略上了之后,一半的题目解题率升高,另外一半儿的解题率反而下降,就像在游泳池里玩跷跷板,一个人浮出水面喘口气,对面那个人就被淹在水下冒泡了。。。
到后来,为了该用哪些优化策略,这群技术宅越讨论越急眼,眼看就要从说服变成睡服。他们干脆决定,兵分好几个小组,各自研究心仪的优化策略,最后再把这些技术叠加起来。
技术宅有技术宅的计划,世界另有计划:如此舍命狂奔,尽管和友商的解题率差距在缩小,但始终还是追不上。
夸克怎么说也是一个有牌面儿的搜索引擎,如果国庆节就这个亚子直接发布出去,那简直是所有人都不能忍受的公开处刑。
祸不单行。
进入暑期,夸克搜题的活跃度开始肉眼可见地下降。原因很简单——同学们放假了。即使是学霸,也不会凡尔赛到放假的时候也天天搜题吧。。。
那么,这些同学还会在9月份开学的时候如约回来吗?万一不回来,我们做了这么久的新搜题引擎给谁用呢?大家心里紧张得如同初恋的少男。
从8月最后几天开始,所有人都捂着眼睛,从指缝里看夸克后台搜题功能的用户人数有没有增长,就跟老韭菜看着自己的股票持仓一样:哀其不幸,怒其不争。
他们悲伤地发现,用户数并没有回到上学期期末的时候。。。
然而,就在他们确认自己要凉了的时候,9月5号左右,搜题的用户突然开始暴涨,势如破竹,很快就挣脱了之前的最高点。
又惊又喜的夏雅曈、王杰雄他们突然意识到,原来因为疫情的原因,全国的学校是错峰开学的,学霸们虽迟但到,直到9月上旬才马力全开。
诚如夸克学习的搜索框所言:我爱学习,学习使我快乐。
这下有两件事是板上钉钉了:第一,国庆节新引擎铁定是要发布了;第二,哪怕按国庆七天乐最后一天算,此时距离发布也只有一个月了。
怎么用一个月的时间把搜题质量提升到世界级水平?
技术团队对视一眼,貌似只有使用最后一个“核武器”了!
你还记得我们之前留了一个伏笔么?最开始,技术团队曾经绕过了第一个“麻匪”,文字识别系统。
其实大伙儿都知道,文字识别系统在整个搜题链路里是最重要的环节之一,但是,因为技术非常复杂,恐怕不是一两个月就能做出来的,所以夸克技术团队没敢碰,一直在用集团提供的现成文字识别系统。
事到如今,无路可退,老司机只有背水一战。
没错,他们的“核武器”就是——自己造一个完美契合搜题场景的文字识别系统。
智能搜索业务部负责人吴嘉盘点了一下,还真有一群人适合做这套系统,这就是过去有视频内容文字识别经验的黄锐华团队。
如果是一般人,接到这样的任务也许下一秒就准备辞职信了。但黄锐华不是一般人,非但面不改色,反而有点小兴奋呢。
说起来,黄锐华也是阿里巴巴最早做搜索的那拨大神,从当年的阿里巴巴商品搜索,到后来的UC浏览器全网搜索,都有他团队的身影。
报告:比特币五年投资回报率超过花旗等五家银行股票:9月7日消息,Finbold ROI数据显示,与花旗、富国银行、高盛、摩根大通以及美国银行五家银行股票相比,比特币五年投资回报率始终占据上风。报告称,比特币的表现可以被认为是一个惊喜,因为这种顶级加密货币正在挑战已经存在了几十年的金融机构,而这种资产只有十年多一点的历史。(financialmirror)[2022/9/7 13:13:59]
十年搜索经验填过的坑无数,不仅让他们团队积累了堪比《九阴真经》的经验,还在兜里攒下了一堆“暗器”:
我们团队有一个“工具箱”,里面全都是这么多年积累的自动化工具,有深度学习的,有模型优化的等等。普通团队搭一个新系统像盖瓦房,需要一砖一瓦从头来过;有了这些工具,我们搭一个系统就像拼插乐高积木,时间会大大缩短。
黄锐华露出老师傅的蜜汁微笑。
搜题所需的文字识别系统需要有两个功能:“印刷体文字识别”和“手写体文字识别”。一个月的时间把两个功能都做出来是来不及了,他们商量了一下,先只做相对容易也用处更广的“印刷体文字识别”。
接下来又到了硬核科普的时间段。
做一个文字识别系统最最核心的工作就是“训练”。
训练,简单说就是让人工智能看大量的数据。这个数据不是普通的数据,而是“标注数据”。
啥是标注数据?一道含有题目的照片拿过来,标注师不仅要把里面题目的精确位置框出来,还把对应的正确文字誊写下来,这就是一个“标注数据”。无数个标注数据塞进训练框架的炼钢炉,就能炼出来一个“人工智能文字识别系统”。
这就是一个标注数据
当时,啪的一下,很快啊,老司机们搞来了大量的标注数据。然后马不停蹄地进行针对“搜题场景”调优和测试。
黄锐华记得清清楚楚,那一个月他们过得可是紧张刺激干净卫生,上午开会讨论方案,晚饭前代码就得写好,夜里就要进行测试,一天一迭代,一夜一升级。
终于,到了9月下旬,文字识别系统终于出炉。是骡子是马拉出来溜溜,黄锐华他们找来市面上所有能买到的商用文字识别系统,焚香击鼓,来了一场“乱斗大比武”。
结果证明,在印刷版习题的识别率上,自己刚研发的这个识别系统最能打。文字识别和公式识别都比别人高几个百分点。
他一拍大腿,这事儿要成。
像运动会接力棒一样,文字识别系统第一时间传给算法团队。由于临阵切换了文字识别系统这个“发动机”,导致王杰雄他们的搜索算法也要重新训练,重新适配。
此时留给他们的时间,只剩最后几天了。
王杰雄缓了口气,以大将之风安慰团队:“莫慌,只要胆大心细,时间应该还来得及。”
然而,半小时后,团队同学就来报告:哥,跟你说个事儿,咱们手里的计算力资源好像不够了。。。
王杰雄给跪了。
由于短时间内要计算炒鸡大量的数据,团队日常储备的云计算资源直接被拉满,目测要是仅靠这些资源,等这些计算搞定,2021年的第一场雪都来了。。。
你可能会问:“等等,团队难道用的不是阿里云么?阿里云“吹牛”的时候我可是听过的,不是说伸缩扩容一分钟就搞定么?”
没错,然而问题并不出在阿里云上,而是出在真实世界的规则中——团队扩容,需要预算,而这笔预算显然是计划外的,要走特殊流程,一半天儿肯定是批不下来。。。
危急时刻,奇景出现:从技术大牛到产品经理,从一线码农到团队领导,大家纷纷联系相熟的邻居团队,从他们那里“借”资源。
对方有五台机器,要!对方有一台机器,也要!对方有一台机器但是在另外的机房,没问题,我们去人肉搬过来!对方开玩笑说你得请我吃饭,他们说请!对方说吃龙虾,他们说吃!
就这样“毫无底线”,不知道许诺出去多少顿饭,两天之内,计算资源像蚂蚁搬家一样一点点堆垒起来,超越了平时的五倍还多。烧脑的计算像F1赛车一样极速狂飙,在赛博世界表演了一场暴裂无声的白日焰火。
这段危急时刻,正赶上横跨周末,大家也都顾不上休息了,每天在办公室连轴转。当时是三伏天,而大厦周末是不给中央空调的,领导们就给大家找来了超大功率的电风扇,但桑拿天风扇也是杯水车薪,屋里仍然跟蒸笼一样。没人顾得上抱怨,汗水迷了眼就用身上的T恤擦,女同事不在就光膀子。
国庆节前一天,所有必要的计算终于跑完一遍,新算法百米冲刺上线,焕然一新的搜题引擎马不停蹄地开始全链路测试。
标准测试数据下,夸克搜题的引擎总算、究竟、到底、终于跑出了行业顶尖的解题率。
王杰雄他们看着这个结果,激动得差点欲语泪先流。
这个接力棒又火速传到产品团队手上,由他们为亿万用户做最终发布。按照规定,一般情况下假期是不能升级App的,但是夏雅曈他们早已提前打好了报告,拿到了金牌令箭,就等着假期推送升级。
就这样,先是团队内部人员接收了App升级包,第二天对几千用户随机推送,然后是几万人,然后是几十万、几百万。终于赶在十一期间,把所有用户的夸克App都升级完毕。
国庆收假,后台的用户数据开始满载狂升。此时,王杰雄盯着屏幕反而异常平静,他知道,眼前的一切绝非只是跳跃的数字,而是新搜题引擎像神龙一样,在响应着无数学生、老师和家长的召唤。
满屏都写着“牛X”二字。
这么多环节,只有从每个环节都压榨回来一点时间,才能让整体搜题等待时间大幅减少。
于是团队变身人肉榨汁机,从三个方向开始压榨。
第一,压榨照相机模块。
为了方便开发迭代,之前的相机模块采用的是轻量化的“web框架”,这次为了速度,前端团队一狠心另起炉灶,换成了“客户端架构”,虽然维护更难,但速度如飞。
第二,压榨传输链路。
图片从手机传输到夸克的服务器,要经过好几个系统“接力”处理,路由器、运营商、负载均衡,进入服务器之后,也要像串糖葫芦一样经过几道系统,这些系统有的跑在杭州机房,有的跑在张北机房,有的跑在广州机房,相当于数据要在神州大地上来回奔袭好几个来回。
虽然是光速来回,但毕竟咱们国家大得离谱,路上还是会消耗很多时间。
最终,技术团队优化了调度方式,在每个机房都安排了一整套处理系统,让用户可以"就近接入",比如广州的用户就接入距离广州最近的深圳机房,全套处理完直接把结果返回手机。就像现在人民群众去办事儿,“最多跑一趟”。
第三,压榨算法系统。
之前为了保证搜题准确率,王杰雄他们为搜索引擎增加了很多“冗余”,这下为了节省时间,又不得不拆掉一些。
估计你也猜到了,压榨算法系统肯定会带来一些副作用,那就是识别率很有可能下降。
这个时候,黄锐华的文字识别团队又杀了出来。他们也憋了一个大招:
重写一套数据标注系统,让外包团队为他们重新标注一套比过去精准无数倍的题库数据。他们要用这套新的标注数据,训练出史上最准确的文字识别系统。
这套数据的标注要精准到什么程度呢?所有题目的框选都精确到了近乎像素级的精度。而为了达到这个目标,全部标注员都提前做了严格的培训,还专门设立了检查员的岗位,负责二次检查数据标注的精度。最终数据拿回来,夸克的技术同学还要进行复查,绝不放过一个错误。
我们认准了一个道理:数据样本的精度,决定了你识别能力的上限。所以我们就用这种笨办法!
黄锐华一脸技术人的执拗。
这次数据标注,不仅标注了印刷文字,还标注了之前没时间解决的手写文字。而且手写文字还包括了小学生、初中生、高中生的不同字体,也包括了手写数学公式、手绘图、手写英语等等。
这一套标注下来,用了整整两个月时间,所花的金钱成本远超你的想象。
这个识别系统的效果怎么样呢?用黄锐华的话说就是:“拿印刷体的识别来说,已经达到遥遥领先业界的效果,基本不会错了。”
“基本不会错?”我问。
“基本不会错。”他说。
这种斩钉截铁的话在严谨的技术老师傅嘴里说出来,还是挺震撼的。
就这样,所有人又拼了两个多月,100毫秒100毫秒地抠,先是把搜题中用户等待的时间减少了30%,后来又减少到了最初的50%,这两天他们还在拼命准备再减下去10%。
夏雅曈说,她手机里已经装上了夸克最新版的测试版,搜题速度杠杠的。我说我不信,于是她给我现场展示了一下新老版本的速度对比。
我做成了gif你看看。
一个更香的世界什么样?
2020年9月,王杰雄最忙的时候,他的女儿恰好上小学。
那段时间,王杰雄脚不沾地,顾不上家里,都是夫人帮着女儿辅导功课。不过王杰雄倒是很骄傲,毕竟夫人帮女儿辅导作业时,用的都是自己亲手打造的御用特供指定版夸克搜题引擎。
女儿一天到晚被爹安利,如今遇到不会的题,都会抢在王杰雄前面轻描淡写地说:“用夸克搜一下呗。”一起逛街遇到夸克的广告——那个像马桶圈儿的LOGO——女儿也会说:“又是你们的广告!”
其实在团队里,还有不少像王杰雄一样的孩子家长,从小学到初中高中一应俱全,他们都是夸克搜题的核心用户——在日常搜题的时候,他们遇到非常实际的问题,拿回来反馈给产品团队,新功能很快就能加入全家桶。
比如错题本功能:同学可以把错题整理起来,系统智能识别里面的知识点,然后自动给出考察类似知识点的其他题目。再比如错题打印功能:低年级的孩子父母不敢让孩子长时间看手机或者平板电脑,于是希望能把错题打印到纸上让孩子去做。再比如口算批改功能:对于一些简单的加减法算术题,家长需要每天帮小朋友检查作业,有点枯燥。用这个功能一拍,所有答案是对是错就一目了然了——疲惫一天的老父亲老母亲能多有几分钟放空的时间。
除了搜题功能本身,王杰雄他们还发现,作为阿里巴巴家的“富二代”,夸克的人工智能能力是碾压别人的。
有了强大的人工智能技术储备,其实未来还可以试着做出很多更科幻的功能,例如给定一个题目可以帮你写作文,给出一个上句帮你填写下句——这些题目本身都没有对应标准答案,但是搜题引擎也可以试着凭空做题,空手接白刃。
我试了一下“AI续写”,惊为天人。
夏雅曈的妈妈其实就是一位中学老师,在湖南老家教了半辈子课。
最开始夏雅曈定义搜题产品的时候,几乎给妈妈一天打一个电话,询问她给同学们出的题都是哪来的,甚至还要来了教研组老师的电话,还有校长的电话,甚至还跟妈妈经常买参考书的书店老板煲了几个小时电话粥。
夏雅曈的敬业程度爆表,以至于当别人父母都劝孩子“多打电话回家”的时候,她妈妈反而劝女儿“少打点电话”。。。
“你妈烦死你了吧?”我问。
“毕竟亲生的,没办法。”她笑。
“诶,要是以后同学们遇到不会的题都上网查了,没人问老师了,你妈妈会不会失落啊?”我突发奇想,问夏雅曈。
我小的时候,每次学生写了好的作文,她都会比学生自己还开心。从那时我就知道了,老师从来只会因为学生的进步而骄傲自豪,不会因为自己而失落。这也是我最佩服妈妈的地方。
她温暖地一笑。
临别之前,王杰雄还给我讲了一件小事儿。
最近,他帮女儿报了好多线下补习班,花钱花到肉疼。在交钱的时候,他若有所思:“我生活在北京这样的一线城市,有财力,也有智力跟进孩子的辅导。但是在三四线城市,甚至是那么多乡村,那些孩子是不是永远没办法接触到这些优质的教育资源呢?”
想到这里,他好像忽然站在了站台对侧,越过呼啸的列车,审视自己正在做的事情。
如果教育停留在物理世界,那么毫无疑问,最棒的教育资源一定只会留给精英的“后浪”们。可是,一旦教育来到线上,它就会展现出巨大的可能性——哪怕一个孩子生在偏僻的村庄里,只要有一部手机,只要他渴望学习,就可以以非常低的成本享受人工智能为Ta准备的教育资源,而且是定制化的教育资源。
未来世界的孩子,也许能享受到我们这代人从未有过,甚至没敢想过的教育模式。
王杰雄的眼睛闪闪放光。
告别这群人,我又冲进冬天的城市。北风漫卷,山河无恙。按照剧本,此时我应该路遇几个少年。但这个时间他们显然应该正在温暖的教室里听课,有的眉头紧锁,有的迷惘张望。
“我看着你们,满怀羡慕。”我又想起《后浪》里这句曾引发了口诛笔伐的轻飘飘的台词。
于是我猜,年轻人不能被收买,年轻人也从未被收买。
一个认真面对这个世界的App,从来不应只是生活优渥的后浪们口中戏谑的“真香”。最终有权评价它的,应该是严肃的,庄重的,渴望成为更好自己的每一张年轻的面孔。
P.S.鉴于Safari那期节目里满屏的夸克,苏星河后来又专门做了一期夸克的评测,你可以看看。
再自我介绍一下吧。我叫史中,是一个倾心故事的科技记者。我的日常是和各路大神聊天。
学习使我快乐
郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。