作者 | 邓咏仪
编辑 | 苏建勋
(资料图片仅供参考)
“去美国之前,我是希望能在(技术)理想上比OpenAI慢半步,落地快半步,但交流完回来,我们改成要比OpenAI的理想慢一步,落地快三步。”
6月刚从硅谷转悠一圈回来,王小川设定了百川的最新目标。
8月8日,王小川的新AI创业公司“百川智能”发布首款闭源大模型Baichuan-53B,参数量为530亿。新模型已经开放内测,下个月将会开放API及系列组件,以供开发者进行对齐、强化。
在一众国内大模型公司中,百川在模型发布节奏上,显得尤其激进。此前,百川分别在7月和6月分别发布了两款开源大模型,参数量为70亿和130亿——直到发布新模型的此刻,百川也不过成立4个月。
新模型Baichuan-53B参数更大,达到530亿。据百川智能,Baichuan-53B融合了意图理解、信息检索以及强化学习技术,结合有监督微调与人类意图对齐,在知识问答、文本创作上能力更加完善。
功能、效果的完善只是第一步,如今百川在应用一侧的决心更甚:要优先在B端落地,还要一手抓模型,一手抓应用——下半年,百川将推出千亿级的大模型,也会有C端的超级应用部署。搜索,将成为成为其中的重要部分。
而为了能迅速商业化落地,王小川在4月拉来原搜狗原CMO洪涛,负责百川的商业化。加上此前入职的COO茹立云,搜狗“三剑客”如今再度在百川聚首。
“现在我们已经有103个人,基本上是一天招一个人的速度,往后速度可能会更快,”王小川对36氪表示,“To B也好,To C也好,市场哪个地方的组织先ready,哪个地方就能跑得快一些。
开源闭源不是核心问题,To B/To C才是
王小川形容新模型53B为“文科专业选手”。他表示,在不同测试集上,之前百川发的两个开源模型“英文部分和LLaMA 1持平,中文部分领先”。而新模型的效果,比这两个还要更好。
但与之前发布模型时的不同,此次王小川并没有对模型的参数、技术细节侃侃而谈。在对模型进行解释、生成能力的演示时,更多像是走个过场。“这些能力也都不新鲜了,主要看做得怎么样。”王小川笑言。
以53B模型开发的“百川大模型”对话机器人 来源:百川智能
发布会的重点,很大一部分是在解释开源/闭源路线的考量,以及具体的应用落地情况。
这和当下国内大模型的发展现状同频共振。国内大模型厂商尚在追赶GPT-3.5到GPT-4的过程中,无论是开发者还是用户,如今都已经脱离盲目追求模型参数的阶段。
全球大模型已经分为开源和闭源两股力量。OpenAI一开始走开源路线,在推出ChatGPT后转向闭源,试图保持竞争优势;另一边则是Meta——作为后发者,Meta显然希望依靠旗下的Llama拉拢更多开发者,弥补技术层面差距。
国外的开源生态,是国内市场的一个重要变数,不少国内大模型厂商正是在开源大模型上进行微调,同质化现象已然显著。Meta开源了Llama 2商用版后,有市场评论辛辣讽刺:“国内的大模型厂商又有新模型可用了。”
在这样的背景下,国内大模型厂商得解释清楚“为什么我们的模型更好”,是道更重要的证明题。
7月,王小川就曾回应过baichuan-7B套壳Llama争议,认为团队拥有取得高质量语料的渠道,模型迭代速度很快,开源能力已经比肩Llama。
而到了发布闭源模型的现在,王小川说,开源还是闭源并非问题核心,也不构成当下的共识难题。相比起来,选择To B还是To C才是关键。
“大模型不是To C生态,用户不需要像在安卓、iOS之间’二选一‘,而是开源、闭源都需要,”他直言:“未来,我们认为80%的企业都会用到一些开源模型,因为闭源没法对场景做特别好的适配。”
但多说也无用,有模型之后,能拿出实际的落地成果,对此刻的的百川而言更重要。
百川做“超级应用”的底气,主要来自王小川团队在搜狗时期积累的经验。搜狗做过两个超级应用,一是搜索,另一个是输入法。
尽管要到年底才能知道具体进展,但可以从一些细节看出“超级应用”的端倪。本次的53B模型就已经做了搜索增强,大模型能够参照搜索结果,针对用户请求生成高价值且具有实时性的回答。
搜索出身的王小川,未来也会将很大一部分筹码押注在老本行上。他认为,大模型不会取代搜索,而是会以另一种形式融合在一起。
比如,如今ChatGPT是以插件形式引入搜索引擎Bing的能力,但百川会希望让搜索和大模型两个产品,在技术底层就进行融合。对中国市场而言,这会是触及C端更好的方式。
”比OpenAI技术上慢一步,落地快三步”
做了半年大模型,百川现在已经建立起两个开源模型+一个闭源模型的“模型矩阵”,按王小川的话来说:“第一场入门之仗算是立住了。”
发布更大参数的闭源模型,其实是面向To B市场的一次“秀肌肉”。
此前百川的开源模型分别为70亿和130亿,而这次发布的新模型参数量达到530亿——这已经是一个足够让“智能”涌现、相当大的模型量级。“这次的53B只是用来反映我们的大模型能力,本质是为To B服务的,之前的7B、13B,也都一样。”王小川表示。
做大模型是一项综合工程,从早期的数据获取、数据选择、数据配比、标注到后期的训练框架,一个环节发生变化,都会对效果产生很大影响。简言之,模型参数越大,也更考验大模型团队的“硬功夫”。
大模型没有办法做完服务用户的最后一步,某种程度上,这给了中国厂商机会。王小川以13B和7B模型举例,在这两款模型推出并落地后,已经有超过150家企业注册使用。在一些行业中,用户反馈甚至已经比闭源的GPT模型更好用。
下半年,百川还将计划发布千亿级的大模型。未来,开源和闭源模型会以互补的形式为客户提供服务。
来源:百川智能
和年初宣布入场相比,如今王小川在应用一侧落地的信心更足了。他认为,应用层依旧有中国厂商的大机会。
6月发布百川的第二款模型之后,王小川随即奔赴硅谷拜访。和技术人员交流后,王小川发现,他们技术确实做得不错,但美国以工程师主导的文化浓厚,很多工程师并没有应用的经验,做应用能力“实在不咋样”。
“他们(硅谷)现在在研究怎么把1000万颗GPU联在一块做模型架构,英伟达一年才生产100万颗GPU。拼理想实在拼不过,但落地我们能跑得快。”
既做模型也做应用,百川“左右开弓”的路线,是如今国内大模型厂商的缩影。
在美国,OpenAI、Google、Meta打得火热,模型层格局已定,几乎没有创业公司会选择“再造一个OpenAI”。转而兴起的,是如火如荼的中间层和应用层创业,几层生态之间泾渭分明。
但在国内,通用模型层还没能分出胜负——无论是大厂派、互联网创业派还是学院派的模型团队,大家都在往GPT-3.5到GPT-4之间的目标前进。在效果上,大家没有办法拉开决定性差距。
局势不明朗时,一个更为牢靠的抓手是必要的,这是以后差异化的关键。比如,国内最早做大模型的的智谱,如今也在探索To C的应用形式;像讯飞这类垂类厂商造了通用大模型后,也上线了讯飞星火app,切入到学习和办公场景。
从造大模型到造应用,短短半年过去了,国内“百模大战”的第一阶段追逐战也告一段落。“现在还是群模乱舞的状态,未来慢慢会有更多的分层。“王小川说。而接下来的应用层之争,才是资源、技术、产品、商业化的全方位“持久战”。
关键词:
(责任编辑:黄俊飞)推荐内容
- 王小川,用大模型再造下一个搜狗|焦点分
- 平坝区组织参加全省安全生产暨防汛抗旱电
- 多线作战的昆仑万维,故事如何讲下去?
- 成都高新139.82亩宅地终止出让 此前挂牌
- 云南省2023年度灵活就业人员养老保险缴费
- C长华8月9日快速回调
- 山东平阴警方通报一小区有人打架:系邻里
- 热血猎人职业怎么选择 热血猎人职业推荐
- 【午盘】沪指跌0.36%,创指涨0.24%:医药
- 郭京飞:每个人都在追逐自己的希望之光
- 洪灏:政策在落地出台,市场将好转 |
- 竹编工艺(富阳特产)
- 事关中国,沙特阿美CEO:继续投资
- 世界上最吓人的日食(日全食多少年一次)
- 我国成功发射环境减灾二号06星
- 亚运为“媒”增活力,文旅产业融古今
- 大医院号源优先投向基层卫生机构
- 苏州深入开展廉洁文化建设
- 8月8日基金净值:鹏华沪深300指数增强A最
- 哈维谈法蒂未来:关窗前很多事可能发生,
- 佩杜拉:无论是否涉及互换交易,尤文都希
- 法国:乘风翱翔
- 迪丽热巴一天两套造型翻车,装嫩失败装老
- 百合股份:上半年净利润同比增长36%
- 股票行情快报:华海清科(688120)8月8日
- 60秒看贵州丨贵南高铁贵荔段开通运营
- 为重点人群提供专业化服务
- 四川提前避险转移4.3万余人!未来3天还有
- 紧急提醒:千万别乱对脸!有人已查出“白
- 溯源文化威海丨面塑:让老手艺焕发新光彩
- 清风石泉丨古诗鉴赏(五)——《书端州郡
- 新疆阿勒泰成为跨境旅游的新出口
- 广汽AI大模型平台首发亮相
- 持牌消金公司加速补充资金“弹药”!消费
- 金山这里举行户用光伏开发集中签约仪式
- 江西加速消除宫颈癌 为适龄女生免费接种
- 隆华新材8月8日盘中涨幅达5%
- 中国科大实现飞秒激光加工多关节微机械
- 2023年军工行业研究框架
- 沈石溪:生活积累和丰富想象缺一不可
- 美国NASA推进低温氢燃料客机开发工作;航
- “白天不用扇子,晚上不离被子”,这个盛
- 电贝司定弦(电贝司)
- 8月8日浙江武义神龙萤石价格暂稳
- 他那里没有货,他也不退款,自己还说一次
- 双胞胎接棒“猪老二”
- 圆通速递就高管亲属短线交易获利致歉,获
- 福建选调生报考条件及时间2023 福建选调
- 券商首份半年报出炉 多家上市券商业绩回暖
- 善待商业主体 为夜经济注入澎湃动力
- 高盛集团据悉将在本周四CPI数据发布前发
- 高校龙中龙第二季mp4(高校龙中龙第二季)
- 王石:民营企业家现在压力非常大,姚振华
- 法院强制执行后,福原爱表情憔悴现身鞠躬
- 8名游客被困青海海西无人区 当地公安历
- 佛山古镇“新八景”邀你来提名!祖庙街道
- 枪支走火酿惨剧!美国一14岁少年枪杀12岁
- 铁科轨道:上半年净利2.24亿元 同比增99.67%
- 一家茶馆的“枫”味故事
- 林宗毅:8月7日(周一)黄金多头动能不足
- 佩杜拉:无论是否涉及互换交易,尤文都希
- 法国:乘风翱翔
- 迪丽热巴一天两套造型翻车,装嫩失败装老
- 百合股份:上半年净利润同比增长36%
- 股票行情快报:华海清科(688120)8月8日
- 60秒看贵州丨贵南高铁贵荔段开通运营
- 为重点人群提供专业化服务
- 四川提前避险转移4.3万余人!未来3天还有
- 紧急提醒:千万别乱对脸!有人已查出“白
- 溯源文化威海丨面塑:让老手艺焕发新光彩
- 清风石泉丨古诗鉴赏(五)——《书端州郡
- 新疆阿勒泰成为跨境旅游的新出口
- 广汽AI大模型平台首发亮相
- 持牌消金公司加速补充资金“弹药”!消费
- 金山这里举行户用光伏开发集中签约仪式
- 江西加速消除宫颈癌 为适龄女生免费接种
- 隆华新材8月8日盘中涨幅达5%
- 中国科大实现飞秒激光加工多关节微机械
- 2023年军工行业研究框架
- 沈石溪:生活积累和丰富想象缺一不可
- 美国NASA推进低温氢燃料客机开发工作;航
- “白天不用扇子,晚上不离被子”,这个盛
- 电贝司定弦(电贝司)
- 8月8日浙江武义神龙萤石价格暂稳
- 他那里没有货,他也不退款,自己还说一次
- 双胞胎接棒“猪老二”
- 圆通速递就高管亲属短线交易获利致歉,获
- 福建选调生报考条件及时间2023 福建选调
- 券商首份半年报出炉 多家上市券商业绩回暖
- 善待商业主体 为夜经济注入澎湃动力
- 高盛集团据悉将在本周四CPI数据发布前发
- 高校龙中龙第二季mp4(高校龙中龙第二季)
- 王石:民营企业家现在压力非常大,姚振华
- 法院强制执行后,福原爱表情憔悴现身鞠躬
- 8名游客被困青海海西无人区 当地公安历
- 佛山古镇“新八景”邀你来提名!祖庙街道
- 枪支走火酿惨剧!美国一14岁少年枪杀12岁
- 铁科轨道:上半年净利2.24亿元 同比增99.67%
- 一家茶馆的“枫”味故事
- 林宗毅:8月7日(周一)黄金多头动能不足
- 4TB 仅 999 元,移速黑豹 PCIe 4.0
- 北斗星通拟出售北斗智联15%股权 部分置
- “中国(福建)—东盟经贸合作论坛”在福
- 谁能想到,一部11年前的电视剧,却能让刘
- 长春8月11日停电通知!涉及九台区这些地
- 重庆米格医疗美容门诊部等10家医美机构涉
- 同舟共“冀”!新疆疏附县向河北涿州捐赠
- 针对刘家坪供水问题,再次投诉,希望这次
- 《穿越火线》15周年嘉年华 “灵狐者的约
- 扎克伯格称已准备好格斗 马斯克:自己格
- 防汛救灾在行动|【动画】暴雨过后,这样
- 东吴嘉禾基金今日净值是多少 东吴嘉禾基
- 靖州一男子婚内赠与情人钱财被判返还
- pe管材 关于pe管材的介绍
- 清华大学周末和节假日继续开放校园参观
- 促进民营经济发展 国家税务总局发布28条
- 颁奖仪式上的“父子兵”
- 黑龙江尚志市努力降低农作物受淹损失见闻
- 幕后黑手?篮协干预周琦转会风波!
- 中科院物理所研究人员:疑似LK―99全悬浮