当我写这篇文章时,我感觉被各种复杂的情绪所包围:焦虑,热情,行动的冲动,恐惧,以及无奈。作为一个程序员,我一直都有这些情绪。但从时间的尺度来看,它们从未如此接近过。要么是热情的时期,要么是恐惧的时期;它们很少同时出现。 不,我的工作并不不稳定。我的公司盈利虽然不算天文数字,但它们的商业模式是可持续的。我们的工作方式也确保了公司免于大规模离职的困扰。 然而,这种情感的波动确实存在。这也促使我写这篇文章。在2022年ChatGPT推出之前,我曾写过一篇文章,说明为什么到2025年,创业将成为程序员最重要,甚至是唯一的可行选择。就算GenAI由一堆疯狂的大型语言模型(LLM)组成,它也必将带来工作生活的巨大重新调整。程序员们将面临巨大的变革。 我们需要摒弃极客思维,采取更加宏观的视角来应对这一挑战。这种视角应该具备什么特征呢? 我只能想到三个大方向。如果你们有更多想法,欢迎补充。 1: 做好学习的准备 编程领域曾有过一个学习非常令人兴奋的时期。那时学习意味着摆弄可以读懂的人类语言(Java、C++和.Net),同时又要不断追赶硬件技术的更新,解决有趣的问题,然后向全世界宣布你的发现。 之后,在2010年之后见证了JavaScript、Python兴起以及移动互联网的发展的十年间,编程逐渐与技术割裂,而更加紧密地与商业挂钩。如果敏捷开发方法没有让这一点成为现实,它肯定对此起到了推波助澜的作用。 迂腐的纯粹主义程序员开始被贴上过时/缺乏弹性的标签。年龄歧视盛行起来。StackOverflow 流了很多血。语言之间的战争变得愈加激烈而常常导致一个收获上百万星标的新生半成品框架应运而生。 在那段时间里,学习变得无关紧要起来。然而,它又作为一个必要手段,能够在很短的时间内带来巨大成果。 那个时期让位于现在,学习已经成为义不容辞的责任。 这已经是老生常谈,但如果任何决议清单上没有它,就会显得空洞无物。这是因为“学习新东西”的含义并不是每一次说出口时都一样。 学习在每个程序员的一生中,每次提到时都会带有不同的含义: – 当尝试学习一种新语言时,学习意味着熟悉新的语法并将其与已经知道的旧语法建立关联。如果这是程序员的第一种语言,那么关联将会与现实世界建立(console.log 就像在日志本上记录一样)。如果这已经是他的第 N+1 种语言,那么关联将会与他以前的第 1 到 N 种语言建立(JavaScript 的 console.log 和 Java 的 System.out.println 一样,只是有一些自定义)。 – 当程序员在没有适当文档的情况下学习一种新的架构时,他之前的所有学习都会变得无效。这是因为大脑依赖于心智模型,而新架构会强制建立新的模型。一个简单由 API 组成的后端现在也包含了一个处理加密的安全层,反之亦然。 – 当程序员适应一份新工作时,学习意味着要熟悉具有不同智力、出身、角色和权力结构的人。对于极客来说,这个过程可能比普通人适应新环境更难。没有现成的办法来保证成功。你必须边做边学,而每一个错误不仅会带来新的认知,还会导致无法预知的职业后果。 这一切都不难。但单单做好准备,随时准备学习、清除旧知识并适应新事物,就是区分出色程序员和平庸程序员的标准。 在任何时候,如果你身边的人(同事和上司)觉得你没有准备好适应新事物,你就面临着失去职位、声誉或两者的风险。 在当前的编程工作中,即使是为了复用你通过之前的学习所创建的东西,也根本没有时间让大脑休整。 如果你想要创建一个很酷的组件从而复用当前的功能集,当然可以这么做。但是不能保证它在6个月内就会被废弃——你会被迫为产品部门创建一个新的,因为他们不能理解你的痛苦。 2: 做好被取代的准备 GenAI(通用人工智能)即将来临。雇主还没有开始解雇程序员。但是对底线的影响已经相当明显。在…
OpenAI 愿意向出版商付费,但并不想支付太多
OpenAI 和苹果正在与新闻出版商谈判内容授权交易,以培训他们的 AI 系统。但据消息人士称,交易规模比业界预期的要小。一些出版商感觉他们没有得到公平的价值。 OpenAI 访问出版商内容的交易规模小于预期。 我们谈论的报价低至每年 100 万到 500 万美元给一些出版商。这就像给助理买杯咖啡来偷看老板的笔记本电脑。苹果表示“晚餐我请”,但想要复制东西到它的硬盘上。基本上是希望在如何使用内容上有更多灵活性。谷歌在这场竞赛中再次感到落后,但我们不应忘记,谷歌已经通过其产品(如 Google 新闻)拥有类似 TeamViewer 的访问权限。 尽管 OpenAI 早些时候已经达成了一些大牌交易(如 Alex Springer 和美联社),但更多出版商可能会想要等待看看《纽约时报》对 OpenAI 的案件结果如何。 OpenAI(和其他 AI 公司)将更加努力地确保与出版商的这些合同,以便 a) 获取独特数据,以及 b) 表示他们与创作者的“友好关系”。同时,更多出版商可能会因为 AI 公司使用他们的材料而起诉它们。 我想知道这里是否有机会让小型媒体公司支持 AI 公司,而不是反对它们。
Google Bard 收费?
谷歌正准备推出其 AI 聊天机器人 Bard 的付费升级版,名为 Bard Advanced。谷歌在去年 12 月宣布了 Bard Advanced 及其 Gemini 模型,称它将于今年初推出。看来他们真的是指的早期,因为隐藏在 Bard 网站中的生产代码揭示了许多即将推出的功能。 谷歌即将发布 Bard 的付费版本,并增加新功能。 Bard Advanced 可能会与谷歌的存储订阅服务 Google One 捆绑在一起,尽管目前还不清楚哪些层级将包含 Bard Advanced。Bard Advanced 将使用谷歌迄今为止最好的模型 Gemini Ultra,这个模型“看似”击败了 GPT-4。 Bard Advanced 将带来一些新功能: 1) 类似 GPT 的机器人。这些在泄露中被代号称为 Mokoto,代码截图的 URL 结构为“/bots/create”。这些可能是像 OpenAI 的 GPT 那样的定制聊天机器人。 2) 提示改进。一项名为 Power Up 的功能将把您的简单提示扩展为更高级、更好的提示。 此外,还有一个灵感画廊(建议提示和使用 AI 的方式一直是谷歌和 Bard…
Windows 键盘迎来新成员:微软专为 AI 留下一席之地!
微软非常看好 AI 是计算的未来,以至于他们正在为 Windows PC 键盘添加一个新按钮,专门用于其 Copilot AI 助手,首批新机型将在下周的 CES 上公布。 为什么这很重要:这是 30 年来 Windows 键盘的首次变革,也是硬件制造商押注 AI 不仅能创造新的产品类别,还能为旧产品注入活力的最新例证。 他们是怎么说的:“我们绝对认为今年是 AI PC 的一年,”微软执行副总裁 Yusuf Mehdi 告诉 Axios。“我们认为这是人们与计算机互动方式的下一个根本性变化。” 尽管已经有数千万人在使用 Windows Copilot,但 Mehdi 说,增加一个专用键表明微软认为“它现在已经成为主流,足够有价值,足够简单,适用于更广泛的人群。” Mehdi 表示,尽管 2024 年还将看到许多其他 AI 特定硬件的出现,但 PC 有其独特的角色,因为用户在这里创造了大量内容,从音乐到剧本再到图像。 细节:Copilot 键将位于空格键右侧,替换掉一个菜单按钮。 首批配备专用键的 PC 将在 CES 上公布,春季之前,微软和其他 PC 品牌将推出更多此类产品。到年底,Copilot 键应该会在新 PC 上普遍存在。按下新按钮将启动 Windows Copilot,它使用自然语言输入,让人们修改计算机设置、启动应用程序和执行其他计算任务。对于那些没有启用 Windows Copilot…
下周见!OpenAI 要开启全新的 GPT 应用商城大门啦
OpenAI 计划在未来一周内推出一个 GPT 应用商店,该商店专注于基于其文本生成 AI 模型(例如 GPT-4)的定制应用程序。 据 TechCrunch 查看的一封电子邮件显示,OpenAI 表示,开发者在其 GPT 应用被列入商店之前,必须审查该公司更新的使用政策和 GPT 品牌指南,以确保他们的 GPT 符合规定——这个商店被恰当地命名为 GPT 商店。他们还必须验证自己的用户资料,并确保他们的 GPT 被公开发布。 去年在 OpenAI 的首次年度开发者大会 DevDay 上宣布了 GPT 商店的计划,但在去年 12 月推迟了——几乎可以肯定是因为 11 月初公布后不久发生的领导层变动。 (故事的简短版本是,首席执行官 Sam Altman 被 OpenAI 董事会迫使离职,然后在投资者和员工恐慌之后——被带着新董事会重新聘请。) GPT 不需要编码经验,可以根据开发者的愿望简单或复杂。例如,可以在烹饪书集上训练 GPT,以便它能回答有关特定食谱的成分问题。或者,GPT 可以吸收公司的专有代码库,以便开发者可以检查其风格或生成符合最佳实践的代码。 开发者可以简单地用平常语言输入他们希望 GPT 提供的功能,OpenAI 的 GPT 构建工具 GPT Builder 将尝试制作一个 AI 驱动的聊天机器人来执行这些任务。自 DevDay 之后不久,开发者就能够通过…
2024年AI新风向
好的,我重新用非正式而详细的语言描述2024年AI发展的几个趋势: 谷歌和OpenAI这些人工智能巨头公司,会推出让普通用户也能轻松自定义强大语言模型从而制作出满足各种需求的小助手的平台。这可能是面向非技术人群的第一波真正实用的生成式人工智能应用。举个例子,房地产经纪人可以上传以往的文字房源描述和图片,调教模型学习这些数据,然后生成新的房源的描述。希望这些公司能解决人工智能模型经常编造事实、有偏见等问题,否则这波人工智能应用热潮很快就会过去。 文本转图像的生成模型已经司空见惯。新的前沿是文本转视频。预计视频生成人工智能会无限放大图像生成领域出现的所有好坏丑现象。几家创业公司最近的新模型已经可以生成几秒钟流畅逼真的动画片段,质量不输给皮克斯制作的动画。主流电影公司也开始大规模应用这些技术,比如为外语配音生成人物的唇形同步动画。此外还有一些公司使自己的人工智能模型可以像程序一样生成无数个虚拟角色,根据需要随时输出深度假视频。 在2024年备受瞩目的大选中,人工智能生成的谣言和深度假视频将会是一个巨大的社会问题。这种技术已经开始被一些政客当成武器使用。但是识破人工智能造假信息的技术还很初级,社交媒体平台也很难快速清除这些虚假内容。预计这场大规模的人工智能假新闻实时识别行动不会很成功。
曝光视频揭秘:苹果Vision Pro浏览Safari,流畅到让人眼前一亮
一起来看看 突破平面的限制:Apple Vision Pro 带来的全新 Safari 体验 告别传统的二维网页浏览,Apple Vision Pro 的 Safari 将让你在头戴式设备中以令人惊艳的 3D 空间方式打开多个窗口和标签页。这意味着你可以打造完全个性化的工作环境,无论是简单的双窗口设置,还是为了超高效率而同时开启五个窗口,Vision Pro 都能胜任。 想开多少个标签页就开多少个? 你或许会担心打开太多标签页会难以操作,但演示视频展示了流畅的操作过程,让你轻松地在开启的窗口之间切换,并在单个窗口内浏览各个标签页。你还可以拖出标签页创建新窗口,并随心所欲地重新定位和调整大小。演示视频显示了同时最多五个窗口,但似乎并没有打开数量上限。对于那些习惯同时打开几十个标签页的重度用户来说,简直是福音。 除了自由设置虚拟工作空间之外,演示还展示了 Vision Pro 如何将 3D 对象整合到 Safari 中。在 @M1Astra 的视频中(因版权问题已被移除,但仍可在 Discord 上观看),你可以 360 度查看 Vision Pro 的 3D 渲染模型,甚至可以调整其大小。3D 对象还会在其他标签页上投射阴影,表明它已被选中。虽然看似微不足道,但这一特性可以帮助你快速了解对象的尺寸或设计。 Apple 的 Vision Pro 发布预告片让我们瞥见了 Safari 在虚拟现实中的初衷,但并非全部。 空间计算时代下的 Safari 即将到来 考虑到 Apple 宣称的“2024 年初”发布,你很快就能体验到 Vision Pro…
三星公司宣布,将于1月17日发布人工智能驱动手机
三星近日宣布,将于1月17日在加利福尼亚州圣何塞举办新闻发布会,届时将揭幕其最新款Galaxy手机。 三星是苹果在智能手机市场上的主要竞争对手。根据Counterpoint Research的数据,三星在全球智能手机市场的份额为20%,而苹果的市场份额为16%。同时,在美国手机市场,三星的份额为25%,落后于苹果的53%。三星希望通过引入iPhone所没有的新功能来吸引更多用户。 三星在周二晚间表示,其最新设备将提供一种“全新的、由人工智能驱动的移动体验”。尽管目前尚不清楚这意味着什么,但高通和谷歌等竞争对手的近期公告或许能提供一些线索。 在美国市场,三星的智能手机传统上使用高通的芯片。最新的设备,可能被命名为Galaxy S24、Galaxy S24+ 和 Galaxy S24 Ultra,可能会利用高通针对安卓手机推出的Snapdragon Series 8 Gen 3芯片。三星通常是最先使用高通最新芯片的手机制造商之一。 高通在去年10月表示,其新的Snapdragon芯片将使手机能够直接运行生成型人工智能应用程序。这意味着像ChatGPT这样的应用程序的缩小版本可以在没有互联网连接的情况下运行。AI聊天机器人的设备版本可以使对话更加私密,因为查询不需要发送到云端。 高通还展示了其芯片如何用于基于一系列文字生成图像。例如,你可能会输入“创建一个显示男人驾驶汽车的图像”,它就会生成一张图片。这与谷歌在Pixel 8 Pro中使用的Tensor G3芯片类似。该手机可以根据用户选择的一组单词创建自定义手机壁纸。 Pixel 8 Pro还支持谷歌的Gemini Nano AI模型,该模型可以创建短信回复、转录录音对话等功能。人工智能还常被用于改进视频和照片。
OpenVoice:多功能即时语音克隆
OpenVoice,一种多功能的即时语音克隆方法,仅需参考发言人的一小段音频片段,即可复制其声音并以多种语言生成语音。OpenVoice能够在复制参考发言人的音色基础上,实现对声音风格的细粒度控制,包括情感、口音、节奏、停顿和语调。此外,OpenVoice还实现了零样本跨语言的语音克隆,适用于未包含在大规模训练集中的语言。OpenVoice在计算效率上也表现出色,其成本仅为市面上提供相似但性能较差服务的商业API的数十分之一。特色是, 技术报告和源代码可在以下链接找到:https://arxiv.org/pdf/2312.01479.pdf 和 https://github.com/myshell-ai/OpenVoice
研究发现LLM不匹配人类对文本评价的偏见
随着大型语言模型(LLM)在现实世界应用日益增多,从推荐内容到评分求职申请,理解这些模型中的偏差变得至关重要。当这些模型存在偏见时,它们可能做出不公平或不准确的决策或预测。 假设一个人工智能系统用于评分求职申请。该系统使用大型语言模型来评估求职信的质量。但如果该模型具有固有的偏见,例如偏爱更长的文本或某些关键词,它可能不公平地偏袒某些申请者,即使他们并不一定更合格。 LLM的认知偏差 明尼苏达大学和Grammarly的研究人员现已进行了一项研究,以测量在自动评估文本质量时大型语言模型(LLM)中的认知偏差。该研究团队组建了15个来自四个不同大小范围的LLM,并分析了它们的回应。这些模型被要求评估其他LLM的回应,例如“System Star比System Square更好”。 为此,研究人员引入了“大型语言模型评估者认知偏差基准”(COBBLER),这是一个用于测量LLM评估中六种不同认知偏差的基准。他们使用了BIGBENCH和ELI5数据集中的50个问题-答案示例,生成了每个LLM的回应,并要求模型评估自己的回应和其他模型的回应。 测量的偏差示例包括以自我为中心的偏差,其中模型在评分时偏爱自己的结果,以及顺序偏差,即模型根据选项的顺序偏爱一个选项。请参阅下表,了解完整的偏差列表。 该研究表明,LLM在判断文本质量时存在偏见。研究人员还检查了人类和机器偏好之间的相关性,并发现机器偏好与人类偏好不密切匹配(排名偏差重叠:49.6%)。 根据研究小组的结果,LLM不应该用于基于人类偏好的自动标注。大多数经过测试的模型显示出强烈的认知偏差,可能会损害它们作为评注者的可信度。即使是那些经过指令调整或以人类反馈训练的模型,在用作自动评注者时也表现出各种认知偏差。 人类和机器评级之间低相关性表明,机器和人类的偏好通常不太接近。这引发了一个问题:LLM是否能够提供公平的评级。我们的研究结果表明,由于包含各种认知偏差以及与人类偏好的低度一致性,LLM目前还不适合作为公平和可靠的自动评估者。该研究的完整细节可在arXiv论文“大型语言模型评估者的认知偏差基准”中找到