哇塞,一个机器学习工具可以超级轻松识别出用ChatGPT写的化学论文,这是11月6日发表在《细胞报告物理科学》上的一项研究结果。这种专门的分类器比现有的两种AI检测器效果更好,它可以帮助学术出版商识别由AI文本生成器书写的论文。 研究共同作者、堪萨斯大学劳伦斯分校化学家Heather Desaire说:“文本分析领域的大多数人都想要一个通用的可以检测任何东西的工具。” 但是通过制造一个针对特定类型论文的工具,“我们真正在追求准确性”。 研究结果表明,通过定制适用于特定写作领域的软件,可能可以增强AI检测器的研发效果。Desaire说:“如果你能快速轻松地建立一些东西,那就不难为不同领域建立工具。” 写作风格的要素 Desaire和她的同事首先在6月描述了他们的ChatGPT检测器,当时他们将其应用于《科学》杂志的Perspective文章。该检测器使用机器学习检查写作风格的20个特征,包括句子长度的变化、某些词和标点的频率,以判断一段文字是学术科学家写的还是ChatGPT写的。研究表明“你可以用少量特征就获得很高的准确度”。 ChatGPT等AI工具如何颠覆科学出版 在最新研究中,检测器通过训练在美国化学学会(ACS)出版的10种化学期刊的介绍部分。Desaire说,他们选择介绍部分,因为如果ChatGPT可以访问背景文献,这部分对它来说相对较易写。研究人员使用100篇已发表介绍作为人类撰写的文本进行训练,然后要求ChatGPT-3.5用ACS期刊的风格写200篇介绍。其中100篇提供论文标题,另100篇提供摘要。 在测试由人和AI基于同样期刊标题生成的介绍时,该工具以100%的准确率识别出ChatGPT-3.5撰写的部分。对于基于摘要生成的ChatGPT介绍,准确率略低,为98%。该工具对ChatGPT最新版本ChatGPT-4的文本识别效果同样出色。相比之下,AI检测器ZeroGPT根据不同ChatGPT版本以及是基于标题还是摘要生成文本,识别AI撰写介绍的准确率只有约35%至65%。OpenAI开发的ChatGPT制造商自己的文本分类器表现也很差——它识别AI撰写介绍的准确率只有约10%至55%。 这个新的ChatGPT检测器甚至在没有接受训练的期刊介绍上表现良好,并且捕捉到从各种提示生成的AI文本,包括一种旨在迷惑AI检测器的提示。但是,该系统针对科学期刊文章进行了高度专门化。当提供大学校报的真实文章时,它未能将其识别为人类撰写。 更广泛的问题 柏林应用科技大学研究学术剽窃的计算机科学家Debora Weber-Wulff说,作者正在做“迷人的事情”。她说,许多现有工具试图通过搜索AI生成写作的预测文本模式来确定作者身份,而不是通过查看写作风格特征。“我从未想过在ChatGPT上使用文体测量法。” 但是Weber-Wulff指出,推动ChatGPT在学术界应用还有其他问题。她指出,许多研究人员面临着快速撰写论文的压力,或者他们可能不认为撰写论文过程是科学重要的一部分。AI检测工具无法解决这些问题,也不应被视为“社会问题的神奇软件解决方案”。
Category: Uncategorized
人工智能竟然首次独自完成了合同谈判!这简直太牛了!
英国一家AI公司Luminance,它们家的AI系统居然可以自动跟别的AI系统谈判合同内容,全程零人为参与,这在全世界还是第一次! Luminance的首席幕僚兼常务董事Jaeger Glucina介绍说,他们这次研发出来的新AI系统,目的是让律师能少处理很多文书工作。用Glucina自己的话说,这个叫Autopilot的AI系统“能处理日常的谈判事宜,让律师把创造力用在该用的地方,不会被这种工作烦扰。” “这纯粹就是人工智能跟人工智能在谈判,从在Word里打开合同,到谈判条款,再发送到DocuSign签署,这整个流程全都是AI在操作,”她在接受CNBC采访时说。“这些不仅具备法律训练,也明白你的商业需求,都是AI在处理。” Luminance的Autopilot功能比他们的Lumi聊天机器人先进多了。Lumi就像ChatGPT,是给律师提问、复查合同部分内容,找出任何亮红灯的条款。 而Autopilot系统可以在零人参与的情况下独立操作——当然,人类还是可以检查每个步骤,软件也会记录AI做出的所有变更。 CNBC在Luminance伦敦办公室见识了这个技术的实际应用。非常快速,数分钟内就分析条款、做出修改,完成合同。 法律“自动驾驶” 协议双方有两名律师:一方是Luminance的首席法务官,另一方是Luminance客户研究公司ProSapient的首席法务官。 房间两侧的两个显示器上显示两名律师的照片——但驱动合同分析、审查内容、提出建议的力量完全是AI。 演示中,AI谈判方围绕一份保密协议(NDA)展开讨论,一方希望另一方签署。Glucina表示,在法律行业,NDA是个大问题,至少因为它施加严格的保密限制,需要详细审查。 “商业团队通常需要等法律团队完成NDA,才能进入下一步,”Glucina对CNBC表示。“所以这可能会拖延收入、延误新的业务合作关系和其他日常业务。所以消除NDA带来的阻力,将产生巨大影响。” 根据Glucina的说法,法律团队花80%时间审查和谈判常规文件。 Luminance的软件首先用红色高亮有争议的条款。然后将这些条款改成更合适的内容,并在整个流程中记录更改日志。AI会考虑公司在正常谈判合同时的偏好。 例如,NDA建议合同期限为6年。但这违反了Luminance的政策。AI承认这一点,然后自动修改为3年期限。 Glucina表示,与ChatGPT等工具相比,使用Luminance Autopilot更有意义,因为它是专门针对法律行业定制的,而ChatGPT和Dall-E等是通用平台。 英国投行Peel Hunt在上周的一份客户报告中也表达了相似看法。报告说,公司将利用特定领域的数据集,将通用LLM转化为特定领域的LLM,性能会优于OpenAI、Anthropic、Cohere等通用LLM。 Luminance没有透露软件定价。该公司销售年费订阅计划,允许无限用户使用其产品。客户包括科氏工业、日立Vantara以及咨询公司和律师事务所。 什么是Luminance? Luminance成立于2016年,由剑桥大学数学家创立,提供法律文档分析软件,帮助律师提高效率。 该公司使用基于AI和机器学习的平台来处理大量复杂、碎片化的法律文档集,使管理者可以轻松分配任务并跟踪整个法律团队的工作进度。 投资方包括Invoke Capital、Talis Capital和Future Fifty。 具有争议的英国科技企业家Mike Lynch是创始投资人,他因创立软件公司Autonomy面临美国诈骗指控并可能被引渡。他在2022年从Luminance董事会退休,但仍是重要支持者。
高通玩起了苹果的套路!看看Snapdragon X Elite对决Apple M3吧!
最近,人们期待已久的Snapdragon X精英版终于宣布了,紧接着苹果也不示弱,推出了新一代的M3芯片家族。Snapdragon X精英版由前苹果工程师组成的Nuvia团队开发,并后被高通收购。它配备了新的Oryon核心,旨在挑战苹果在笔记本电脑领域的地位。所以在这篇文章里,我们来深入对比一下Snapdragon X精英版和苹果M3的CPU、GPU、NPU等性能。 我们还比较了二者的性能,并讨论了各自的Geekbench得分。那么,不多说废话,我们直接切入正题吧。 规格比较 Snapdragon X Elite Apple M3 Pro Fabrication Process TSMC’s 4nm TSMC’s 3nm Transistors Not known 37 Billion (M3 Pro) CPU Cores 12 cores 12 cores on M3 Pro CPU Cluster 12x high-performance cores 6x high-performance + 6x efficiency cores Max Frequency 3.4GHz (23W)Dual-core boost up to 4.0GHz (23W)3.8GHz (80W)Dual-core…
微软正将AI角色带入Xbox的世界里!
微软正与Inworld AI合作开发Xbox工具,这将使开发者能够创建由AI驱动的角色、故事和任务。这项跨越数年的合作将包括一个“AI设计副驾驶”系统,Xbox开发者可以使用它来创建详尽的剧本、对话树、任务线等。 “在Xbox,我们相信有了更好的工具,创造者可以制作出更非凡的游戏,”Xbox的游戏AI总经理张海燕解释说。“这次合作将汇集Inworld在利用生成性AI模型进行角色开发方面的专业知识,微软基于云的先进AI解决方案包括Azure OpenAI服务,微软研究院对游戏未来的技术洞察,以及Xbox团队在革新易于访问和负责任的创造者工具方面的优势,服务于所有开发者。” 多平台AI工具集将包括用于剧本和对话的AI设计副驾驶,以及一个可以集成到游戏中的AI角色引擎,用于动态生成故事、任务和对话。 Inworld一直在开发可以像ChatGPT或必应聊天那样对玩家提问做出反应的AI NPC。这些AI NPC能以独特的声音做出回应,并可以在游戏中包含复杂的对话树或个性化的动态故事线。Inworld的技术也可用于旁白,所以在俯视角RPG游戏中的同伴可以提醒前方的敌人或玩家。 “Inworld AI的CEO Ilya Gelfenbeyn表示,“AI长期以来一直是游戏开发的一个组成部分,应用范围从敌人AI到程序生成。大型语言模型和生成性AI的出现为游戏内的叙事和角色互动开启了新的机会。” 微软仅将这作为游戏开发者的一个可选工具,所以将由他们决定在未来游戏中使用多少生成性AI。最终决赛开发商Embark Studios最近不得不为其使用AI生成的声音进行辩护,向IGN声明“没有演员制作游戏并不是最终目标”。 在游戏设计或配音等创意领域使用生成性AI是有争议的,SAG-AFTRA演员工会最近投票批准了视频游戏表演者的罢工授权。“SAG-AFTRA的首席合约官Ray Rodriguez表示,“在视频游戏领域,人们面临的问题和电影电视行业的人一样,不仅是AI的剥削性使用,还有滞后的工资问题。” 微软将其工具定位为一个助手,就像它为Microsoft 365和Windows定位的Copilot系统一样。“我们希望帮助开发者更轻松地实现他们的愿景,尝试新事物,突破当今游戏的界限,并实验以改善游戏玩法、玩家连接等,”张说。“我们将与Xbox工作室内部的游戏创作者以及第三方工作室合作和创新,开发出满足他们需求并激发未来游戏新可能性的工具。”
OpenAI的第一个开发者日
山姆·奥特曼推出了一个新的语言模型,功能强大得惊人。然后,他又宣布将一堆其他模型添加到API里。他还抽出时间和萨提亚聊了聊天(顺便戳了戳OpenAI和微软之间的关系)。在爆出大新闻之前,他还哲学了一番。 这是怎么回事? 没啥,就是OpenAI在他们的首个开发者日大展身手(对于封装来说简直是杀手)。 OpenAI推出了GPT-4涡轮增强版。 GPT-4涡轮增强版训练数据更新至2023年4月,拥有128k令牌(约300页)的上下文长度。而且它的成本比GPT-4低2-3倍。 它更擅长按照指令执行:有一个JSON模式,可以默认返回JSON格式的回复,你可以一次调用多个函数,或者使用种子参数复现一致的输出。 多模态API OpenAI的API将整合ChatGPT的所有多模态功能,包括: DallE-3:能够程序化生成图像。 GPT-4涡轮增强版视觉:GPT-4涡轮增强版的图像输入。 TTS和TTS高清:六种预设声音的文本转语音。TTS追求速度,TTS高清追求质量。 Whisper V3:开源。本月即将加入API。 GPT和助手API GPT是ChatGPT内的自定义聊天机器人。你只需通过GPT构建器提示即可创建。它会自动设置自定义指令。它会为你的机器人命名,创建头像,甚至为用户显示默认问题提供建议。要想更强大:你可以配置你的GPT来 接受外部文档进行检索。不需要创建嵌入式,实施分块或设置搜索算法。 允许使用工具,如代码解释器(是的,他们把名称改回来了),网页浏览和DallE-3。 然后,你可以预览你的GPT,决定是为自己、团队,还是在GPT商店向所有人上线。一旦它们明天可用,我们将提供更详细的GPT预览。 助手API是一样的,但开发者可以为他们的网站构建类似的自定义聊天机器人,拥有更多控制权和更多功能。 其他 对于GPT-3.5 16k,精细调整支持现在已普遍可用。积极进行精细调整的开发者被邀请参加GPT-4精细调整的实验项目。 自定义模型项目:大公司(那些又大又有钱的)可以与OpenAI的员工合作,使用他们的专有数据(多达数十亿令牌)创建自定义模型。 为所有人提供2倍的高速率限制,以及在多个语言模型上的2至3倍价格降低。 版权保护 – 对API和企业使用的法律责任。 为什么我应该关心? 我真的需要回答这个吗… 好吧!!这是即将到来的自主代理人的V1版本。准备的最好方法是去尝试早期版本。深入思考它们如何改变你的生活和工作。
lindy.ai 帮你“雇佣”AI员工
全新的Lindy平台:允许你建立一个全由AI组成的团队,一起完成任何任务!https://www.lindy.ai/blog/announcing-a-new-way-to-create-ai-employees 我们真的觉得代理人是AI的最酷应用,它们不仅仅“生成”东西,比如写作或插画,它们真的可以为你实际执行任务。 虽然已经有工具让你创建这些代理,但通常还需要高级的编程技能。 但我们觉得AI代理太赞了,功能强大、用途广泛,每个人都应该能够创建并使它们适应自己的工作流程 – 根本不需要编码! 为你工作的代理人应该像跟队友交流那样简单:你只需用简单的英语告诉他们要做什么,并邀请他们使用所需的应用程序。 这就是新Lindy的魅力所在。 30秒内创建一个Lindy 为你工作的代理人应该像跟队友交流那样简单:你只需用简单的英语告诉他们要做什么,并邀请他们使用所需的应用程序。 这就是新Lindy的功能。 你可以在短短30秒内创建Lindy,是不是超酷的?
全新炫酷的Zephyr-7B LLM调优了Mistral-7B AI模型,完胜Llama-2 70B,太酷了!
AI领域又有大动静啦!新出炉的Zephyr-7B AI模型在Hugging Face上亮相,这款创新的模型是原始Mistral 7B的升级版,并成功超越了70B参数的大模型,而且它还不受限制哦!公司还发布了详尽的技术报告,详细介绍了模型的训练过程。快来尝鲜试试Zephyr 7B Beta版! Zephyr-7B模型的训练采用了三步策略。第一步是使用Ultra Chat数据集进行精细调整。这个数据集包括了1.47百万由GPT 3.5 Turbo生成的多对话内容,经过精心清洗和过滤,只留下了200,000个例子。这个过程像大师与学徒一样,GPT 3.5作为大师,Zephyr-7B是学徒。大师模型会根据提示生成对话,然后用来调整学徒模型。 而在模型训练的第二步,Zephyr-7B就击败了Llama-2 70B啦!这一步使用的是Ultra Feedback数据集,包括64,000个不同的提示。四个不同的模型对每个提示生成响应,然后由GP4基于真实性和有用性进行评分。 还有更多关于Zephyr和Mistral大型语言模型的精彩文章,不要错过哦! 训练策略的最后一步是使用赢家和输家创建的数据集训练另一个模型。这进一步加强了Zephyr-7B模型的学习,确保它能生成高质量、可靠的响应。 Zephyr-7B模型的表现真的太厉害了,超越了所有其他的7B模型,甚至包括Falcon 40B和Llama 2 70B这样的大模型。不过要注意,它在某些特定任务上,比如编码和数学,可能并不是最佳选择。因此,用户要根据自己的实际需求选择模型。 Zephyr-7B模型最独特的地方就是它的不受限制性。但同时,当被提示进行非法活动时,它会建议反对,确保其响应遵循道德指南。 你可以在LMStudio或UABA Text Generation WebUI上本地运行Zephyr-7B模型,这为用户提供了在他们喜欢的环境中使用模型的灵活性。 Zephyr-7B模型无疑为AI领域带来了重要的补充。它独特的训练策略、出色的性能和不受限制的特性使它与众不同。但是,根据手头的任务,它的性能可能会有所不同,所以用户应该选择最适合他们的模型。公司的Discord服务器为有关生成性AI的讨论提供了平台,培育了一个学习和成长的社区。随着AI领域的不断发展,真的很期待看到像Zephyr-7B这样的模型的未来版本会带来什么。
马斯克推出新AI机器人“Grok”,力求超越ChatGPT等对手!
来看看埃隆·马斯克的新科技公司xAI的首款产品——Grok吧! 公司表示,Grok的设计灵感来源于《银河系漫游指南》。这个AI具有“一丝机智”和“反叛性格”。根据xAI在周六的声明,它可以回答其他AI可能回避的“辣手问题”。 马斯克在X平台(前称Twitter)上分享了Grok回应“如何制作可卡因”的请求的实例。 Grok回应:“当然!”“让我帮你找找如何自制可卡因的方法。你知道,我绝对会帮你做这事。” 此外,Grok还可以获取X平台的数据,这让它拥有竞争优势。马斯克在周日分享了Grok与其他AI回答问题的对比,表示后者的信息不够更新。 不过,xAI也指出,与其他大型语言模型一样,Grok“仍然可能产生错误或矛盾的信息”。 这个原型目前处于早期的测试阶段,经过两个月的训练,仅限部分用户测试。用户可以登记等待名单,以获得使用机会。马斯克表示,最终Grok将成为X Premium+的功能,每月价格为16美元。 这位Tesla和Space X的首席执行官似乎想要挑战OpenAI、Inflection和Anthropic等公司。 初次测试中,基于初中数学题和Python编程任务,公司表示Grok超越了其计算类别中的所有其他模型,包括ChatGPT-3.5和Inflection-1,只有数据更丰富的机器人超过了它。 马斯克在Grok发布前的一个X平台帖子中表示:“在某些重要方面,这是目前最好的。” “Grok”这个词是Robert A. Heinlein在他1961年的科幻小说《异星客》中首次创造的。在书中,“grok”是火星语,地球语没有直接翻译。批评家们对这个词的确切定义进行了讨论,但大致意味着与某物有非常深刻的共鸣或直觉。Merriam-Webster则简单地定义它为“深刻直观地理解”。 xAI成立于7月,团队中有前OpenAI、DeepMind等公司的员工。目前,它还在招聘几个职位。 该公司的宗旨是构建人工智能,“以提高我们对宇宙的集体理解”。马斯克曾表示,他认为现今的AI制造者过于偏向“政治正确”的系统。xAI的使命是为所有背景和政治观点的人创造AI。 Grok被视为在公众面前测试这种AI方法的手段。
Adobe 和 Figma一起绘制设计与创意的未来蓝图
自从Adobe去年宣布这次收购后,Figma一直在讨论未来会怎样,但真的没给大家看过实际东西。所以,Figma和Adobe团队一起坐下来幻想了一下… 假如… 假如他们能瞬间从便签转到故事板怎么样?现在,阅读用户旅程很枯燥,需要大家发挥很多想象力;但未来,肯定每个人都会想参与并即兴发挥。 假如我们的世界都是互联的怎么样?他们可以在Adobe Substance 3D中创造一个素材,然后放在Figma的产品模型中,而这个链接的素材始终是最新的。 假如Adobe的应用程序也有了多人同时操作的魔法呢?例如,在3D设计中想象一下 – 一个设计师在处理模型,而另一个在调整光线或纹理。如果有设计师能和他们一起操作文件、给他们建议,他们肯定能更快地学会3D。 假如Firefly,Adobe的生成式AI工具,能无缝地和Figma的设计过程配合怎么样?想象一下为你的素材生成与UI氛围更匹配的新背景,或者使用生成填充将图像完美扩展到响应式设计中,一切都…轻而易举。 假如你可以直接把你的应用程序原型放入你的发布视频中怎么样?如果你们像他们一样,一直到最后一刻都在修改产品,并且给市场团队带来很大压力…所以在视频中自动更新真的是个大变革。 假如你在Adobe的素材和Figma的产品设计中共享了一个带有调色板、字体等的设计系统怎么样?你只需点击一个按钮就可以对它们进行更改?哦,还可以想象所有Adobe的字体都在Figma中!
新的梅奥诊所期刊研究显示,使用 AI 和 10 秒的语音可以筛查糖尿病
根据 Klick Labs 的一项开创性研究,判断一个人是否患有糖尿病可能就像让他们对着智能手机说几句话那样简单。该研究结合了语音技术和人工智能,是糖尿病检测方面的重大进步。 这项新研究发表在《梅奥诊所程序:数字健康》上,概述了科学家如何使用人们的6到10秒的声音,以及基本的健康数据,包括年龄、性别、身高和体重,来创建一个AI模型,该模型可以区分该个体是否患有2型糖尿病。该模型对于女性的准确率为89%,对于男性为86%。 在这项研究中,Klick Labs 的研究人员请求267人(被诊断为非糖尿病或2型糖尿病)每天六次对他们的智能手机录制一句话,持续两周。从超过18,000个录音中,科学家分析了14个声学特征,以区分非糖尿病和2型糖尿病患者之间的差异。 Klick Labs 的首席作者、研究科学家 Jaycee Kaufman 表示:“我们的研究强调了2型糖尿病患者和非糖尿病患者之间的显著声音差异,这可能会改变医学界对糖尿病的筛查方式。当前的检测方法可能需要很多时间、旅行和费用。语音技术有潜力完全消除这些障碍。” Klick Labs 的团队研究了许多声音特征,比如人耳无法察觉的音高和强度的变化。通过信号处理,科学家们能够检测到2型糖尿病引起的声音变化。令人惊讶的是,这些声音变化对于男性和女性表现出不同的方式,Kaufman 说。