AI TrendTrackers

Open AI 的智能代理—

Posted on November 10, 2024November 10, 2024 by aitrendtrackers@rengongzhineng.io

OpenAI的产品平台负责人Olivier Godement和开发者体验负责人Romain Huet正开启一场全球之旅。上周，他们在伦敦的DevDay开发者大会前夕接受了采访。这次伦敦的DevDay是公司首次在旧金山以外举办，接下来，他们还将前往新加坡。最近OpenAI可谓繁忙异常。在伦敦，OpenAI发布了其最新的实时API平台更新，开发者现在可以通过平台为应用程序添加语音功能。这一更新不仅提供了全新语音，还加入了帮助生成提示的功能，使得构建应用程序和语音助手的流程更为快速便捷。同时，面向普通用户，OpenAI推出了ChatGPT搜索功能，用户可以通过聊天机器人进行网络搜索。这些更新为AI的下一大潮流铺平了道路：智能代理——一种能完成复杂任务链的AI助手，比如自动预订机票。Godement预测，未来几年内，每个人和每家企业都将拥有一个“熟悉用户的助手”，像首席助手一样全面管理用户的邮件、应用程序、日程，甚至可以协助撰写特定主题的论文。 OpenAI的策略是既自行构建这些智能代理，同时也为开发者提供工具来开发自己的代理。Godement强调，语音将对智能代理的未来形态起到重要作用。现在的应用程序主要以文字对话为主，虽然适合大多数场景，但在某些情况下，语音显然是更好的交互方式。不过，要让智能代理成为现实，Godement指出还需要克服两大难题。首先是“推理能力”的挑战。构建能够完成复杂任务并确保“正确执行”的AI模型至关重要。Huet提到，上个月OpenAI发布的o1模型中加入了“推理”功能，通过强化学习提升AI在链式思维上的能力，帮助模型分解问题、纠错、尝试多种方案来回答问题。不过，对于OpenAI在推理能力方面的主张，华盛顿大学的计算机科学教授Chirag Shah持保留态度。他认为，这些大型语言模型并非真正具有推理能力，而只是对训练数据中的逻辑进行了模仿。Shah认为，这些模型表现得“像是有推理能力，但仔细观察会发现很快露出破绽”。 Godement也承认还有很多工作要做。短期来看，模型需要变得更加可靠、快速和经济。长期来看，OpenAI计划将“链式思维”技术应用到更多领域，例如法律、会计和经济学等。另一个挑战是实现工具的互联性。AI模型仅依赖训练数据会有局限，需要具备实时上网能力来获取最新信息。ChatGPT搜索正是OpenAI赋予其AI的新功能之一，不仅可以获取信息，还能够在现实中采取行动。竞争对手Anthropic的Claude聊天机器人甚至可以模拟点击操作，而Godement表示o1目前也能“部分”实现工具操作，但还不够可靠。 Godement预计，未来一年内，AI在客户支持等助手任务中的应用将大幅增长。他坦言，AI技术的实际应用往往会超出预期，每年都会冒出一些意想不到的新应用。在另一个AI前沿，AI公司Decart和Etched合作推出了一个实时生成的Minecraft版本，采用了“下一帧预测”技术。该AI模型通过数百万小时的Minecraft游戏数据训练，能够模拟游戏的物理和环境互动，尽管偶尔会出现如“环境幻觉”般的变化。这一技术或许预示着实时视频生成的未来。最后，AI的迅猛发展也带来一些潜在问题。AI搜索可能扰乱数字经济，生成AI模型的设备更可能加剧电子垃圾问题，而一些AI生成的内容也引发争议。Facebook母公司Meta的CEO扎克伯格表示，将看到更多由AI生成或汇总的内容，这也许是令人兴奋的新内容形态。

特朗普的AI政策

Posted on November 9, 2024November 9, 2024 by aitrendtrackers@rengongzhineng.io

当特朗普上一次担任美国总统时，ChatGPT 还没有诞生。而如今，在击败副总统卡玛拉·哈里斯赢得2024年大选之后，特朗普准备重返白宫，人工智能领域的格局也已发生翻天覆地的变化。 AI技术发展迅猛，甚至一些行业领袖，如Anthropic公司首席执行官达里奥·阿莫迪和特斯拉CEO、特朗普的支持者埃隆·马斯克都认为AI可能在2026年之前超越人类智能。其他人则提供了更宽泛的预测时间范围。OpenAI的CEO萨姆·阿尔特曼在九月的文章中提到，“我们或许将在未来数千天内迎来超级智能”，但他也补充说“这可能需要更长的时间”。而Meta的CEO马克·扎克伯格则认为这些系统的到来将是一个渐进过程，而非瞬间的突破。无论进展多快，这种技术的快速发展对国家安全、经济乃至全球力量平衡可能产生深远的影响。特朗普对AI的态度在敬畏和担忧之间摇摆不定。在六月的采访中，他将AI称为“超能力”，并表示其能力“令人警惕”。如同许多华盛顿政客一样，他也从与中国竞争的角度来看待这项技术，视中国为AI领域的“主要威胁”。但即便是特朗普的核心盟友，也对AI政策存有分歧：马斯克一直强调AI的生存威胁，而特朗普的副总统J.D.范斯则认为这些警告是为了推动有利于科技巨头的法规。特朗普阵营内部的这种分裂表明，未来的AI政策可能会受到不同压力的影响。推翻拜登的AI政策遗产特朗普上任后的首要AI政策可能是废除拜登总统签署的人工智能行政命令。该命令旨在解决AI技术对民权、隐私和国家安全的潜在威胁，同时鼓励创新、竞争以及AI在公共服务中的应用。特朗普在竞选活动中承诺废除这一命令，并在2023年7月的共和党纲领中再次表态，指责该命令阻碍创新，并将“激进左翼思想”带入了技术发展中。拜登的AI行政命令中有关种族歧视和不平等的部分显然不符合特朗普的风格，但分析人士认为他可能会保留一些两党都支持的条款。例如，特朗普政府可能会加强国土安全部在网络安全、生物和放射性风险评估方面的工作，以应对AI带来的风险。拜登政府于去年设立的美国AI安全研究所(AISI)的未来也存在不确定性。AISI与OpenAI和Anthropic等公司签署了合作协议，致力于AI安全研究和新模型的测试。尽管有些人认为AISI会限制创新，但多数共和党人仍支持其存在，将其视为美国AI领导力的延伸。美国优先AI政策与中美竞争特朗普的相关言论表明，保持美国在AI领域的领先地位将是其执政的关键。他在六月份的一次采访中表示，“我们必须走在前列，必须领先于中国”。他还指出环保问题可能成为阻碍，认为这会拖慢美国的AI发展进程。研究员迪恩·鲍尔认为，特朗普的AI政策可能包括放宽法规，以加速AI基础设施的建设，包括数据中心和芯片生产。出口限制也将是未来AI政策中的重要因素。基于他首个任期内实施的限制措施，特朗普很可能会进一步加大力度限制中国获取先进半导体。多数人认为，无论哪一方执政，出口管制对美中关系至关重要。开源AI的兴起也带来了新的挑战。中国已展示出利用美国开源系统的能力，有报道称中国研究人员将Meta的Llama模型早期版本用于军事用途。这引发了政策争议。共和党内有些人支持开源，而另一些“鹰派”则强烈反对在AI前沿技术上开放代码。尽管特朗普一向对中美竞争保持高调，但他的政策仍可能具备一定的交易性。例如，2018年特朗普曾在对中兴公司实施罚款和加强监管后解除了对其的限制。因此，分析人士认为，未来的AI政策中，特朗普可能会选择与中国达成类似的交易，尤其是如果他认可业界对AI极端风险的担忧，比如AI可能失控的潜在风险。特朗普联盟内对AI政策的分歧在AI治理方面，特朗普的支持者内部也存在深层次的分歧。像范斯这样的支持者倾向于对AI实施较为宽松的监管，而硅谷亿万富翁彼得·蒂尔等人则认为任何监管AI的措施都会带有“全球极权主义的特征”。然而，其他顾问则更注重AI的安全风险，尤其是人工通用智能的潜在风险。马斯克对AI的生存风险表示长期关注，认为AI有10%至20%的可能性会“变坏”。尽管马斯克在推动AI安全方面积极发声，但特朗普政府未来在AI领域的任命和政策方向仍难以预测。特朗普也已认识到AI对国家安全的潜在威胁。他曾担心AI生成的深度伪造可能引发核战的风险，甚至可能出现AI系统“失控”的情况。不过对特朗普而言，中美竞争仍然是最核心的关注点。尽管政策内部声音不一，AI安全的保障并不必然意味着放缓发展。分析人士指出，在防止AI滥用方面的投入相对较少，特朗普团队未来可能如何平衡这些不同的声音，将对美国的AI政策方向产生重大影响。随着全球AI竞争加剧，美国的政策走向或将影响未来的科技力量对比。

Anthropic发布了全新Haiku 3.5模型

Posted on November 7, 2024November 7, 2024 by aitrendtrackers@rengongzhineng.io

Anthropic发布了全新Haiku 3.5模型，该模型现已通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI平台向公众开放。据Anthropic介绍，Haiku 3.5在代码生成、工具使用和逻辑推理方面表现更为出色，在许多基准测试中超越了上一代的旗舰模型Claude 3 Opus，尽管成本低约15倍。其定价为每百万输入tokens收费1美元，每百万输出tokens收费5美元，约为第一代Haiku的四倍。旧版Haiku目前仍在提供，且具备新款尚未具备的视觉处理功能。在降低使用成本方面，用户可以通过缓存和批量处理提示来节省开支，与其他Anthropic模型类似。该模型适合对响应速度要求较高的任务，例如终端用户聊天机器人等应用。先进的Claude 3.5模型：编码和工具使用显著提升 Anthropic在此次发布中还带来了Claude 3.5 Sonnet模型，并首次推出了AI与计算机交互的新功能。Claude 3.5 Sonnet在编程任务上进步显著，例如在SWE Bench验证测试中的得分从33.4%提升至49.0%，超越了所有公开可用的模型，甚至包括专门为编程设计的系统。此外，在代理工具使用测试（TAU Bench）中的表现也显著提升，在零售领域的得分从62.6%提升到69.2%，在航空领域则从36.0%提升至46.0%。 Anthropic还特别开发了API，使Claude可以感知并与计算机界面交互。开发者可以利用该API，将指令如“使用我的计算机和互联网数据填写此表格”转化为实际的计算机命令。Claude 3.5 Sonnet在OSWorld基准测试的“仅截图”分类中得分14.9%，大大高于次佳系统的7.8%，但与人类能力相比仍存在差距。 AI在全球监管下的未来 Anthropic的Claude 3.5 Haiku和Sonnet为AI应用带来了更多灵活性，但其潜在影响还需在全球范围内平衡发展与规范化。

特朗普上任对拜登AI政策的改变

Posted on November 7, 2024November 7, 2024 by aitrendtrackers@rengongzhineng.io

一场艰苦的选举周期终于落下帷幕，唐纳德·特朗普将成为美国第47任总统。在共和党掌控参议院，并可能夺回众议院的情况下，特朗普的支持者们准备在政府最高层掀起巨变。这种变化将直接影响到人工智能（AI）行业。长期以来，AI行业普遍反对联邦政策干预，而特朗普多次表示，计划在上任第一天就废除拜登的AI政策框架，并公开支持那些只容忍最轻微监管的行业巨头。拜登的AI政策框架拜登的AI政策主要通过2023年10月签署的“AI行政命令”生效。这项行政命令是由于国会在AI监管方面的行动迟缓而采取的补救措施，其内容均为自愿性条款而非强制要求。该命令涵盖了从促进医疗AI应用到防止知识产权盗窃等多个方面。其中，两项关键条款在共和党内引发争议，涉及AI的安全风险和现实应用的安全影响。一项条款要求开发强大AI模型的公司向政府报告其模型训练和安全措施，并提供模型漏洞测试结果。另一项则要求商务部下属的国家标准与技术研究院（NIST）制定指南，帮助企业识别并修正模型中的偏见和缺陷。在AI EO的推动下，商务部去年成立了“美国AI安全研究所”（AISI），负责研究AI系统的潜在风险，还开发了新软件以提高AI的可靠性，并通过与OpenAI和Anthropic的合作测试主要新模型。然而，特朗普阵营的批评者认为，拜登的AI EO中要求公司上报的条款太过繁重，可能导致企业泄露商业机密。共和党人还指出，由于这些规定依赖《国防生产法》——一部1950年代颁布的法律，有些人将其视为行政权的过度扩张。共和党内一些人甚至认为NIST的AI标准是在试图通过“觉醒”的AI安全标准来控制言论。替代拜登的AI行政命令？如果拜登的AI EO被废除，未来的AI政策走向会如何？特朗普在上任期间曾签署的AI行政命令主要集中在建立AI研究机构，优先AI研发，并保护公民自由与隐私。然而，特朗普在竞选期间承诺的新政策含糊其辞，只表示会支持“基于言论自由和人类幸福”的AI发展。一些共和党人则建议NIST专注于AI的物理安全风险，尤其是AI帮助对手制造生物武器的潜在威胁。然而，他们也不愿直接支持新的AI限制，担心可能会影响到NIST现有的指导方针。AISI的未来也因其存在与拜登的行政命令挂钩而前景不明。州法规的兴起乔治·梅森大学的研究员迪恩·鲍尔（Dean Ball）认为，特朗普的胜利预示着联邦层面将采取轻度监管政策，更多依赖现有法律，而非新立法规。这可能鼓励加州等民主党主导的州在AI监管上大展拳脚。今年，美国各州已提出了近700项AI相关立法。比如，加州今年通过多项AI安全法案，要求公司公开AI训练细节。与此同时，特朗普的贸易政策也可能影响AI行业。例如，特朗普计划对所有进口商品征收10%的关税，并对中国产品征收60%的关税。这类政策可能导致AI研发所需资本紧缩。政治与全球AI治理特朗普对中国的技术出口限制或将升级，可能包括对AI芯片和模型的出口管制。雪城大学教授哈米德·埃克比亚（Hamid Ekbia）认为，这种保护主义政策可能阻碍全球AI合作，使得AI在全球范围内被用于更具威权色彩的应用。不论是技术限制还是关税，特朗普的政策都可能对AI领域产生深远的经济影响。尽管特朗普在竞选时很少谈及AI，但他的其他政策，例如限制H-1B签证和大力发展石油产业，都可能对AI行业产生间接影响。 AI监管不应成为党派之争牛津大学的数据伦理学教授桑德拉·瓦赫特（Sandra Wachter）提醒道，无论政党立场如何，AI的风险都是现实存在的。她呼吁监管机构不应将AI治理简化为党派问题，因为这关系到所有人，超越了地理和党派的界限。

探索人工智能的不同形态与未来方向：从ANI到AGI，再到ASI

Posted on November 6, 2024November 6, 2024 by aitrendtrackers@rengongzhineng.io

探索人工智能的不同形态与未来方向：从ANI到AGI，再到ASI 随着人工智能（AI）技术的发展，了解其不同形态和未来趋势变得越来越重要。人工智能主要分为三大类：人工窄智能（ANI）、人工通用智能（AGI）和人工超智能（ASI）。这三类AI各自代表了AI发展的不同阶段，反映出智能水平的层次与潜在的影响力。本文探讨了这三种类型的AI、其能力及对技术发展的意义。人工窄智能（ANI）目前最常见的AI形式是人工窄智能，也称为“窄AI”或“弱AI”。ANI专为特定、受限的任务而设计，仅能在设定范围内执行特定功能，无法超越编程范围或进行知识迁移。虽然ANI不具备人类智能的灵活性，但在特定任务上表现卓越，例如面部识别、语言处理和数据模式分析。 ANI的典型案例智能手机的虚拟助手，如Apple的Siri或Amazon的Alexa，是ANI的代表性应用。它们能够回答问题、设置提醒，甚至控制智能家居设备，但其回应受到编程和训练数据的限制。此外，像Netflix和Spotify等平台的推荐算法根据用户的偏好个性化内容，也属于ANI应用。自动驾驶汽车也依赖ANI，通过传感器和机器学习模型来安全地导航。虽然目前唯一实际可用的AI形式是ANI，但它在多个行业中已经展现了许多应用场景，从金融市场分析到医疗诊断等。然而，ANI的主要局限在于其缺乏通用性，无法超越其设计的狭隘任务范围，从而无法达到人类的认知能力。人工通用智能（AGI）人工通用智能，又称“强AI”，理论上指的是可以执行任何人类智力任务的AI。与仅限于特定任务的ANI不同，AGI具备理解、学习并广泛应用信息的能力。AGI将具备类似人脑的推理、规划、问题解决和情境适应能力。 AGI的挑战 AGI的实现仍主要停留在理论阶段，面临重大科学和技术障碍。除了对运算能力的要求外，AGI还需深刻理解人类意识和认知的机制。由于人类大脑的复杂性尚未完全解明，模拟其功能的AGI依然遥不可及。尽管AGI潜力巨大，但同时也带来了伦理和法律方面的挑战。AGI可能会改变诸多领域，例如在医疗领域可处理大量数据，精准诊断疾病；在法律领域快速分析案例法律，提供低成本的法律咨询服务。拥有类似人类智能的机器将产生深远的社会影响，需加以严密监管。人工超智能（ASI）人工超智能是指在所有方面（如推理、创造力和情感智能）均超越人类的AI。若ANI是当前的实际应用，AGI是人类智能水平的目标，那么ASI便是AI发展的终极目标。ASI理论上能在科学发现、创造力等领域超越人类最聪明的头脑。 ASI常被视为奇点事件，即AI技术在未来某一时刻达到极点，可能彻底改变人类文明甚至重塑“人类”概念。由于ASI具有自我改进的潜力，其知识和能力可在反馈循环中快速、指数级增长。然而，ASI也带来巨大的风险。其智能水平远超人类，可能以难以预测和控制的方式实现目标。正因如此，业界对AI向ASI发展的安全性呼声愈发高涨，需制定严格的道德标准和安全措施，以控制AI向ASI的发展。学者和行业先锋如埃隆·马斯克和已故的史蒂芬·霍金都曾强调，AI的发展必须符合人类的价值观。结论人工智能从ANI到AGI，再到ASI，展示了从特化智能到人类水平智能，乃至超人类智能的进化历程。当前，人类已进入ANI时代，各种特定任务的AI应用正不断改进，改善日常生活并变革行业。AGI虽仍处于推测阶段，但若实现，将成为能够与人类认知能力相匹配的多功能工具，推动各个领域的变革。ASI则是一个尚不可及但极具潜力的未来，既充满了希望，也伴随着巨大的风险。随着AI技术不断进化，安全措施和伦理考量显得尤为重要。在未来，ANI将继续优化当前的技术应用，AGI或将引领下一次重大进展，而ASI如果实现，将彻底改变人类存在的定义。了解ANI、AGI和ASI的差异，有助于人们更好地管理这一飞速发展的技术前景，同时理解其潜在的风险和机遇。

谷歌正在石油资源丰富的沙特阿拉伯建设一个AI数据中心，引发了广泛关注

Posted on November 6, 2024November 6, 2024 by aitrendtrackers@rengongzhineng.io

谷歌正在石油资源丰富的沙特阿拉伯建设一个AI数据中心，引发了广泛关注，许多人质疑这项计划的影响及其对谷歌气候目标承诺的真实性。 🔑 关键点：虽然谷歌和沙特公共投资基金尚未公布具体细节，但这个新的AI数据中心将支持本地的阿拉伯语AI模型研究和“沙特特定的AI应用程序”开发。谷歌此前曾承诺不再为石油和天然气生产开发算法，并在2030年前减半碳排放。然而，尽管沙特严重依赖化石燃料，谷歌仍认为与沙特合作并不会违背其气候承诺。沙特希望通过利用AI技术在2030年前减少对石油收入的依赖，但国有石油公司阿美（Aramco）在利用AI优化运营后，石油产量反而增长了15%。 🤔 为什么这值得关注：化石燃料是沙特经济的核心，专家认为，这个数据中心支持的“沙特特定AI应用”可能仍将集中在石油和天然气生产上，这让谷歌陷入两难：既要努力实现其气候目标，又希望在全球研究和创新方面占据一席之地。

OpenAI正在与台积电（TSMC）和博通（Broadcom）合作，打造自己的AI推理芯片

Posted on November 4, 2024November 4, 2024 by aitrendtrackers@rengongzhineng.io

OpenAI正在与台积电（TSMC）和博通（Broadcom）合作，打造自己的AI推理芯片。根据路透社的报道，虽然OpenAI最初有意建立自己的晶圆厂，但由于成本和时间的限制，目前已经搁置了这一计划，转而专注于内部芯片设计。消息人士透露，OpenAI已经与台积电达成生产协议，预计将在2026年之前推出首批定制AI芯片。不过，这一时间表可能会有变动。自研芯片的进展早在2023年底，就有传言称OpenAI正在考虑自制AI芯片。而2024年7月的报道首次明确了该公司正在与芯片设计师讨论开发新型AI服务器芯片的可能性。 OpenAI的CEO Sam Altman一直大力推动公司开发自有AI芯片。他曾致力于推动一个代号为“Project Tigris”的AI芯片公司，但在2023年11月经历了一场短暂的离职风波后被重新聘用。目前，OpenAI的芯片团队约有20人，去年还聘请了前Lightmatter芯片工程负责人及Google TPU负责人Richard Ho担任硬件部门负责人。博通曾深度参与了谷歌TPU AI芯片的开发，显示出他们在AI芯片领域的丰富经验。多样化硬件部署除了自研芯片，OpenAI还在多样化其硬件部署。据报道，OpenAI现已开始使用AMD芯片，与现有的Nvidia GPU共同训练AI模型。这一转变部分是为了减少对Nvidia的依赖，因为Nvidia的GPU价格昂贵，且过去曾面临供不应求的问题。与微软的合作微软作为OpenAI最大的投资者，已经向其注资近140亿美元。今年5月，微软宣布将在其Azure云计算服务中为客户提供AMD的MI300X加速器。OpenAI将通过Azure平台访问这些AMD芯片。微软云和AI部门执行副总裁Scott Guthrie称MI300X是“目前在Azure OpenAI中最具成本效益的GPU”。这种芯片的引入预计将为OpenAI提供更具经济效益的硬件支持。未来展望 OpenAI的这一步棋不仅是为了控制成本，也是为了应对市场对AI计算能力日益增长的需求。通过与台积电和博通的合作，OpenAI正在为未来的AI芯片市场奠定基础，逐步实现硬件自给自足的目标。

Claude 3.5 Sonnet模型新增了PDF支持功能

Posted on November 4, 2024November 4, 2024 by aitrendtrackers@rengongzhineng.io

在文档处理领域取得重要进展的是Anthropic，他们为Claude 3.5 Sonnet模型新增了PDF支持功能。这一突破性发展将传统文档格式与AI分析之间的距离进一步拉近，使得企业能够在现有文档基础上，充分利用先进的AI能力。技术亮点：三阶段处理新系统采用了多层次的处理方法，分为三个阶段：这种集成方法使Claude 3.5 Sonnet能够处理复杂任务，例如财务报表分析、法律文件解读，以及在保持语境的情况下进行文档翻译。实施与访问方式目前，该功能通过以下两种渠道提供：系统支持处理最大32 MB、最多100页的文档，确保了对各类专业文档的高效处理。这些技术要求优化了企业实际应用的场景，满足了广泛的业务需求。未来展望与平台集成 Anthropic计划将这一功能扩展至Amazon Bedrock和Google Vertex AI平台，进一步提高用户的可访问性和技术集成能力。这种扩展显示出Anthropic致力于让更多组织在其现有技术基础设施中利用这些功能的决心。系统的集成架构允许与Claude的其他功能无缝结合，尤其是工具使用能力，为用户在特定应用中提取信息提供了灵活性。应用场景 PDF处理功能的加入为多个行业带来了新的可能性。金融机构可以自动化分析年报、招股说明书和投资文件，法律事务所则可简化合同审查和尽职调查流程。由于能够同时处理文本和视觉元素，这项技术在依赖数据可视化和技术文档的行业中尤其有价值。教育机构和研究组织也能从增强的文档翻译功能中受益，实现对多语言学术论文和研究报告的无缝处理。此外，该技术能够理解图表和文本，为科学出版物和技术报告提供全面的解读。技术规格与限制了解系统的参数对于优化实施至关重要。当前框架有以下限制：处理成本基于代币模型，通常每页消耗1,500至3,000个代币，且不收取额外费用。这种透明的定价模式使企业能够有效地规划实施和使用预算。优化指南为了最大化系统的效果，建议采取以下优化策略：这些优化实践能提高处理效率，特别是在处理复杂或较长的文档时效果尤为显著。结论 Claude 3.5 Sonnet的PDF处理功能为AI文档分析领域带来了显著进步。它不仅满足了复杂文档处理的需求，还保持了实际应用的可访问性。随着企业不断推进数字化，这一技术的发展，加上Anthropic的扩展计划，有望重新定义商业文档管理和分析的方式。综合来看，系统凭借其全面的文档理解能力、明确的技术参数和优化框架，为寻求AI提升文档处理能力的组织提供了一种有前途的解决方案。

GitHub推出多模型升级和自然语言网页开发平台Spark的推出

Posted on November 4, 2024November 4, 2024 by aitrendtrackers@rengongzhineng.io

GitHub最近的两项重大公告，标志着其开发者工具的显著进化：Copilot的多模型升级和自然语言网页开发平台Spark的推出。首先，GitHub正在将Copilot从单一的OpenAI架构扩展到包括Anthropic的Claude 3.5 Sonnet和Google的Gemini 1.5 Pro模型。同时，GitHub Spark的发布旨在通过自然语言指令简化网页应用开发。 Copilot的增强模型支持自从Copilot发布以来，它已经历了多次模型升级。最初，它使用的是针对编码任务优化的OpenAI Codex模型，之后又逐步引入了GPT-3.5和GPT-4等更先进的模型。此次扩展不仅加入了Anthropic和Google的模型，还在多个开发场景中提供更多的模型选择，凸显GitHub在AI辅助开发策略上的重要进步。 GitHub的CEO Thomas Dohmke在博客中表示，新的多模型支持将首先在Copilot Chat中推出，随着时间的推移，更多功能如多文件编辑、代码审查和安全自动修复等也将逐步引入不同模型的支持。这种多模型方法意味着开发者可以根据不同任务选择最合适的AI模型，从而获得更精准、更具上下文感知的代码建议。 GitHub Spark：自然语言网页开发 GitHub最令人瞩目的新工具之一是GitHub Spark，它旨在通过自然语言指令彻底改变网页应用开发。Spark的目标是简化开发流程，降低项目复杂度，让开发者可以通过简单的语言描述快速构建应用。这种方法不仅能帮助快速原型设计，还能缩短从设计到实现的时间。对于团队和企业来说，Spark的潜力在于： Copilot登陆Apple的Xcode 此次Copilot还在Apple的Xcode上推出了公开预览版本，为iOS和macOS开发者带来了实时代码建议和生产力提升。它的集成为Swift和Objective-C的开发提供了更加智能的支持，同时还能与现有的Xcode工作流程无缝结合。对开发者生产力的影响 GitHub的这些更新反映了行业向更智能化、自动化开发工具的趋势。通过扩展模型支持、引入自然语言开发和Xcode集成，GitHub正在全方位提升开发者的生产力。这些工具有助于减少重复代码的时间，提高解决问题的效率，并提供更多选择，帮助开发者选择最适合项目的AI模型。未来，随着这些工具的普及，软件开发的方式可能会发生变化，包括： GitHub在AI能力上的进步，预示着开发工具的进一步演变。这些新功能和集成旨在提升开发者的能力，而不是取代他们的专业知识，从而推动更高效、更富有成效的软件开发过程。GitHub的这一全面方法，或将引领软件开发从构思到部署的重大变革。

麻省理工学院的研究人员最近开发了一种新的机器人训练方法

Posted on November 4, 2024November 4, 2024 by aitrendtrackers@rengongzhineng.io

麻省理工学院的研究人员最近开发了一种新的机器人训练方法，既能节省时间和成本，又能提升机器人适应新任务和环境的能力。论文下载：https://arxiv.org/pdf/2409.20537 这种方法被称为异构预训练变换器（HPT），它将来自多个来源的大量多样化数据整合成一个统一的系统，相当于为生成式AI模型创建了一种共享语言。这种方法与传统的机器人训练大相径庭，后者通常需要工程师为每个机器人和任务在受控环境下收集特定数据。 MIT电气工程与计算机科学的研究生王力瑞（Lirui Wang）领导了这项研究。他指出，尽管很多人认为机器人训练数据不足是一个主要挑战，但更大的问题在于各种不同领域、模态和机器人硬件的多样性。团队的研究展示了如何有效地结合和利用这些多样化的元素。研究团队开发了一种能够统一处理各种数据类型的架构，包括摄像头图像、语言指令和深度图。HPT采用了类似于高级语言模型的变换器模型来处理视觉和本体感受输入。在实际测试中，该系统表现非凡——在模拟和现实场景中，其表现比传统训练方法提高了20%以上。即使在机器人面临与训练数据大相径庭的任务时，这种提升依然显著。研究团队为预训练准备了一个令人印象深刻的数据集，包含了52个数据集，超过20万个机器人轨迹，涵盖了四个类别。这种方法让机器人能够从丰富的经验中学习，包括人类演示和模拟。系统的一大创新在于对本体感受（机器人对自身位置和运动的感知）的处理。团队设计的架构将本体感受与视觉信息同等重要，从而实现了更复杂的灵活动作。展望未来，团队计划提升HPT处理未标注数据的能力，类似于先进的语言模型。他们的终极愿景是创建一个可以下载并适用于任何机器人的通用机器人“大脑”，无需额外训练。尽管目前还处于早期阶段，团队对于规模化的前景充满信心，认为这可能会引领机器人策略领域的突破，类似于大型语言模型所带来的进展。

Subscribe 订阅