首个GPU高级语言,大规模并行就像写Python,已获8500 Star


经过近10年的不懈努力,对计算机科学核心的深入研究,人们终于实现了一个梦想:在gpu上运行高级语言。

上周末,一种名为 Bend 的编程语言在开源社区引发了热烈的讨论,GitHub 的 Star 量已经超过了 8500。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

首个GPU高级语言,大规模并行就像写Python,已获8500 Star

GitHub:https://github.com/HigherOrderCO/Bend

作为一种大规模并行的高级编程语言,它仍处于研究阶段,但提出的思路已经让人们感到非常惊讶。使用 Bend,你可以为多核 CPU/GPU 编写并行代码,而无需成为具有10年经验的 C/CUDA 专家,感觉就像 Python 一样!

首个GPU高级语言,大规模并行就像写Python,已获8500 Star

是的,Bend 采用了 Python 语法。

Bend是一种支持Python、Haskell等表达性语言的编程范式,它不同于CUDA、Metal等低级替代方案。Bend具备快速对象分配、完全闭包支持的高阶函数、无限制的递归、以及基于核心数量的近线性加速。Bend在大规模并行硬件上运行,并提供基于HVM2的运行时支持。

该项目的主要贡献者 Victor Taelin 来自巴西,他在 X 平台上分享了 Bend 的主要特性和开发思路。

首先,Bend 不适用于现代机器学习算法,因为这些算法是高度正则化的(矩阵乘法)且具有预先分配的内存,并且通常已经编写了好的 CUDA 内核。

Bend 的巨大优势体现在实际应用中,这是因为「真正的应用程序」通常没有预算来制作专用的 GPU 内核。试问,谁在 CUDA 中制作了网站?而且,即使有人这样做了,也是不可行的,因为:

1. 真正的应用程序需要从许多不同的库导入函数,无法为它们编写 CUDA 内核;

2. 真实的应用程序具有动态函数和闭包;

3. 真实的应用程序会动态且不可预测地分配大量内存。

Bend 完成了一些新的尝试,并且在某些情况下可以相当快,但现在想写大语言模型肯定是不行的。

作者对比了一下旧方法和新的方法,使用相同的算法树中的双调排序,涉及 JSON 分配和操作。Node.js 的速度是 3.5 秒(Apple M3 Max),Bend 的速度是 0.5 秒(NVIDIA RTX 4090)。

是的,目前 Bend 需要整块 GPU 才能在一个核心上击败 Node.js。但另一方面,这还是一个初生的新方法与大公司(Google)优化了 16 年的 JIT 编译器在进行比较。未来还有很多可能性。

如何使用

在 GitHub 上,作者简要介绍了 Bend 的使用流程。

灵感PPT 灵感PPT

AI灵感PPT - 免费一键PPT生成工具

灵感PPT 308 查看详情 灵感PPT

首先,安装 Rust。如果你想使用 C 运行时,请安装 C 编译器(例如 GCC 或 Clang);如果要使用 CUDA 运行时,请安装 CUDA 工具包(CUDA 和 nvcc)版本 12.x。Bend 目前仅支持 Nvidia GPU。

然后,安装 HVM2 和 Bend:

cargo +nightly install hvmcargo +nightly install bend-lang

最后,编写一些 Bend 文件,并使用以下命令之一运行它:

bend run<file.bend> # uses the Rust interpreter (sequential)bend run-c<file.bend> # uses the C interpreter (parallel)bend run-cu <file.bend> # uses the CUDA interpreter (massively parallel)

你还可以使用 gen-c 和 gen-cu 将 Bend 编译为独立的 C/CUDA 文件,以获得最佳性能。但 gen-c、gen-cu 仍处于起步阶段,远没有像 GCC 和 GHC 这样的 SOTA 编译器那么成熟。

Bend 中的并行编程

这里举例说明可以在 Bend 中并行运行的程序。例如,表达式:

(((1 + 2) + 3) + 4)

不能并行运行,因为 + 4 取决于 + 3,而 + 3 又取决于 (1+2)。而表达式:

((1 + 2) + (3 + 4))

可以并行运行,因为 (1+2) 和 (3+4) 是独立的。Bend 并行运行的条件就是符合并行逻辑。

再来看一个更完整的代码示例:

# Sorting Network = just rotate trees!def sort (d, s, tree):switch d:case 0:return treecase _:(x,y) = treelft = sort (d-1, 0, x)rgt = sort (d-1, 1, y)return rots (d, s, lft, rgt)# Rotates sub-trees (Blue/Green Box)def rots (d, s, tree):switch d:case 0:return treecase _:(x,y) = treereturn down (d, s, warp (d-1, s, x, y))(...)

该文件实现了具有不可变树旋转的双调排序器。它不是很多人期望的在 GPU 上快速运行的算法。然而,由于它使用本质上并行的分治方法,因此 Bend 会以多线程方式运行它。一些速度基准:

  •  CPU,Apple M3 Max,1 个线程:12.15 秒
  •  CPU,Apple M3 Max,16 线程:0.96 秒
  •  GPU,NVIDIA RTX 4090,16k 线程:0.21 秒

不执行任何操作即可实现 57 倍的加速。没有线程产生,没有锁、互斥锁的显式管理。我们只是要求 Bend 在 RTX 上运行我们的程序,就这么简单。

Bend 不限于特定范例,例如张量或矩阵。任何的并发系统,从着色器到类 Erlang 的 actor 模型都可以在 Bend 上进行模拟。例如,要实时渲染图像,我们可以简单地在每个帧上分配一个不可变的树:

# given a shader, returns a square imagedef render (depth, shader):bend d = 0, i = 0:when d < depth:color = (fork (d+1, i*2+0), fork (d+1, i*2+1))else:width = depth / 2color = shader (i % width, i /width)return color# given a position, returns a color# for this demo, it just busy loopsdef demo_shader (x, y):bend i = 0:when i < 5000:color = fork (i + 1)else:color = 0x000001return color# renders a 256x256 image using demo_shaderdef main:return render (16, demo_shader)

它确实会起作用,即使涉及的算法在 Bend 上也能很好地并行。长距离通信通过全局 beta 缩减(根据交互演算)执行,并通过 HVM2 的原子链接器正确有效地同步。

最后,作者表示 Bend 现在仅仅是第一个版本,还没有在合适的编译器上投入太多精力。大家可以预期未来每个版本的原始性能都会大幅提高。而现在,我们已经可以使用解释器,从 Python 高级语言的角度一睹大规模并行编程的样子了。


以上就是首个GPU高级语言,大规模并行就像写Python,已获8500 Star的详细内容,更多请关注其它相关文章!


# 可以使用  # 网站优化中常见的seo错误观点  # 兰州普通网站建设费用  # 东莞品牌词seo费用  # 云浮网站建设设计哪里好  # 营销宝全店推广策略分析  # 什么会影响关键词排名  # 镇安县关键词排名推广  # 南充营销推广布局  # 咸阳抖音seo哪家好做  # 清远seo网站排名优化软件  # 一言  # 排在  # 模型  # 多核  # 多线程  # 应用程序  # 已获  # 首个  # 递归  # 就像  # warp  # git  # python  # 训练 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 全国青少年无人机大赛重庆市选拔赛开赛 1252名中小学生参加  令人震惊的特斯拉机器人  “技术+实践+生态”三箭齐发,京东方抢占物联网高地  美图秀秀发布七款 AI 工具:修图一样修视频、打造电影级上镜脸  OpenAI 为开发者推出 GPT 聊天机器人 API 大更新,同时降低价格  张朝阳陆川谈AI:大数据模型大幅提升工作效率,ChatGPT冲击最大的是内容创作领域  IBM 与 NASA 携手开源地理空间 AI 模型,促进气候科学研究进步  360°/180°双模式,佳能公布可折叠小体积的VR全景相机  机构:边缘AI或是当前预期差最大的AI方向  【机智云物联网低功耗转接板】远程环境数据采集探索  一文读懂自动驾驶的激光雷达与视觉融合感知  人工智能即将进入Windows:企业准备好安全策略设置了吗?  谷歌AudioPaLM实现「文本+音频」双模态解决,说听两用大模型  谷歌将使用公开信息训练 AI 模型,构建更强大的自家产品  Meta开源文本生成音乐大模型,我们用《七里香》歌词试了下  世界人工智能大会(WAIC 2025)点燃魔都,博尔捷数字科技携前沿技术产品亮相  Nature封面:量子计算机离实际应用还有两年  微软大牛加入ZOOM,AI人才大战打响  套娃不可取:研究人员证实用AI生成的结果训练AI将导致模型退化  五个出色的人工智能应用实例  人工智能创作的“婴儿版超级英雄”,你觉得哪个最可爱  对艺术家拒绝置若罔闻,Stability AI 将推出适应多种画风的开源模型  微软 Azure AI 文本转语音服务升级:新增男性声音和扩展语言支持  0代码微调大模型火了,只需5步,成本低至150块  先进技术在防止全球数据丢失方面的作用  长宁这家企业在世界人工智能大会上荣获“蓝鼎奖”  构建人机交互创新模式,微美全息研究AIGC智能交互界面生成技术  AI大模型火了!科技巨头纷纷加入,多地政策加码加速落地  30+大模型齐聚,大模型成世界人工智能大会“顶流”  如何用AI重塑你的工作流(一)  DeepMind用AI重写排序算法;将33B大模型塞进单个消费级GPU  国内通用人形机器人将发布、产业加速突破  阿里云全面支持Llama2训练部署,助力企业快速构建自有大型模型  70年前他本想逃避考试,却影响了整个互联网  参议院司法听证会:AI 不易管控,有可能被恶意分子利用来研发生化武器  苹果AI战略与微软谷歌大相径庭,到底是领先还是落后?  小艺主导智慧交互升级,借助AI大模型增强能力  AI大模型时代,数据存储新基座助推教科研数智化跃迁  图灵奖得主Hinton:我已经老了,如何控制比人类更聪明的AI交给你们了  CharacterAI - 也许会成为会话人工智能的未来  李开复:未来几年,人工智能会革了所有人的命,除非你这么做  世界人工智能大会上,科大讯飞宣布与华为联手  人工智能时代 数字文明对话向“尼”走来  能走、能飞、能游泳,科学家打造全能 M4 机器人  旷视入选北京市通用人工智能产业创新伙伴计划  剧透!蜜小豆@2025世界人工智能大会多个亮点曝光  GPT-4是如何工作的?哈佛教授亲自讲授  AI 大模型重塑软件开发,有哪些落地前景和痛点?| ArchSummit  2025VR&AR显示技术峰会视频解析: 歌尔光学展示最新一代VR/AR光学模组  眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷 

 2024-05-24

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.