机器学习掌握了海量数据集：算法打破了艾字节的障碍-飞鱼博客

　　一种机器学习算法展示了处理超出计算机可用内存的数据的能力，它可以识别大量数据集的关键特征，并将它们分成可管理的批次，而不会阻塞计算机硬件。该算法由洛斯阿拉莫斯国家实验室(Los Alamos National Laboratory)开发，在橡树岭国家实验室峰会(Oak Ridge National Laboratory’s Summit)上进行的测试中，创造了分解海量数据集的世界纪录。橡树岭国家实验室是世界上速度第五快的超级计算机。

　　这种高度可扩展的算法在笔记本电脑和超级计算机上同样高效，它解决了硬件瓶颈，这些瓶颈阻碍了癌症研究、卫星图像、社交媒体网络、国家安全科学和地震研究等数据丰富的应用程序处理信息。

　　洛斯阿拉莫斯国家实验室的计算物理学家Ismael Boureima说:“我们开发了一种非负矩阵分解方法的'内存外'实现，它允许你在给定的硬件上分解比以前更大的数据集。”Boureima是《超级计算杂志》上关于破纪录算法的论文的第一作者。

　　“我们的实现只是将大数据分解成可以用可用资源处理的较小单元。因此，它是跟上指数级增长的数据集的有用工具。”

　　“传统的数据分析要求数据符合内存限制。我们的方法挑战了这种观念，”洛斯阿拉莫斯的机器学习科学家、论文的合著者马尼什·巴特拉伊(Manish Bhattarai)说。

　　“我们引入了内存不足的解决方案。当数据量超过可用内存时，我们的算法将其分解为更小的段。它一次一个地处理这些片段，循环地进出内存。这项技术为我们提供了有效管理和分析超大数据集的独特能力。”

　　Boureima说，现代异构高性能计算机系统的分布式算法可以在小到台式计算机的硬件上使用，也可以在大到复杂到Chicoma、Summit或即将推出的Venado超级计算机上使用。

　　“问题不再是是否有可能分解一个更大的矩阵，而是分解需要多长时间，”Boureima说。

　　洛斯阿拉莫斯的实现利用gpu等硬件特性来加速计算和快速互连，从而有效地在计算机之间移动数据。同时，该算法可以有效地同时完成多个任务。

　　非负矩阵分解是在洛斯阿拉莫斯的SmartTensors项目下开发的高性能算法的另一部分。

　　Boureima说，在机器学习中，非负矩阵分解可以作为一种无监督学习的形式，从数据中提取意义。“这对机器学习和数据分析非常重要，因为该算法可以识别数据中可解释的潜在特征，这些特征对用户有特殊意义。”

　　在洛斯阿拉莫斯团队的破纪录运行中，该算法使用25,000个gpu处理了一个340太字节的密集矩阵和一个11艾字节的稀疏矩阵。

　　“据我们所知，我们正在达到艾字节的分解，这是其他人没有做到的，”这篇新论文的合著者之一、洛斯阿拉莫斯国家实验室的理论物理学家博伊恩·亚历山德罗夫(Boian Alexandrov)说。他领导的团队开发了SmartTensors人工智能平台。

　　分解或分解数据是一种专门的数据挖掘技术，旨在提取相关信息，将数据简化为可理解的格式。

　　Bhattarai进一步强调了他们的算法的可扩展性，他说:“相比之下，传统的方法经常遇到瓶颈，主要是由于计算机处理器和内存之间数据传输的延迟。”

　　Boureima说:“我们还表明，你不一定需要大型计算机。“如果你负担得起的话，扩展到25000个gpu是很好的，但我们的算法将在台式电脑上对你以前无法处理的事情很有用。”

　　更多信息:Ismael Boureima等人，CPU/GPU架构上的分布式内存外NMF, The Journal of Supercomputing(2023)。DOI: 10.1007/s11227-023-05587-4由洛斯阿拉莫斯国家实验室提供引文:机器学习大师海量数据集:算法打破exabyte障碍(2023年，9月11日)检索自2023年9月11日https://techxplore.com/news/2023-09-machine-masters-massive-algorithm-exabyte.html本文档受版权保护。除为私人学习或研究目的而进行的任何公平交易外，未经书面许可，不得转载任何部分。内容仅供参考之用。

打赏赞

机器学习掌握了海量数据集：算法打破了艾字节的障碍

您可以选择一种方式赞助本站

支付宝扫一扫赞助

微信钱包扫描赞助

相关推荐

热门推荐

回顶部

简繁切换

加入会员