欢迎光临
我们一直在努力

展望视觉数据解释的未来:评估生成式人工智能功效的框架

  

  在过去的一年中,大型语言模型(llm)因拥有一系列不断扩展的功能而变得突出,这些功能包括文本生成、图像生成以及最近的高度描述性图像分析。人工智能(AI)与图像分析的集成代表了人们如何理解和与视觉数据交互的重大转变,这一任务在历史上一直依赖于视觉和知识来进行背景化。

  现在,新的人工智能工具提供了一种范例,允许越来越多的人通过生成描述与图像进行交互,这些描述不仅可以帮助视障人士,还可以让外行观众了解科学图形的内容。

  宾夕法尼亚大学工程与应用科学学院计算机与信息科学系的副教授克里斯·卡里森-伯奇(Chris Callison-Burch)、助理教授安德鲁·黑德(Andrew Head)和博士生艾莉莎·黄(Alyssa Hwang)在本月早些时候发布OpenAI的chatgct - vision之前,通过对其进行一系列测试,开发了一个框架,用于衡量基于视觉的人工智能功能的功效。

  该团队主要评估了法学硕士识别科学图像的能力,并将他们的发现记录在一篇研究论文中,该论文出现在预印本服务器arXiv上。

  Hwang与Penn Today分享了她的一些观察结果,让我们得以一窥人工智能技术的未来,以及它们在解释复杂图像方面的前景。

  Hwang说,像GPT-Vision这样基于视觉的法学硕士能够分析图像,并可以接收图像和文本作为输入,以使用这些数据回答各种各样的请求。该团队的测试照片集包括图表、图形、表格、代码截图、数学方程式和整页的文本,目的是衡量LLM如何很好地描述它们。

  黄禹锡说,科学图像包含复杂的信息,因此研究小组从一系列不同的科学论文中选择了21张图像。她说:“我们在定性分析中优先考虑广度,这是基于社会科学的现有方法,我们发现了许多有趣的模式。”

  测试例子

  研究人员分析了12道菜的拼贴照片,上面标着它们的食谱名称。当他们注意到GPT-Vision将这些标签无缝地整合到它的设计中时他们试着把它们改成完全不同的东西,看看法学硕士会有什么反应。

  “令人惊讶和有趣的是,”Hwang说,“GPT-Vision仍然试图加入这些虚假的新标签。”

  Hwang说,然而,当被告知在继续之前确定标签是否准确时,LLM做得更好,这表明它有足够的知识来根据其视觉能力做出推断,她认为这是一个有希望的主要研究工作方向。

  她还指出,当描述一整个页面时,法学硕士似乎总结了其中的段落,但这些“摘要”通常是不完整和无序的,可能会错误地引用作者的话,或者直接从源中删除大量文本,这可能会在重新分发它所写的任何东西时带来麻烦。

  “然而,通过适当的调整,我相信GPT-Vision可以学会正确地总结,完整地引用,避免过度使用源文本,”Hwang说。

  自然语言处理领域的研究人员依赖于自动度量来评估大量的数据,但这项任务现在更具挑战性,Hwang说。

  她说:“在我们所谓的‘人类评估’中,我们也会询问真人的意见,这在小范围内是可能的,因为我们的任务和数据更小、更简单。”

  “既然生成式人工智能已经非常擅长生成长篇复杂文本,那么整合自动指标就变得更具挑战性。我们已经不再问“这个句子语法正确吗?”从问“这个故事有趣吗?”这很难定义和衡量。”

  Hwang之前在亚马逊Alexa上的工作使她熟悉了社会科学和人机交互研究的技术,包括接地理论,一种定性分析方法,帮助研究人员从大量文本中识别模式。

  传统上用于分析采访记录等文件,Hwang和其他研究人员可以将相同的原理应用于机器生成的文本。

  Hwang说:“我们的过程感觉与人们自然已经在做的事情非常相似:收集GPT-Vision对一组图像的反应,深入阅读模式,随着我们对数据的了解越来越多,逐渐产生更多的反应,并使用我们发现的模式来形成我们的最终结论。”

  她说:“我们试图用基于研究的方法将试错处理正式化,这可以帮助研究人员和普通观众更熟悉新的生成式人工智能模型。”

  Hwang说,人工智能描述图像的能力对盲人或视力受损的读者来说可能是一个很好的辅助工具,它可以自动为现有图像生成所有文本,或者帮助作者在出版作品之前编写自己的文本。

  她说:“描述图像还可以帮助视力正常的读者解决信息处理障碍,比如长期或短期记忆、视觉排序或视觉空间理解方面的问题。”

  除了可访问性之外,图像描述还可以提供便利或丰富内容。例如,电子阅读器可以在听者散步时描述新闻文章中的照片。我们可以在阅读教科书时向图像描述模型询问更多细节或澄清。像这样的工具可以帮助我们获得更多的信息。”

  黄禹锡说,在没有测试这些技术的局限性的情况下,研究人员在一定程度上谨慎地接受了这些技术,他们从高风险或低风险的角度讨论了风险。她说,在医学和烹饪的背景下,她认为当用户不能仔细检查模型所说的内容时,不准确性会带来最大的风险。

  例如,OpenAI发布的GPT-Vision白皮书建议不要使用该工具来读取医疗剂量,但Hwang表示,对于那些视力丧失、信息处理障碍或语言困难的人来说,这种风险更大,而这些人将从这些技术进步中获益最多。

  “我们最初也可能认为烹饪的某些方面是低风险的,因为我们经常可以根据自己的喜好即兴创作,但如果GPT-Vision错误地告诉我,我手中的香料罐是肉桂而不是辣椒粉呢?”即使它不一定会伤害我,我的燕麦片也会很奇怪,”Hwang说。

  Hwang对生成人工智能的现状印象深刻,并认为未来的工作还有机会,包括加强不一致性,以创造性和包容性的方式使用这些工具。

  “研究人员需要主观问题的答案,”她说。“什么样的描述是好的?”是什么让它有用?这很烦人吗?所以,我希望生成式人工智能的研究人员在不断迭代的过程中,继续关注用户的反馈。”

  黄禹锡与GPT-Vision合作的灵感来自于大声朗读科学论文的内容,直观地解释数字和公式。对于她的下一个项目,她说她计划使用人工智能模型来改善有声读物向听众传递信息的方式。

  她说:“与其以15秒为单位跳来跳去,不如一个句子一个句子地跳,一个段落一个段落地跳。也许我们可以通过实时总结来“快进”阅读有声书。使用人工智能,也许有办法将数学方程“翻译”成自然语言,帮助人们听教科书和研究论文。这些都是令人兴奋的应用,似乎触手可及,我很高兴能成为这个过程的一部分。”

  更多信息:Alyssa Hwang等人,GPT-Vision能力与科学图像的基础直觉,arXiv(2023)。期刊信息:arXiv .2311.02069

  宾夕法尼亚大学提供

  引用:展望视觉数据解释的未来:A f

  评估生成式人工智能效能的框架(2023年,11月17日),2023年11月17日从https://techxplore.com/news/2023-11-peek-future-visual-f检索

  html该文档

  作品受版权保护。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。的有限公司

  内容仅供参考之用。

 收藏 (0) 打赏

您可以选择一种方式赞助本站

支付宝扫一扫赞助

微信钱包扫描赞助

除特别注明外,本站所有文章均基于CC-BY-NC-SA 4.0原创,转载请注明出处。
文章名称:《展望视觉数据解释的未来:评估生成式人工智能功效的框架》
文章链接:https://www.xpn.cc/39177/fy.html
分享到: 更多 (0)

热门推荐

登录

忘记密码 ?