人生倒计时
- 今日已经过去小时
- 这周已经过去天
- 本月已经过去天
- 今年已经过去个月
多模态大规模语言模型综述
DragGAN 源代码发布
ToolQA:帮助法学硕士提高外部工具的应用能力
DiversiGATE:彻底改变法学硕士验证的统一框架
研究表明:大型视觉语言模型存在安全风险
01
多模态大规模语言模型综述
为了追溯和总结多模态大语言模型(MLLMs)的最新进展,中国科学技术大学与腾讯联合发布了关于MLLMs的综述文章。
他们首先介绍了MLLM的表述并描述了其相关概念; 然后讨论了多模态指令微调(M-IT)、多模态上下文学习(M-ICL)、多模态思维链(M-CoT)等关键技术和应用; 最后,他们讨论了现有的挑战并指出了有前景的研究方向。
详情如下:
MLLM 的感知能力不足,导致获取的视觉信息不完整或不正确。 一种解决方案是引入像 SAM 这样的大型视觉基础模型,它可以更有效地压缩视觉信息。
MLLM 的推理链不够强大。 单模态LLM的推理能力可能并不等同于接受视觉信息后的LLM,需要更多的研究来提高多模态推理。
MLLM 的指令跟踪能力需要升级。 在执行 M-IT 时,一些 MLLM 仍然无法生成预期的答案。 因此ai大模型日报,指令微调可能需要覆盖更多任务以提高泛化能力。
幻觉问题很普遍,很大程度上影响了 MLLM 的可靠性。 这可能是由于对齐预训练不足造成的。 因此ai大模型日报,一种可能的解决方案是在视觉和文本模式之间进行更细粒度的调整。
MLLM 需要参数高效的训练。 更高效的训练方法可以在有限的计算资源下释放 MLLM 的增强功能。
论文链接:
02
DragGAN 源代码发布
DragGAN是由马克斯·普朗克计算机科学研究所、麻省理工学院CSAIL和谷歌的研究团队提出的一种控制GAN的新方法。 它允许用户交互地“拖动”图像的任意点以准确到达目标点。 可处理的图像类型包括动物、汽车、人物、风景等,涵盖了大量的物体姿态、形状、表情和布局,用户的操作方法简单、通用。
参考链接:
03
工具质量检查:
帮助LLM提高外部工具的应用能力
最近,为了提高大型语言模型(LLM)使用外部工具回答问题的能力,佐治亚理工学院的一个研究团队推出了一个名为 ToolQA 的新数据集。 该数据集涉及可扩展的自动化数据集管理流程,以及 13 个专用于与外部知识交互以回答问题的工具。 在研究该数据集时,研究人员最大限度地减少了基线数据和法学硕士预训练数据之间的重叠,从而可以更精确地评估法学硕士推理工具使用的能力。 该数据集的数据和代码可在 GitHub 上免费获取。
论文链接:
04
多元化门:
彻底改变法学硕士验证的统一框架
微软研究院和ModelFarm整合了多种LLM验证方法,共同开发了统一框架DiversiGATE。 该框架包括两个主要组成部分:多样化和聚合,从而为现有的验证方法(例如 Self-Consistency、Math Prompter 和 WebGPT)提供了整体视图。
此外,他们提出了 SelfLearner 模型,该模型可以从自己的输出中学习并提高其准确性。 为了评估SelfLearner的有效性,他们还在合成数据和算术推理基准(例如GSM8K)上进行了测试,结果表明该方法优于传统的LLM,并在GSM8K基准上取得了良好的改进。
论文链接:
05
研究表明:
大型视觉语言模型存在安全风险
普林斯顿大学最近的一项研究表明,对抗性示例可以绕过安全机制并在大型视觉语言模型(VLM)中引发有害行为。 即使针对特定社会群体的狭窄语料库进行了优化,这些示例仍然通常会破坏安全机制并产生有害内容。 研究强调迫切需要对 VLM 进行全面的风险评估、强有力的防御策略和负责任的实践,以确保其安全使用。 这一发现对于保护用户和社会免受潜在威胁至关重要。
论文链接: