资讯

PAM(Perceive Anything Model),一种端到端的区域级视觉-语言模型,旨在实现图像和视频中快速、全面、细粒度的视觉理解。 Semantic Perceiver(语义感知器)的组件,有效利用 SAM 2 主干网络中的中间视觉特征,将通用视觉信息、定位信息和语义先验融合为视觉 token。