又一篇CVPR 2022论文被指抄袭,平安保险研究者控诉IBM苏黎世团队
昨天,有人在 reddit 上发帖称,IBM苏黎世研究中心剽窃了自己的论文,而且还被 CVPR 2022 接收了。
这位发帖者写道:
我叫 Xianbiao Qi,是一位有十多年研究经验的计算机视觉研究者。我写这个博客是为了投诉一个严重的案例:IBM苏黎世研究中心的员工蓄意剽窃我们的论文。他们并不是照抄文本,而是剽窃想法。
Qi 提到的疑似被抄袭的论文题为「PingAn-VCGroup's Solution for ICDAR 2021 Competition on Scientific Literature Parsing Task B: Table Recognition to HTML(平安 VCGroup 为 ICDAR 2021 科学文献解析竞赛任务 B 提供的解决方案:HTML 表格识别)」,作者来自平安保险和平安科技,上传 arXiv 的时间是 2021 年 5 月份,2021 年 7 月份公布了代码,2021 年 9 月发布了 Tablemaster 预训练模型,2021 年 11 月发布了 tablemaster_mmocr docker 环境。论文中提到的竞赛是 2021 年 4 月结束的,由IBM的另一个团队主办。
论文链接:http://arxiv.org/pdf/2105.01848.pdf
如论文标题所述,这篇文章为 ICDAR 2021 科学文献解析竞赛任务 B(HTML 表格识别)提供了一套解决方案。具体来说,他们将表格内容识别分为四个子任务:表格结构识别、文本行检测、文本行识别和框分配。表格结构识别算法是基于一种鲁棒的图像文本识别算法 MASTER 定制的。PSENet 用于检测表图像中的每个文本行。文本行识别模型也建立在 MASTER 之上。最后,在框分配阶段,他们将 PSENet 检测到的文本框与通过表结构预测重构的结构项相关联,并将文本行的可识别内容填充到对应项中。
被指抄袭的IBM论文题为「TableFormer: Table Structure Understanding with Transformers(TableFormer:用 Transformer 理解表结构)」,上传 arXiv 的时间是 2022 年 3 月份,提交给 CVPR 的时间未知。
论文链接:http://arxiv.org/pdf/2203.01017.pdf
在这篇论文中,IBM的研究人员提出了一种新的表结构识别模型,它从两个方面改进了最新的端到端深度学习模型(即来自 PubTabNet 的 encoder-dual-decoder)。首先,他们引入了一种新的目标检测解码器用于表格单元格。通过这种方式,他们可以直接从 PDF 源中获取编程式 PDF 的表格单元格内容,从而避免了定制 OCR 解码器的训练。这种架构上的改变带来了更精确的表格内容提取。其次,他们将 LSTM 解码器替换为基于 transformer 的解码器。
Qi 表示,IBM的这篇论文剽窃了他们的方法论、预处理、后处理、可视效果、推理、系统级解决方案、代码、预训练模型等内容,但「为了不被抓住」,他们没有引用 Qi 等人的论文。
接下来,Qi 用十几张图展示了他认为IBM存在抄袭的地方。
Qi 展示的疑似抄袭点 9:误导读者。
在看了 Qi 给出的示例后,有人认为这些都是非常有力的证据,IBM团队很难证明自己的论文是原创的,Qi 应该向 CVPR 程序委员会投诉。
不过,也有人认为,这些证据不够有力:「两个小组研究的是同一个问题,使用的是相同的公开数据,他们的解决方案也有相似之处。但这并不意味着一方照搬另一方。例如「疑似抄袭点 1」中所展示的内容就不是那么接近」。
目前,我们还没有在帖子下方看到IBM论文作者的回应。
不过,值得一提的是,这并不是今年 CVPR 曝出的唯一一件疑似抄袭事件。几天前,一位网友在 YouTube 上爆料说, 首尔大学的一篇论文抄袭了十几篇其他论文 ,目前该论文作者已经出来道歉并撤稿。
或许,顶会论文在查重上面需要多下点功夫了。
参考链接:http://www.reddit.com/r/MachineLearning/comments/vlpnuw/d_ibm_zurich_research_plagiarised_our_paper_and/
- 从AI为宠物投保这个「小事」讲起,保险变革开始了
- 华为MindSpore架构师王紫东:当生物计算领域「遇灾」,MindSpore做了何解?
- 从产线到星空,这些AI工程师带着算法上天入地
- 数实融合驱动数字未来 影谱科技携沉浸式数字技术亮相2022服贸会
- 驱动虚实融合,影谱科技在WAIC推出多款智能视觉及元宇宙新品
- 英伟达和Ampere共同推出云游戏Arm服务器:每台最多支持160个用户
- 扩散模型背后数学太难了,啃不动?谷歌用统一视角讲明白了
- 悟空搜索“降世”,能否大闹搜索引擎“天宫”?
- 蘑菇车联与北京通州达成合作,打造车路云一体化智慧交通系统
- LeCun没看好的AGI,传奇程序员John Carmack:已创业,融资两千万美元
- 蘑菇车联与无锡梁溪区签约,将打造数字孪生城市交通底座
- 这场比赛,让上百个AI智能体「卷起来了」
- 大模型时代,那些一起训练AI模型的企业是怎么应对数据顾虑的?
- 数字人赛道热度正高,AI技术如何创造不一样的“灵魂”?
- Unity否决175亿美元并购提议:准备自己收购广告公司
- 消费级GPU可用,文本转图像开源新模型Stable Diffusion生成宇宙变迁大片
- 全球游戏引擎商业化进入新阶段,国内头号玩家Cocos“三分天下”
- 墨芯获评大湾区高成长性企业TOP50
- 图神经网络发Nature子刊,却被爆比普通算法慢104倍,质疑者:灌水新高度?
- 亚马逊欲17亿美元收购iRobot,扫地机器人“含金量”几何?