857足球直播

国奖琅琊榜-许刚伟

Author:Time:2025-11-03Hits:


大家好,我叫许刚伟,导师为杨欣教授,研究方向为三维重建和世界模型。以第一作者在顶刊和顶会(CCF-A类)上发表论文7篇,分别是T-PAMI两篇、NeurIPS一篇、CVPR三篇、ICCV一篇。参与发表的CCF-A类论文共16篇,其中有两篇一作论文引用次数超350次,四篇一作论文引用次数超100次,在Github上的开源项目累计加星超3000次。已授权专利2项(我为学生第一发明人)。获得首届国家自然科学基金博士生项目资助,获华中科技大学“学术新星”称号。


过去的一年,我的科研经历有波折也有平坦。一开始并不顺利,投稿的两篇 CVPR 2025论文都被拒了。我仍然清晰地记得,大年除夕那天我还在实验室撰写 CVPR 的rebuttal,直到晚上才赶回家吃年夜饭。虽然结果令人遗憾,但我还是平静研读了最终的拒稿意见,不断修改、完善,最终成功发表在 ICCV 2025 上。


与此同时,我也开始尝试一个更有挑战性的项目。我们注意到,当前的单目深度估计基础模型(如 Depth Anything)在深度边缘处普遍存在“飞点”问题。为了解决这一问题,我希望引入生成式概率建模的思路。然而,现有的生成式方法(如 Marigold)普遍依赖 VAE 进行压缩,而我发现 VAE 本身会进一步引入飞点伪影。于是,一个自然的想法是直接在像素空间进行扩散生成,彻底去掉 VAE。


这一设想在实践中却遇到了极大的困难。像素空间的扩散模型对计算资源要求极高,幸好在杨老师的帮助下,我们解决了算力难题。但新的问题随之出现:没有 VAE 的压缩,模型训练难以收敛。这其实也在情理之中——如果像素空间扩散能轻易实现,那么 OpenAI 的 Sora 或阿里的 Wan 也不会继续使用 VAE。尽管困难重重,我并没有放弃。我广泛阅读相关论文,尝试借鉴 DeepMind 的方案,但效果并不理想。后来,我受谢赛宁等人的 REPA 方法启发,进行了多轮改进与优化,模型性能终于取得了显著提升。


这个项目前后尝试了数十种方案,跑了上百个实验,许多思路最终被否定。过程中也曾好几次想过放弃这个项目,但最终还是坚持了下来。幸运的是,这份努力得到了回报。我们将成果投稿至 NeurIPS 2025,获得了四位审稿人一致的高度评价,评审意见全部都是正面反馈,最终以高分(5,5,5,5)被录用。


转眼间,我也是博三了,进入博士倒计时。回望这段经历,无论是论文被拒还是项目受挫,似乎都不再那么令人痛苦。更多的是一种平静和坦然——继续修改,继续尝试。



湖北省武汉市洪山区珞喻路1037号东十七楼  电话:027-87792776  领导邮箱:[email protected]

857足球直播 天天足球直播