胡文健

上海大学通信与信息系统硕士研究生

研究方向：生成式人工智能；计算机视觉；自动驾驶感知；图像处理

+86 13795226481

2514554081@qq.com

2001.03.02

男

科研经历项目经历 GitHub

专业技能

计算机语言：Python，C#，JavaScript
熟悉Stable Diffusion，DiT主流扩散生成模型架构
能够熟练进行本地模型Lora微调以及创新架构设计

熟练使用可灵，Pika，Luma，Liblib等在线AIGC工具
熟练使用ComfyUI进行本地AIGC工作流的搭建及自定义节点设计
熟悉Vue+Springboot前后端框架及Shiro权限管理系统

教育经历

学术背景与学习经历

上海大学 | 通信与信息系统 | 硕士

2023.09 - 2026.06

GPA：3.5/4.0
第十九届中国研究生电子设计竞赛（初赛二等奖）
华为杯第六届研究生人工智能大赛（三等奖）

上海大学 | 通信工程 | 本科

2019.09 - 2023.06

GPA：3.0/4.0
英语6级（550）

实习经历

行业实践与工作经历

生成式算法工程师

2025.06 - 2025.09

Nullmax 纽劢科技

探索生成式人工智能用于自动驾驶感知领域的联合数据生成与数据增强方法，设计了一个基于Stable Diffusion的双流生成架构，结合创新的几何先验注意力交互机制，联合建模前视图像和鸟瞰图（BEV）分割的双模态数据。以第一作者完成论文《JointDiff: A Unified Diffusion Model for Joint Generation in Image and BEV Space》，已投稿至计算机视觉顶会WACV 2026。

Stable Diffusion DiT 自动驾驶 BEV 3D重建

项目经历

技术项目与实践经验

基于生成式人工智能的AI数字人赋能教学平台

项目主程序员 2024.07 - 2024.12

集成文本对话、语音识别、语音生成、人物视频生成的数字人平台，同时开发数字人在教学领域的垂直拓展应用。

GPT-SoVITS Vue Springboot 数字人

数字孪生智能装卸平台

权限管理与3D可视化 2023.01 - 2023.06

为一款自动装货机构建3D可视化的管理网站，通过动画UI表现数据状态的实时同步。

3D可视化 Shiro Springboot 数字孪生

科研经历

学术研究与论文发表

AIGC赋能自动驾驶感知研究

2024.12 - 至今

研究基于扩散模型的驾驶图像与鸟瞰图语义掩码联合生成，探索跨膜态，跨视角数据的联合生成范式。探索图像翻译，图像编辑，3D生成技术对传统计算机视觉算法的数据增强方法。

代表性成果:

胡文健, 等. (2025). "JointDiff: A Unified Diffusion Model for Joint Generation in Image and BEV Space." 已投稿至 WACV 2026 (第一作者).

生成式AI 自动驾驶扩散模型计算机视觉

条件人物图像生成研究

2023.09 - 2024.12

通过融合交叉注意力机制和正则化操作构建姿态纹理融合模块，提升了人物姿态转移的精度与自然度。研究重点在于小波域中的注意力机制与归一化操作的渐进式整合方法。

代表性成果:

Zhang, S., Li, M., Wang, J., 胡文健, 等. (2024). "AplusN: Progressively Integrating Attention and Normalization in Wavelet Domain for Pose Transfer." IEEE Transactions on Multimedia (第四作者).

人物图像生成注意力机制小波域姿态转移

联系方式

欢迎联系我进行学术合作、研究交流或任何相关咨询

邮箱

发送邮件进行专业咨询

2514554081@qq.com

电话

工作时间可致电联系

+86 13795226481