嘘~ 正在从服务器偷取页面 . . .

Vision Transformer


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-05-15 更新

Advancing Food Nutrition Estimation via Visual-Ingredient Feature Fusion

Authors:Huiyan Qi, Bin Zhu, Chong-Wah Ngo, Jingjing Chen, Ee-Peng Lim

Nutrition estimation is an important component of promoting healthy eating and mitigating diet-related health risks. Despite advances in tasks such as food classification and ingredient recognition, progress in nutrition estimation is limited due to the lack of datasets with nutritional annotations. To address this issue, we introduce FastFood, a dataset with 84,446 images across 908 fast food categories, featuring ingredient and nutritional annotations. In addition, we propose a new model-agnostic Visual-Ingredient Feature Fusion (VIF$^2$) method to enhance nutrition estimation by integrating visual and ingredient features. Ingredient robustness is improved through synonym replacement and resampling strategies during training. The ingredient-aware visual feature fusion module combines ingredient features and visual representation to achieve accurate nutritional prediction. During testing, ingredient predictions are refined using large multimodal models by data augmentation and majority voting. Our experiments on both FastFood and Nutrition5k datasets validate the effectiveness of our proposed method built in different backbones (e.g., Resnet, InceptionV3 and ViT), which demonstrates the importance of ingredient information in nutrition estimation. https://huiyanqi.github.io/fastfood-nutrition-estimation/.

营养估算在促进健康饮食和缓解与饮食相关的健康风险方面起着重要作用。尽管食品分类和成分识别等任务取得了进展,但由于缺乏营养注释的数据集,营养估算方面的进展受到限制。为了解决这一问题,我们介绍了FastFood数据集,该数据集包含908个快餐类别的84446张图片,具有成分和营养注释。此外,我们提出了一种新型的模型无关的视觉成分特征融合(VIF$^2$)方法,通过融合视觉和成分特征来提高营养估算的准确度。通过训练期间的同义词替换和重采样策略提高了成分稳健性。成分感知的视觉特征融合模块结合了成分特征和视觉表示,以实现准确的营养预测。在测试阶段,通过数据增强和多数投票使用大型多模式模型对成分预测进行细化。我们在FastFood和Nutrition5k数据集上的实验验证了使用不同主干(如Resnet、InceptionV3和ViT)构建的我们所提出方法的有效性,这证明了成分信息在营养估算中的重要性。详情请访问:https://huiyanqi.github.io/fastfood-nutrition-estimation/。

论文及项目相关链接

PDF Accepted for publication in ACM International Conference on Multimedia Retrieval 2025

Summary

本文介绍了营养估算在促进健康饮食和缓解饮食相关健康风险方面的重要性。针对缺乏带有营养注释的数据集的问题,作者提出了FastFood数据集,包含84,446张跨908个快餐类别的图像,具有成分和营养注释。同时,作者提出了一种新的模型通用的视觉成分特征融合(VIF$^2$)方法来提高营养估算的准确性,通过融合视觉和成分特征,并采用同义词替换和重采样策略提高成分稳健性。实验结果表明,该方法在不同主干网络上均有效,证明了成分信息在营养估算中的重要性。

Key Takeaways

  1. 营养估计是促进健康饮食和缓解饮食相关健康风险的重要组成部分。
  2. 缺乏带有营养注释的数据集是限制营养估计进展的主要原因。
  3. FastFood数据集包含84,446张快餐图像,具有成分和营养注释,旨在解决上述问题。
  4. 提出的VIF$^2$方法通过融合视觉和成分特征来提高营养估算的准确性。
  5. 采用同义词替换和重采样策略提高成分稳健性。
  6. 成分感知视觉特征融合模块结合成分特征和视觉表示,实现准确营养预测。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
检测/分割/跟踪 检测/分割/跟踪
检测/分割/跟踪 方向最新论文已更新,请持续关注 Update in 2025-05-15 GNCAF A GNN-based Neighboring Context Aggregation Framework for Tertiary Lymphoid Structures Semantic Segmentation in WSI
下一篇 
视频理解 视频理解
视频理解 方向最新论文已更新,请持续关注 Update in 2025-05-15 SkillFormer Unified Multi-View Video Understanding for Proficiency Estimation
2025-05-15
  目录