⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-11-13 更新
Protein as a Second Language for LLMs
Authors:Xinhui Chen, Zuchao Li, Mengqi Gao, Yufeng Zhang, Chak Tou Leong, Haoyang Li, Jiaqi Chen
Deciphering the function of unseen protein sequences is a fundamental challenge with broad scientific impact, yet most existing methods depend on task-specific adapters or large-scale supervised fine-tuning. We introduce the “Protein-as-Second-Language” framework, which reformulates amino-acid sequences as sentences in a novel symbolic language that large language models can interpret through contextual exemplars. Our approach adaptively constructs sequence-question-answer triples that reveal functional cues in a zero-shot setting, without any further training. To support this process, we curate a bilingual corpus of 79,926 protein-QA instances spanning attribute prediction, descriptive understanding, and extended reasoning. Empirically, our method delivers consistent gains across diverse open-source LLMs and GPT-4, achieving up to 17.2% ROUGE-L improvement (average +7%) and even surpassing fine-tuned protein-specific language models. These results highlight that generic LLMs, when guided with protein-as-language cues, can outperform domain-specialized models, offering a scalable pathway for protein understanding in foundation models.
解析未知蛋白质序列的功能具有广泛的科学影响,是一项基本挑战。然而,大多数现有方法都依赖于特定任务的适配器或大规模监督微调。我们引入了“蛋白质作为第二语言”框架,该框架将氨基酸序列重新制定为新型符号语言中的句子,大型语言模型可以通过上下文示例来解释这些句子。我们的方法自适应地构建序列-问题-答案三元组,在零样本设置下揭示功能线索,无需任何进一步训练。为了支持这一过程,我们创建了一个双语语料库,包含79926个蛋白质问答实例,涵盖属性预测、描述性理解和扩展推理。从实证角度看,我们的方法在多种开源大型语言模型和GPT-4上实现了持续的收益,ROUGE-L改进了高达17.2%(平均+7%),甚至超越了微调过的蛋白质特异性语言模型。这些结果强调,当通用大型语言模型借助蛋白质作为语言的线索时,可以超越领域专业化的模型,为基础模型中的蛋白质理解提供了一条可扩展的途径。
论文及项目相关链接
PDF Main paper: 9 pages, 6 figures. With references and appendix: 18 pages, 9 figures total. Submitted to ICLR 2026 (under review)
Summary
蛋白质序列的功能解析是科学领域的一个基本挑战。现有方法大多依赖于特定任务的适配器或大规模监督微调。本研究提出“蛋白质作为第二语言”框架,将氨基酸序列重新构造成一种新的符号语言中的句子,大型语言模型可以通过上下文范例进行解读。该研究通过自适应构建序列-问题-答案三元组,在零样本设定下揭示功能线索,无需任何进一步训练。为支持此过程,研究还编制了一个包含79926个蛋白质问答实例的双语语料库,涵盖属性预测、描述性理解和扩展推理。实证研究结果显示,该方法在不同开源大型语言模型和GPT-4上表现一致,平均提高Rouge-L得分7%,在某些情况下甚至提高至17.2%,并超越了微调后的蛋白质特异性语言模型。这表明当通用大型语言模型与蛋白质作为语言的线索相结合时,可以超越专业领域模型的表现,为蛋白质理解在基础模型中提供了可扩展的路径。
Key Takeaways
- 蛋白质序列功能解析是科学挑战,现有方法依赖特定任务适配器或监督微调。
- 提出“蛋白质作为第二语言”框架,将氨基酸序列转化为上下文中的句子。
- 通过自适应构建序列-问题-答案三元组揭示功能线索,无需进一步训练。
- 编制了一个包含多种蛋白质问答场景的双语语料库。
- 通用大型语言模型在蛋白质理解方面表现优异,与蛋白质作为语言的线索结合时表现更佳。
- 研究结果显示,该方法在不同开源大型语言模型和GPT-4上平均提高Rouge-L得分7%,最高提升至17.2%。