Global profiling of functional histidines in live cells using small-molecule photosensitizer and chemical probe relay labelling
Yansheng Zhai, Xinyu Zhang, Zijing Chen, Dingyuan Yan, Lin Zhu, Zhe Zhang, Xianghe Wang, Kailu Tian, Yan Huang, Xi Yang, Wen Sun, Dong Wang, Yu-Hsuan Tsai, Tuoping Luo & Gang Li *
深圳湾实验室 李刚 团队
Nature Chemistry, 16, 1546–1557 (2024)
目前,选择性标记组氨酸的方法有三种。
第一种策略涉及通过咪唑N-3的亲核共轭,如硫磷酸化²⁸、环氧化物开环²⁹、丙烯醛Michael加成³⁰以及活化硫缩醛生物偶联³¹。
第二种策略基于通过咪唑C-2的自由基介导C–H烷基化,例如在可见光促进条件下使用4-烷基-1,4-二氢吡啶试剂³²,以及用脂肪族亚磺酸盐作为自由基前体³³。
第三种策略是反向极性(umpolung)方法,通过光催化剂生成单线态氧氧化咪唑,然后与亲核探针1-甲基-4-芳基尿唑发生反应³⁴。
这些策略在细胞中的应用有限。原因:试剂和/或产物的苛刻条件或不稳定性。
近期,有研究利用丙烯醛(acrolein)基方法来描绘组氨酸反应性³⁰,但该方法需要预先封闭半胱氨酸且仅能在细胞裂解液中进行。
作者报道了一种基于单线态氧的组氨酸氧化和化学探针中继标记体系,以实现活细胞中的组氨酸选择性标记。
使用常规可获得的光敏剂,作者在不进行样品分级的条件下,即可在一次LC–MS/MS分析中鉴定出超过 3,200个组氨酸位点。在HeLa细胞中筛选了17种光敏剂和25种化学探针后,作者在超过2,400种蛋白中获得了约7,200个独特组氨酸位点的蛋白组覆盖。
该方法利用咪唑环与单线态氧的氧化还原反应,通过类Diels–Alder反应机理实现了对组氨酸的高选择性标记。
通过将组氨酸标记整合到定量化学蛋白质组学中,作者揭示了异柠檬酸脱氢酶1(IDH1)中的H309和富含半胱氨酸蛋白1(CRIP1)中的H73的功能意义。此外,作者利用细胞线粒体自噬模型研究了暴露于溶剂的组氨酸残基可及性的变化,并发现帕金森病蛋白7(PARK7)中的H138在与LUC7L3的相互作用以及决定PARK7亚细胞定位中的作用。作者的结果展示了该方法在分子水平上对功能未注释组氨酸残基进行全局分析的潜力。
光敏剂与化学探针筛选
一个理想的组氨酸分析平台应具备三个关键特征:(1)对组氨酸具有高度选择性;(2)具备深度的全蛋白质组覆盖;(3)能够同时适用于细胞裂解液和活细胞。作者近期报道了一种依赖单线态氧的邻近标记方法,该方法使用光敏蛋白 miniSOG(即 mini Singlet Oxygen Generator),并展示了对组氨酸的极高选择性³⁵。
受到这一发现的启发,作者设想将 miniSOG 替换为小分子光敏剂,可能会提高单线态氧的产率,从而实现更深层次的组氨酸覆盖³⁶,³⁷。此外,小分子方法无需遗传操作即可应用于天然细胞或组织。
在机理上,单线态氧氧化组氨酸会生成一种反应性中间体,随后被含胺化学探针捕获(Fig 1a)。该中间体的瞬态性质得到了实验支持:若在光照结束后再加入化学探针,则检测不到任何标记信号(Supplementary Fig. 1)。
通过点击反应进一步修饰,再经链霉亲和素富集、磁珠上胰蛋白酶消化、光解裂解以及LC-MS/MS表征,能够在蛋白质组中识别被标记的组氨酸位点³⁵。
蛋白质组覆盖的深度可能取决于单线态氧的生成效率和化学探针的反应性。因此,作者首先筛选了17种小分子光敏剂(**[Extended Data Fig. 1](**<https://www.nature.com/articles/s41557-024-01545-6/figures/7>**)**a),涵盖多种类型,包括组织染料³⁸、天然色素³⁹、内源性光敏剂⁴⁰、传统光动力治疗药物⁴¹、重原子增强型光敏剂⁴²,⁴³、半氰碱染料⁴⁴、硫五亚甲基氰碱光诱导剂⁴⁵、叶绿素衍生物⁴⁶,以及聚集诱导发光(AIE)发光体⁴⁷,⁴⁸。凝胶内荧光分析显示,在HeLa细胞中,这些光敏剂在对应的最大吸收波长下激发、并与模型化学探针3-炔基苯胺(3-EA)共同处理后,均可产生全蛋白质组范围的标记(Fig 1b)。该标记依赖于光照和3-EA的存在(Supplementary Fig. 2)。除核黄素(riboflavin, RF)外,其余光敏剂在短时照射下均未引起明显细胞毒性(Supplementary Fig. 3a,b)。
就化学探针而言,其亲核性与对单线态氧的稳定性之间的平衡可能至关重要。作者初步筛选了四类分子(**[Extended Data Fig. 1](**<https://www.nature.com/articles/s41557-024-01545-6/figures/7>**)**b):苯胺类³⁵,³⁸、烷基胺⁴⁹,⁵⁰、酚类⁵¹及硫缩醛炔类³¹。这些探针分别含有活性的胺、羟基或硫醇基团。凝胶内荧光分析显示,与其他类型相比,苯胺类探针表现出更强的标记信号(Fig 1c)。在苯胺类中,5-炔基-2-氟苯胺(5E-2FA)和3-EA产生的标记强度最高。相比之下,3-EA的同分异构体显示较弱信号。对3-EA进行取代(如在胺基邻位或对位引入甲基或氟、N-甲基化或吡啶取代)显著影响标记结果,突显了标记反应对取代基结构的可调性。作者还尝试了使用取代不同的苯肼、苯羟胺及苯腙等探针以扩大化学探针的多样性,但九种测试探针均未优于3-EA(Supplementary Fig. 4)。
活细胞中组氨酸分析
作者利用串联正交蛋白水解的ABPP流程³⁵,⁵²,在活细胞中评估17种光敏剂与化学探针3-EA的适用范围和选择性。
为确定修饰的质量转移(mass shift)及氨基酸选择性,作者采用了基于MSFragger的FragPipe平台的无偏开放搜索流程(Fig 2a)⁵³。以累计“定位的肽段谱匹配数”(localized PSMs)超过500为阈值,作者在全部17种光敏剂中检测到11种修饰形式。分布分析显示总体组氨酸特异性高达98.9%(图2b及补充表1)。每种光敏剂平均检测到约4,400个PSM,比光敏蛋白miniSOG高出十倍以上(**[Extended Data Fig. 2](**<https://www.nature.com/articles/s41557-024-01545-6/figures/8>**)**a)³⁵。其中,+229 Da及其水解产物+247 Da的修饰(及其同位素峰)占全部PSM的80.7%。该结果与作者先前使用miniSOG的研究一致³⁵,但此次检测到更多氧化还原形式,可能归因于小分子光敏剂更高的单线态氧产率。
在确定修饰质量后,作者以+229和+247 Da作为偏移量(offset mass)进行FragPipe搜索,允许在任意氨基酸或蛋白质末端执行全局搜索,以评估选择性。结果令人满意:组氨酸的特异性为97.2%(Fig 2c)。高选择性很可能来自苯胺探针对氧化中间体的反应性,因为单线态氧也能氧化甲硫氨酸、色氨酸和酪氨酸⁵⁴,⁵⁵。与整个蛋白质组相比,标记肽段中组氨酸的富集倍数为2.8,而其他对单线态氧敏感的氨基酸比例基本未变,表明这些氨基酸在富集样品中仍然得到良好代表(**[Extended Data Fig. 2](**<https://www.nature.com/articles/s41557-024-01545-6/figures/8>**)**b)。
随后,作者采用常规closed search,发现使用玫瑰红(RB)和TCy5-Btz(T5B;即带有苯并噻唑季铵盐的硫五亚甲基氰碱染料)的光敏剂可识别超过3,000个组氨酸位点,另有7种光敏剂可识别超过2,000个位点(图2d)。
进一步以差异质量229和247 Da联合搜索组氨酸与其他标准氨基酸及蛋白末端,得到平均94.3%的组氨酸特异性(Extended Data Fig. 2c,d)。
MS/MS谱分析显示大量高置信度的y离子和b离子,从而能够准确定位修饰残基(图2e)。仅RF标记位点少于100个,可能由于其单线态氧产率低,更倾向于作为光氧化还原催化剂而非优良光敏剂⁵⁶,⁵⁷。
总体而言,作者在未分级的单次LC-MS/MS运行中识别出7,160个独特位点,分布于2,424种蛋白中,代表了目前活细胞中最深度的组氨酸覆盖。对组氨酸位点进行无监督层次聚类(排除RF)后,结构相似的光敏剂被归为同一类,表明数据集质量极高(图2f)。使用RB进行重复性验证时,三组生物学重复的相关系数接近0.9,进一步证明方法的可靠性(Supplementary Fig. 5)。值得注意的是,组氨酸位点数与凝胶内荧光强度并不相关,后者反映的是标记产率而非标记数量⁵⁸。尝试同时使用多种光敏剂以最大化检测位点数未取得成功(Supplementary Fig. 3c)。然而,对全部光敏剂面板进行重叠分析发现,组合使用四种光敏剂即可捕获约80%的总标记位点。该趋势在聚类分析中同样明显,突显了光敏剂之间的互补性(图2f)。组合三种或两种光敏剂时,覆盖比例分别为约70%和60%(图2g),表明仅需两至四种光敏剂即可在一次实验中覆盖大部分组氨酸位点。
部分光敏剂先前被报道具有特定细胞器定位特性,例如ICy-OH(IO,带羟基的吲哚菁染料)与TCy5-CHO(T5C,带醛基的硫五亚甲基氰碱染料)定位于线粒体,T5B定位于内质网,亚甲蓝(MB)定位于细胞核⁴⁴,⁴⁵,⁵⁹。确实,MB主要标记位于细胞核内的蛋白(约60%),表明其在核组氨酸分析中的潜力。然而,基因本体(GO)分析显示,其他光敏剂介导的标记蛋白分布于整个细胞(Supplementary Fig. 6)。共聚焦显微镜观察亦验证了这一现象(Supplementary Fig. 7),这可能归因于小分子光敏剂的高单线态氧产率。此外,作者使用光敏剂RB对优化的苯胺探针5E-2FA和3-EA进行了并行比较。开放搜索显示5E-2FA的Δ质量为+247和+265 Da,表明氟取代基成功引入了蛋白质组。闭合搜索结果显示,3-EA和5E-2FA分别识别了约3,371和3,426个位点(Supplementary Fig. 8),与凝胶内荧光结果一致。
作用机制与产物表征
鉴于基于单线态氧的邻近标记与生物偶联反应³⁴,³⁸,⁴²,⁵⁷,⁶⁰-⁶²受到了广泛关注,文献中提出了多种针对单线态氧诱导的组氨酸修饰的可能机制³⁵,⁵¹。作者旨在通过设计结构简单、官能团封闭的组氨酸模拟物——N-乙酰组胺(1)——来阐明最终产物的精确结构。
令人欣喜的是,在与蛋白质组实验类似的条件下,该底物生成了明显且可经HPLC分离的产物7(Fig. 3a)。机理上,作者推测咪唑与单线态氧生成过氧环加合物2a和2b,随后O–O键断裂生成3a和3b,两者在水溶液中可迅速互变。接着,3b被3-EA的胺基亲核加成,脱水后生成4-芳氨基-2-吲哚酮化合物5(文献63),再经氧化形成氢过氧化物6。最终,体系中还原剂原位断裂过氧键,生成产物7。
通过NMR和/或X射线晶体学(图3b,Extended Data Fig. 3及Supplementary Fig. 9–12)确证了6和7的结构;由于其不稳定性,未能成功获得6的质谱表征。基于模型化合物所得的机理洞察,作者最终确定了蛋白质组实验中组氨酸+247 Da与+229 Da加合物的精确结构(图3c)。
组氨酸功能的生物信息学分析
在所有已鉴定的蛋白中,有317种蛋白在 UniProt 数据库中被注释为具有活性位点,其中300种蛋白在 AlphaFold 蛋白结构数据库⁶⁴,⁶⁵ 中具有可靠的结构模型。利用这些结构信息,作者评估了被鉴定的组氨酸与活性位点残基之间的距离,并发现其与活性位点中未被鉴定的组氨酸呈现出相似的趋势(Fig. 4a及**[Extended Data Fig. 4](**<https://www.nature.com/articles/s41557-024-01545-6/figures/10>**)**a,b)。该方法能够直接标记13种酶中处于活性位点的组氨酸残基,反映为0 Å的距离(图4b)。此外,已测量的被标记组氨酸与注释活性位点残基之间的距离中,有24个小于2.5 Å,68个小于5 Å(图4b)。这些组氨酸可能对酶的功能产生重要影响。结论:活性位点的直接或邻近标记表明,当以竞争方式应用时,该方法可用于抑制剂发现,这与其他亲核性氨基酸的基于活性蛋白质谱策略相一致⁶⁶,⁶⁷。
为了进一步揭示被标记组氨酸的结构特征,作者进行了溶剂可及表面积(SASA)分析⁶⁴,发现约85%的标记位点暴露于溶剂中(图4c),这是通过相对溶剂可及性值确定的。相比之下,在同一蛋白质组中未被标记的组氨酸以及全蛋白质组中的组氨酸显著更埋藏(Extended Data Fig. 4c,d)。因此,该方法能够表征由蛋白–蛋白相互作用、亚细胞转运或蛋白构象变化所介导的组氨酸可及性差异。
为了深入探讨被标记组氨酸的功能,作者将其定位至 PROSITE(文献16)注释的蛋白结构域上。结果发现多个显著富集的结构域(p.adjust < 0.01),包括参与RNA识别的蛋白、小GTP酶家族、鸟嘌呤核苷酸结合域、金属结合域以及二硫键功能域(图4d)。
此外,在活细胞组氨酸分析中由光敏剂标记的蛋白中,有 75% 不存在于 DrugBank 数据库(图4e)。DrugBank中包含的蛋白主要为酶类或调控蛋白,如氨酰-tRNA合成酶、硫氧还蛋白、蛋白酶体及含 annexin 结构域的蛋白。相对地,非DrugBank组蛋白的结构域组成与整体数据集相似,主要包括非酶类及结构相关蛋白(Supplementary Fig. 13)。
利用AlphaFold结构预测评估二级结构分布后发现,标记的组氨酸中有39%、17%和44%分别位于 α-螺旋、β-折叠 和 无规卷曲 区域(图4f)⁶⁴,⁶⁵,结果与已鉴定蛋白中未被标记的组氨酸以及全蛋白质组中所有组氨酸的分布趋势一致(Extended Data Fig. 4e,f)。对标记组氨酸的局部序列环境进行分析后未发现保守基序(图4g),说明该方法适用于全局、非偏向性的组氨酸分析。
在7,160个鉴定位点中,有35个位点分布于28种蛋白,被UniProt注释为金属结合位点,且大多数蛋白仅包含单个位点(图4h)⁶⁸。虽然已知金属结合位点比例较低,但这可能受到目前蛋白–金属复合物结构数量有限的制约,进一步强调了开发新方法以发现未知金属结合位点的必要性。
金属蛋白中组氨酸功能的发现
考虑到组氨酸在金属结合中的重要性,作者尝试在金属蛋白中发现未表征的功能性组氨酸位点。作者假设,组氨酸与金属结合后会降低咪唑环的电子密度,从而降低其对单线态氧及化学探针的反应性。为验证该假设,作者以His标签蛋白为模型,在有无硫酸镍的条件下进行组氨酸标记实验。结果显示,His标签肽段的总离子强度从1.5×10⁸下降至不可检测水平,表明金属结合完全抑制了标记过程(Fig. 5a)。结论:该方法有潜力揭示关键的金属结合组氨酸位点。
为定量识别受金属螯合影响的组氨酸标记,作者采用 SILAC(稳定同位素标记氨基酸细胞培养) 的HeLa细胞蛋白质组,分别在有或无金属螯合剂EDTA条件下处理(Supplementary Fig. 14a)。正向实验(“重”样本 +EDTA;“轻”样本 –EDTA)与反向实验(“重”样本 –EDTA;“轻”样本 +EDTA)平行进行以确保可靠性。使用最优四种光敏剂组合后,作者鉴定出 44种具有EDTA敏感组氨酸位点的蛋白(图5b及Extended Data Fig. 5)。其中,核糖体蛋白如RPS15、RPS17、RPS19和RPS21在EDTA处理后反应性增强,与RNA识别结构域的高富集相一致。深入分析表明,单价和二价金属离子对核糖体复合物的结构至关重要⁶⁹。许多核糖体蛋白含有金属结合基序,如锌指结构域,以稳定蛋白折叠或介导其与RNA或其他蛋白的相互作用⁷⁰,⁷¹。
此外,作者还鉴定出两种表现出显著标记变化的蛋白:异柠檬酸脱氢酶1(IDH1),一种催化异柠檬酸生成α-酮戊二酸的癌症相关代谢酶⁷²;以及 富含半胱氨酸蛋白1(CRIP1),属于LIM结构域家族(最初在LIN-11、Isl-1和MEC-3基因中发现,由两个相邻的锌指结构域组成)⁷³。通过Western blot验证,这两种蛋白的EDTA依赖性标记均得到确认(图5c)。
为阐明其功能意义,作者首先分析了IDH1的晶体结构,发现H309距离钙离子约9.7 Å(图5d)。然而,SILAC结果显示EDTA处理前后标记量相差3.6倍,表明该残基参与金属结合。随后,作者进行了位点定向突变(H309M、H309A、H309G和H309R),并分别在细胞裂解液与纯化蛋白中测定酶活性。所有突变体表达水平相似,但其酶活性几乎完全丧失,说明H309对IDH1的催化活性至关重要(图5e及Supplementary Fig. 15a,b)。
对于CRIP1,目前仅有小鼠同源蛋白的NMR结构⁷³。CRIP1由76个氨基酸组成,包含两个LIM结构域及一个C末端无序区(P62–K76),被鉴定的H73位于该区域。EDTA处理后标记量增加3.8倍,提示H73可能参与Zn²⁺结合。蛋白纯化实验中,去除6xHis标签后,WT蛋白对镍柱的结合能力显著高于H73A突变体(图5f)。利用电感耦合等离子体质谱(ICP-MS)测定锌结合能力,发现WT比H73A高约30%,进一步支持H73具有锌结合能力,这与模拟结构结果一致(图5g,h)。综上,这些结果表明作者的组氨酸标记技术能够发现金属蛋白中先前未知的功能性位点。
自噬线粒体降解(Mitophagy)中功能性组氨酸的发现
鉴于被标记的组氨酸主要暴露于溶剂,作者推测该方法可用于捕获在特定细胞过程中组氨酸可及性变化。为验证此假设,作者使用带His标签的模型蛋白,在有无抗His单克隆抗体条件下构建人工蛋白–蛋白相互作用体系。结果显示,抗体结合后His标签肽段的离子强度下降了6.5倍(Fig. 6a)。
作者使用 CCCP(碳基氰氯苯肼) 诱导的线粒体自噬模型,其中去极化的线粒体通过自噬途径被清除,该过程涉及新的蛋白–蛋白相互作用及蛋白质跨膜转运。作者选用光敏剂T5C,因其具有广泛的组氨酸位点覆盖及已报道的线粒体定位⁴⁵。为定量分析自噬过程中组氨酸标记差异,作者进行了SILAC实验:正向实验(“重” +CCCP;“轻” +vehicle)与反向实验(“重” +vehicle;“轻” +CCCP),随后进行组氨酸标记流程(Supplementary Fig. 14b)。结果显示,共有71种蛋白标记减少,提示新形成的蛋白–蛋白相互作用;另有24种蛋白标记增加(图6b)。其中,26种减少标记的蛋白定位于线粒体,说明数据质量较高。通过pull-down及后续Western blot分析验证了CCCP处理后PARK7、PRDX3和HSPA9的标记减少(图6c),同时SILAC整体蛋白质组结果排除了蛋白丰度变化的影响(Supplementary Fig. 15c,d)。
在这些蛋白中,PARK7 是参与抗氧化应激防护并作为 PINK1/Parkin 依赖性线粒体自噬 下游关键介导因子的蛋白⁷⁴。其突变会破坏自噬过程,导致受损线粒体积累并最终引发多巴胺能神经元死亡⁷⁵。本研究中,作者发现 PARK7的H138 在自噬过程中标记减少。为探究其是否因蛋白–蛋白相互作用而改变,作者利用SILAC结合FLAG标签免疫共沉淀–质谱鉴定CCCP处理前后PARK7的相互作用差异。多轮实验中稳定鉴定到的蛋白包括 TMOD3、BAG2、BANF1、PLEC及LUC7L3,并通过共免疫沉淀–Western blot验证(图6d及Extended Data Fig. 6a)。随后,作者利用shRNA进行基因敲低实验,结果发现仅敲低LUC7L3可恢复标记信号(图6e,f及Extended Data Fig. 6b,c),进一步证实自噬过程中蛋白相互作用增强导致标记效率下降。
为研究H138的功能,作者比较了FLAG标签SILAC免疫共沉淀实验中WT与H138A突变体的相互作用差异。结果显示,H138A突变在正常及CCCP处理条件下均增强了与线粒体分子伴侣蛋白的相互作用,包括GRP75(又称HSPA9)、HSPA8及HSPA1A(图6g,h)。已有研究表明,PARK7迁移至线粒体需要分子伴侣HSP70和GRP75的协助⁷⁶,提示H138A突变可能增加了PARK7的线粒体定位。作者随后提取线粒体及胞质组分,通过Western blot检测PARK7含量。结果与SILAC一致,H138A突变体在线粒体中的含量高于WT(图6i)。综合而言,作者的发现揭示了 PARK7 H138 在亚细胞转运中的功能作用(Supplementary Fig. 16)。