技术新讯 > 医药医疗技术的改进,医疗器械制造及应用技术 > 具有区段保留的蛋白质设计的制作方法 > 正文

具有区段保留的蛋白质设计的制作方法

国知局
2024-10-15 10:25:27

本文描述的主题一般涉及蛋白质设计，并且更具体地涉及用于设计其中保留一个或多个区段的蛋白质序列的技术。

背景技术：

1、蛋白质负责许多重要的细胞功能，包括例如酶促反应、分子运输、许多生物学途径的调节和执行、细胞生长、增殖、营养物摄取、形态、运动、细胞间通讯等。蛋白质结构可以包括一个或多个多肽，其是通过肽键连接在一起的氨基酸残基链。形成蛋白质结构的多肽链中的氨基酸残基序列决定了蛋白质的三维结构(例如，蛋白质的三级结构)。此外，形成蛋白质的多肽链中的氨基酸序列决定了蛋白质的基本功能。因此，从头蛋白质设计的主要目标包括构建一个或多个表现出某些特征的氨基酸残基序列。例如，在大分子药物发现的情况下，从头蛋白质设计通常会寻求标识能够与抗原(诸如病毒抗原、肿瘤抗原等)结合的氨基酸残基(例如，抗体等)的序列。

技术实现思路

1、提供了用于区段保留蛋白质设计的系统、方法和制品，包括计算机程序产品。在一些示例性实施例中，提供了一种包括至少一个处理器和至少一个存储器的系统。该至少一个存储器可以包括程序代码，该程序代码在由至少一个处理器执行时提供操作。该操作可以包括：在具有第一残基序列的蛋白质结构内确定第一固定区段和第一可调整区段；标识与该蛋白质结构相关联的期望的特性；使用蛋白质设计计算模型生成第二残基序列，该第二残基序列包含对第一可调整区段的破坏和长度变化中的至少一者；以及使用该蛋白质设计计算模型生成具有该第二残基序列的经修饰的蛋白质结构。

2、在一些变型中，本文公开的包括以下特征的一个或多个特征可以任选地包括在任何可行的组合中。蛋白质设计计算模型可以包括经训练以生成第二残基序列的机器学习模型。

3、在一些变型中，机器学习模型可以借由至少对通过训练学习的数据分布进行采样来生成第二残基序列。

4、在一些变型中，对数据分布的采样可以包括通过修饰第一可调整区段来生成经破坏的序列，对经破坏的序列进行编码以生成编码，该编码具有对应于编码中存在的残基数量的长度，通过改变经破坏的序列的编码的长度同时保持第一固定区段的长度来生成中间序列，以及至少基于中间序列的解码来生成第二残基序列。

5、在一些变型中，可以在不修饰包括在第一残基序列中的第一固定区段的情况下生成经破坏的序列。

6、在一些变型中，第二残基序列可以包括第一固定区段。

7、在一些变型中，中间序列的解码可以至少基于标识中间序列内的第一固定区段的索引图来生成

8、在一些变型中，中间序列的解码可以包括针对中间序列内的每个位置，跨越可能的氨基酸残基的词汇表确定概率分布。

9、在一些变型中，可以通过应用自回归建模、非自回归建模和条件随机场中的一者或多者来确定概率分布。

10、在一些变型中，操作可以进一步包括：在具有第一残基序列的蛋白质结构内确定第二固定区段；以及对数据分布进行采样来生成第二残基序列以包括第一固定区段和第二固定区段。

11、在一些变型中，对数据分布的采样可以包括通过修饰第一可调整区段来生成经破坏的序列，其中经破坏的序列包括经修饰的第一可调整区段、第一固定区段和第二固定区段；通过改变经破坏的序列的编码的长度同时保持第一固定区段或第二固定区段的长度来生成中间序列；生成索引图以标识中间序列内的第一固定区段和第二固定区段；以及通过基于索引图对中间序列进行解码来生成第二残基序列以包括第一固定区段和第二固定区段。

12、在一些变型中，第一残基序列的第一长度与第二残基序列的第二长度之间的差异可以借由至少改变第一可调整区段的第一长度和/或改变第二可调整区段的第二长度而分布于第一可调整区段和第二可调整区段。

13、在一些变型中，第一残基序列的第一长度与第二残基序列的第二长度之间的差异可以基于第一残基序列与第二残基序列之间的可能长度差异的概率分布来确定。

14、在一些变型中，第一残基序列的第一长度与第二残基序列的第二长度之间的差异可以与第一可调整区段的第一长度和第二可调整区段的第二长度成比例地分布。

15、在一些变型中，第一残基序列的第一长度与第二残基序列的第二长度之间的差异可以随机分布于第一可调整区段和第二可调整区段。

16、在一些变型中，第一残基序列的第一长度与第二残基序列的第二长度之间的差异可以分布至第一可调整区段而不是第二可调整区段，使得第二可调整第二区段的第二长度被保留。

17、在一些变型中，第一残基序列的第一长度与第二残基序列的第二长度之间的差异可以通过将不大于最大长度变化和/或不小于最小长度变化应用于第一可调整区段的第一长度和第二可调整区段的第二长度中的至少一者来分布。

18、在一些变型中，第一残基序列可以包括抗体。第一区段可以包括抗体的互补决定区(cdr)或抗体的非互补决定区。

19、在一些变型中，蛋白质设计计算模型的输入可以包括一个或多个标识符，以使得能够在第一序列的对应于抗体的重链的第一部分与第一序列的对应于抗体的轻链的第二部分之间进行区分。

20、在一些变型中，蛋白质设计计算模型的输入可以进一步包括一个或多个标识符，以使得能够在第一序列的对应于抗体的重链的第一部分，第一序列的对应于抗体的轻链的第二部分，以及第一序列的对应于对抗体具有已知结合亲和力的抗原的第三部分之间进行区分。

21、在一些变型中，第一序列的第三部分可以包括固定区段和/或可调整区段。

22、在一些变型中，蛋白质设计计算模型可以基于一个或多个标识符生成第二残基序列，使得包括在第二残基序列中的第一固定区段存在于与第一残基序列相同的链中。

23、在一些变型中，一个或多个标识符可以包括在第一序列的对应于抗体的重链的第一部分与第一序列的对应于抗体的轻链的第二部分之间的标记。

24、在一些变型中，一个或多个标识符可以包括标识抗体的重链中每个残基的第一标签和标识抗体的轻链中每个残基的第二标签。

25、在一些变型中，破坏可以包括以下项中的至少一者：将残基插入到第一可调整区段中，使残基从第一可调整区段中缺失，以及修饰存在于第一可调整区段中的残基。

26、在一些变型中，数据分布可以与对应于多个已知蛋白质序列的数据的降维表示相对应。多个残基序列的至少一部分可以与一种或多种已知功能相关联。

27、在一些变型中，蛋白质设计计算模型可以包括自动编码器。

28、在一些变型中，蛋白质设计计算模型可以包括去噪自动编码器(dae)。

29、在一些变型中，可以至少基于第一固定区段与期望的特性相关联来确定第一固定区段。

30、在一些变型中，操作可以进一步包括：进行结构分析和功能分析中的一者或多者以确定第二残基序列表现出期望的特性。

31、在一些变型中，操作可以进一步包括：生成包括第一固定区段和第一可调整区段的第一残基序列的固定长度表示；以及应用蛋白质设计计算模型以借由至少将破坏和长度变化中的至少一者应用于包括在第一残基序列的固定长度表示中的第一可调整区段来生成第二残基序列。

32、在一些变型中，第一残基序列的固定长度表示可以借由至少至少基于包括多个已知蛋白质序列的多序列比对确定具有多个整数位置的全局索引，以及至少基于与第一残基序列比对的全局索引将来自多个整数位置的对应整数位置分配给包括在第一残基序列中的每个残基来生成。

33、在一些变型中，输入序列的固定长度表示可以在每个整数位置处包括间隙字符，其中第一残基序列未能在该整数位置处包括对应的残基。

34、在另一方面，提供了一种用于区段保留蛋白质设计的方法。该方法可以包括：在具有第一残基序列的蛋白质结构内确定第一固定区段和第一可调整区段；标识与该蛋白质结构相关联的期望的特性；使用蛋白质设计计算模型生成第二残基序列，该第二残基序列包含对第一可调整区段的破坏和长度变化中的至少一者；以及使用该蛋白质设计计算模型生成具有该第二残基序列的经修饰的蛋白质结构。

35、在一些变型中，本文公开的包括以下特征的一个或多个特征可以任选地包括在任何可行的组合中。蛋白质设计计算模型可以包括经训练以生成第二残基序列的机器学习模型。

36、在一些变型中，机器学习模型可以借由至少对通过训练学习的数据分布进行采样来生成第二残基序列。

37、在一些变型中，对数据分布的采样可以包括通过修饰第一可调整区段来生成经破坏的序列，对经破坏的序列进行编码以生成编码，该编码具有对应于编码中存在的残基数量的长度，通过改变经破坏的序列的编码的长度同时保持第一固定区段的长度来生成中间序列，以及至少基于中间序列的解码来生成第二残基序列。

38、在一些变型中，可以在不修饰包括在第一残基序列中的第一固定区段的情况下生成经破坏的序列。

39、在一些变型中，第二残基序列可以包括第一固定区段。

40、在一些变型中，中间序列的解码可以至少基于标识中间序列内的第一固定区段的索引图来生成

41、在一些变型中，中间序列的解码可以包括针对中间序列内的每个位置，跨越可能的氨基酸残基的词汇表确定概率分布。

42、在一些变型中，可以通过应用自回归建模、非自回归建模和条件随机场中的一者或多者来确定概率分布。

43、在一些变型中，该方法可以进一步包括：在具有第一残基序列的蛋白质结构内确定第二固定区段；以及对数据分布进行采样来生成第二残基序列以包括第一固定区段和第二固定区段。

44、在一些变型中，对数据分布的采样可以包括通过修饰第一可调整区段来生成经破坏的序列，其中经破坏的序列包括经修饰的第一可调整区段、第一固定区段和第二固定区段；通过改变经破坏的序列的编码的长度同时保持第一固定区段或第二固定区段的长度来生成中间序列；生成索引图以标识中间序列内的第一固定区段和第二固定区段；以及通过基于索引图对中间序列进行解码来生成第二残基序列以包括第一固定区段和第二固定区段。

45、在一些变型中，第一残基序列的第一长度与第二残基序列的第二长度之间的差异可以借由至少改变第一可调整区段的第一长度和/或改变第二可调整区段的第二长度而分布于第一可调整区段和第二可调整区段。

46、在一些变型中，第一残基序列的第一长度与第二残基序列的第二长度之间的差异可以基于第一残基序列与第二残基序列之间的可能长度差异的概率分布来确定。

47、在一些变型中，第一残基序列的第一长度与第二残基序列的第二长度之间的差异可以与第一可调整区段的第一长度和第二可调整区段的第二长度成比例地分布。

48、在一些变型中，第一残基序列的第一长度与第二残基序列的第二长度之间的差异可以随机分布于第一可调整区段和第二可调整区段。

49、在一些变型中，第一残基序列的第一长度与第二残基序列的第二长度之间的差异可以分布至第一可调整区段而不是第二可调整区段，使得第二可调整第二区段的第二长度被保留。

50、在一些变型中，第一残基序列的第一长度与第二残基序列的第二长度之间的差异可以通过将不大于最大长度变化和/或不小于最小长度变化应用于第一可调整区段的第一长度和第二可调整区段的第二长度中的至少一者来分布。

51、在一些变型中，第一残基序列可以包括抗体。第一区段可以包括抗体的互补决定区(cdr)或抗体的非互补决定区。

52、在一些变型中，蛋白质设计计算模型的输入可以包括一个或多个标识符，以使得能够在第一序列的对应于抗体的重链的第一部分与第一序列的对应于抗体的轻链的第二部分之间进行区分。

53、在一些变型中，蛋白质设计计算模型的输入可以进一步包括一个或多个标识符，以使得能够在第一序列的对应于抗体的重链的第一部分，第一序列的对应于抗体的轻链的第二部分，以及第一序列的对应于对抗体具有已知结合亲和力的抗原的第三部分之间进行区分。

54、在一些变型中，第一序列的第三部分可以包括固定区段和/或可调整区段。

55、在一些变型中，蛋白质设计计算模型可以基于一个或多个标识符生成第二残基序列，使得包括在第二残基序列中的第一固定区段存在于与第一残基序列相同的链中。

56、在一些变型中，一个或多个标识符可以包括在第一序列的对应于抗体的重链的第一部分与第一序列的对应于抗体的轻链的第二部分之间的标记。

57、在一些变型中，一个或多个标识符可以包括标识抗体的重链中每个残基的第一标签和标识抗体的轻链中每个残基的第二标签。

58、在一些变型中，破坏可以包括以下项中的至少一者：将残基插入到第一可调整区段中，使残基从第一可调整区段中缺失，以及修饰存在于第一可调整区段中的残基。

59、在一些变型中，数据分布可以与对应于多个已知蛋白质序列的数据的降维表示相对应。多个残基序列的至少一部分可以与一种或多种已知功能相关联。

60、在一些变型中，蛋白质设计计算模型可以包括自动编码器。

61、在一些变型中，蛋白质设计计算模型可以包括去噪自动编码器(dae)。

62、在一些变型中，可以至少基于第一固定区段与期望的特性相关联来确定第一固定区段。

63、在一些变型中，该方法可以进一步包括：进行结构分析和功能分析中的一者或多者以确定第二残基序列表现出期望的特性。

64、在一些变型中，操作可以进一步包括：生成包括第一固定区段和第一可调整区段的第一残基序列的固定长度表示；以及应用蛋白质设计计算模型以借由至少将破坏和长度变化中的至少一者应用于包括在第一残基序列的固定长度表示中的第一可调整区段来生成第二残基序列。

65、在一些变型中，至少基于包括多个已知蛋白质序列的多序列比对确定具有多个整数位置的全局索引，以及至少基于与第一残基序列比对的全局索引将来自多个整数位置的对应整数位置分配给包括在第一残基序列中的每个残基。

66、在一些变型中，输入序列的固定长度表示可以在每个整数位置处包括间隙字符，其中第一蛋白质序列未能在该整数位置处包括对应的残基。

67、在另一方面，提供了一种计算机程序产品，其包括存储指令的非暂时性计算机可读介质。该指令可以引起可以由至少一个数据处理器执行的操作。该操作可以包括：在具有第一残基序列的蛋白质结构内确定第一固定区段和第一可调整区段；标识与该蛋白质结构相关联的期望的特性；使用蛋白质设计计算模型生成第二残基序列，该第二残基序列包含对第一可调整区段的破坏和长度变化中的至少一者；以及使用该蛋白质设计计算模型生成具有该第二残基序列的经修饰的蛋白质结构。

68、在另一方面，提供了一种包括至少一个数据处理器和至少一个存储器的系统。该至少一个存储器可以存储指令，该指令在由该至少一个数据处理器执行时引起操作。该操作可以包括：在具有第一残基序列的第一抗体内标识与该第一抗体的第一期望的特性相关联的第一固定区段；生成第二残基序列以包括第一固定区段和第一可调整区段；应用蛋白质设计计算模型来生成第三残基序列以包括第一固定区段以及对第一可调整区段的破坏和长度变化中的至少一者；应用特性预测模型以确定由第三残基序列表现出的第二期望的特性；以及至少基于第三残基序列的第二期望的特性满足一个或多个阈值来生成具有第三残基序列的第二抗体。

69、在另一方面，提供了一种方法，该方法包括：在具有第一残基序列的第一抗体内标识与该第一抗体的第一期望的特性相关联的第一固定区段；生成第二残基序列以包括第一固定区段和第一可调整区段；应用蛋白质设计计算模型来生成第三残基序列以包括第一固定区段以及对第一可调整区段的破坏和长度变化中的至少一者；应用特性预测模型以确定由第三残基序列表现出的第二期望的特性；以及至少基于第三残基序列的第二期望的特性满足一个或多个阈值来生成具有第三残基序列的第二抗体。

70、在另一方面，提供了一种计算机程序产品，其包括存储指令的非暂时性计算机可读介质。该指令可以引起可以由至少一个数据处理器执行的操作。该操作可以包括：在具有第一残基序列的第一抗体内标识与该第一抗体的第一期望的特性相关联的第一固定区段；生成第二残基序列以包括第一固定区段和第一可调整区段；应用蛋白质设计计算模型来生成第三残基序列以包括第一固定区段以及对第一可调整区段的破坏和长度变化中的至少一者；应用特性预测模型以确定由第三残基序列表现出的第二期望的特性；以及至少基于第三残基序列的第二期望的特性满足一个或多个阈值来生成具有第三残基序列的第二抗体。

71、在方法、系统、非暂时性计算机可读介质以及计算机实现的方法的一些变型中，本文公开的包括以下特征的一个或多个特征任选地包括在任何可行的组合中。

72、在一些变型中，可以应用特性预测模型来确定由第三残基序列表现出的第一期望的特性。具有第三残基序列的第二抗体可以至少基于第三残基序列的第一期望的特性满足一个或多个阈值来生成。

73、在一些变型中，第一期望的特性可以是对靶分子的结合亲和力，并且第二期望的特性可以是表达、非特异性、稳定性、非免疫原性、人性和自缔合中的一者或多者。

74、在一些变型中，第一抗体可以为非人抗体。

75、在一些变型中，第一固定区段可以包括第一抗体的互补决定区(cdr)。

76、在一些变型中，第一固定区段可以包括第一抗体中的一个或多个游标区残基。

77、在一些变型中，第一可调整区段可以包括随机生成的氨基酸残基序列。

78、在一些变型中，第一可调整区段可以包括人抗体的框架区。

79、在一些变型中，第一可调整区段可以包括不具有一个或多个游标区残基的人抗体的框架区。

80、在一些变型中，可以在具有第一残基序列的第一抗体内标识与第一抗体的第一期望的特性相关联的第二固定区段。可以生成第二残基序列以包括第二固定区段。可以应用蛋白质设计计算模型来生成第三残基序列以包括第一固定区段和第二固定区段。

81、在一些变型中，可以生成第二残基序列以包括第二可调整区段。可以应用蛋白质设计计算模型来生成第三残基序列以进一步包括对第一可调整区段和/或第二可调整区段的破坏和长度变化中的至少一者。

82、在一些变型中，长度变化可以分布于第一可调整区段和第二可调整区段。

83、在另一方面，提供了一种包括至少一个数据处理器和至少一个存储器的系统。该至少一个存储器可以存储指令，该指令在由该至少一个数据处理器执行时引起操作。该操作可以包括：在具有第一残基序列的第一蛋白质结构内标识与第一蛋白质结构的一种或多种不期望的特性相关联的可调整区段；生成第二残基序列以包括可调整区段和固定区段；应用蛋白质设计计算模型来生成第三残基序列以包括固定区段以及对可调整区段的破坏和长度变化中的至少一者；应用特性预测模型以确定第三残基序列表现出的一种或多种不期望的特性；以及至少基于第三残基序列的一种或多种不期望的特性满足一个或多个阈值来生成具有第三残基序列的第二蛋白质结构。

84、在另一方面，提供了一种方法，该方法包括：在具有第一残基序列的第一蛋白质结构内标识与第一蛋白质结构的一种或多种不期望的特性相关联的可调整区段；生成第二残基序列以包括可调整区段和固定区段；应用蛋白质设计计算模型来生成第三残基序列以包括固定区段以及对可调整区段的破坏和长度变化中的至少一者；应用特性预测模型以确定第三残基序列表现出的一种或多种不期望的特性；以及至少基于第三残基序列的一种或多种不期望的特性满足一个或多个阈值来生成具有第三残基序列的第二蛋白质结构。

85、在另一方面，提供了一种计算机程序产品，其包括存储指令的非暂时性计算机可读介质。该指令可以引起可以由至少一个数据处理器执行的操作。该操作可以包括：在具有第一残基序列的第一蛋白质结构内标识与第一蛋白质结构的一种或多种不期望的特性相关联的可调整区段；生成第二残基序列以包括可调整区段和固定区段；应用蛋白质设计计算模型来生成第三残基序列以包括固定区段以及对可调整区段的破坏和长度变化中的至少一者；应用特性预测模型以确定第三残基序列表现出的一种或多种不期望的特性；以及至少基于第三残基序列的一种或多种不期望的特性满足一个或多个阈值来生成具有第三残基序列的第二蛋白质结构。

86、在方法、系统、非暂时性计算机可读介质以及计算机实现的方法的一些变型中，本文公开的包括以下特征的一个或多个特征任选地包括在任何可行的组合中。

87、在一些变型中，可调整区段可以包括与一种或多种不期望的特性相关联的氨基酸残基或氨基酸残基模式。

88、在一些变型中，可以应用蛋白质设计计算模型以借由至少替换和/或去除与一种或多种不期望的特性相关联的氨基酸残基或氨基酸残基模式来生成第三残基序列。

89、在一些变型中，一种或多种不期望的特性可以包括对氧化、化学修饰和/或化学异构化的倾向。

90、在一些变型中，一种或多种不期望的特性可以包括免疫原性。

91、在一些变型中，可以至少基于固定区段与一种或多种可期望的特性相关联来标识固定区段包含在第二残基序列中。

92、在一些变型中，一种或多种可期望的特性可以包括对靶分子的结合亲和力、表达、非特异性、稳定性、非免疫原性、人性和/或自缔合。

93、在一些变型中，固定区段可以包括互补决定区(cdr)和/或一个或多个游标区残基。

94、在一些变型中，可以应用特性预测模型来确定由第三残基序列表现出的一种或多种期望的特性。具有第三残基序列的第二蛋白质结构可以至少基于第三残基序列的一种或多种期望的特性满足一个或多个阈值来生成。

95、当前主题的具体实现可以包括但不限于与本文提供的描述一致的方法以及包括有形体现的机器可读介质的制品，该有形体现的机器可读介质可操作以使一台或多台机器(例如，计算机等)引起实现所述特征中的一个或多个所述特征的操作。类似地，也描述了可以包括一个或多个处理器以及耦合到该一个或多个处理器的一个或多个存储器的计算机系统。可以包括非暂时性计算机可读或机器可读存储介质的存储器可以包括、编码、存储等使一个或多个处理器执行本文所述操作中的一个或多个操作的一个或多个程序。与当前主题的一个或多个实现一致的计算机实现方法可以由存在于单个计算系统或多个计算系统中的一个或多个数据处理器来实现。此类多个计算系统可以进行连接并且可以经由一个或多个连接来交换数据和/或命令或其他指令等，包括，例如，通过网络(例如，互联网、无线广域网、局域网、广域网、有线网络等)经由该多个计算系统中的一个或多个计算系统之间的直接连接等至连接。

96、本文描述的主题的一个或多个变型的细节在附图和下面的说明书中阐述。参照说明书和附图以及权利要求书，本文描述的主题的其他特征和优点将变得显而易见。虽然出于与区段保留蛋白质设计相关的说明性目的而描述了当前公开的主题的某些特征，但是应当容易理解的是，此类特征并非旨在进行限制。本公开之后的权利要求旨在限定受保护的主题的范围。