МОСКОВСКИЙ ФИЗИКО-ТЕХНИЧЕСКИЙ ИНСТИТУТ (ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ) ИНСТИТУТ ЭНЕРГЕТИЧЕСКИХ ПРОБЛЕМ ХИМИЧЕСКОЙ ФИЗИКИ РОССИЙСКОЙ АКАДЕМИИ НАУК На правах рукописи УДК 541.64:543.544 Тарасова Ирина Алексеевна ЖИДКОСТНАЯ ХРОМАТОГРАФИЯ В КРИТИЧЕСКИХ УСЛОВИЯХ В СОЧЕТАНИИ С МАСС-СПЕКТРОМЕТРИЕЙ ДЛЯ ИЗУЧЕНИЯ ПЕРВИЧНОЙ СТРУКТУРЫ БИОМОЛЕКУЛ 01.04.17. – химическая физика, в том числе физика горения и взрыва Диссертация на соискание учёной степени кандидата физико-математических наук Научный руководитель кандидат физико-математических наук М.В. Горшков Москва – 2007 ОГЛАВЛЕНИЕ Общая характеристика работы……………………………………….……....4 1. Введение. Основные представления о предмете исследований…...….13 1.1 Масс-спектрометрия как основной метод исследования биомолекул в протеомике…………………………………………….....13 1.2 Модели предсказания хроматографических времен удерживания белков и пептидов по их аминокислотной последовательности…………………………………..24 1.3 Жидкостная хроматография в критических условиях как метод исследования синтетических полимеров………………………..32 2. Теоретические основы концепции жидкостной хроматографии в критических условиях………………………………………………………...39 2.1 Модель случайных блужданий для гетерополимеров………………...39 2.2 Эффективная энергия взаимодействия биомакромолекулы с поверхностью твердой фазы в градиентной хроматографии………………………………………………………..….43 2.3 Основное уравнение градиентной хроматографии……………………45 2.4 Система уравнений модели BioLCCC для определения объемов/времен удерживания пептидов………………………………..46 3. Определение феноменологических параметров……………………..…47 4. Апробация модели на экспериментальных данных……………………51 4.1 Экспериментальные условия и методы исследования……………...…51 4.2 Корреляция экспериментальных и предсказанных времен удерживания на примере пептидных стандартов и дайджеста белков бактерии Escherichia Coli………………………………………..………55 2 4.3 Предсказание разделения пептидов с модифицированными аминокислотными остатками на примере изомеров лейцин и изолейцин…………………………………………………………...……59 4.4 Предсказание разделения последовательностей с перестановкой аминокислот на примере пептидов с зеркально-симметричными текстами…………………………………………………………………..61 4.5 Практическое применение модели BioLCCC для фильтрации и верификации результатов поиска по базам данных в процессе идентификации пептидов и белков на примере Escherichia Coli……..64 Заключение и выводы……………………………………………………...…86 Список публикаций…………………………………………………………...98 Литература…………………………………………………………………....100 3 Общая характеристика работы Введение. Актуальность проблемы. В настоящее время задача определения первичной структуры белка, т. е. его аминокислотной последовательности, решается преимущественно методами тандемной масс-спектрометрии (МС/МС). В первую очередь это связано с тем, что масс-спектрометрический метод секвенирования белков является самым быстрым из всех известных. В протеомных исследованиях для осуществления МС/МС секвенирования распространение получили массанализаторы типа квадрупольной радиочастотной ловушки, времяпролетные масс-спектрометры, спектрометры ионного циклотронного резонанса, а также совсем новый тип масс-анализатора, получивший название "орбитальная ионная ловушка" (orbitrap). Масс-спектрометрия добилась несомненных успехов в области исследования и идентификации структуры белков и пептидов, а также в решении других задач протеомики и биоинформатики. В то же время многие исследователи отмечают высокий процент ложных идентификаций пептидов, а, следовательно, и белков, если определение их аминокислотной последовательности проводится исключительно по масс-спектрометрическим данным. В связи с этим существует необходимость развития новых, отличных от масс- спектрометрии, методов определения и идентификации аминокислотных последовательностей. Естественным представляется использование для этих целей высокоэффективной жидкостной хроматографии (ВЭЖХ). Вопервых, перечисленные выше типы масс-спектрометров работают "в связке" с хроматографом, позволяющим разделять сложные смеси пептидов, образующихся в результате ферментативного гидролиза белков, и, тем самым, хроматографическое упростить их разделение МС/МС основано анализ. на Во-вторых, взаимодействии макромолекулы с поверхностью, и это взаимодействие также отражает характер чередования аминокислотных остатков в цепи. Однако до 4 последнего времени хроматографические данные, т.е. объем или время удерживания, мало использовались или вообще не использовались для определения аминокислотной последовательности пептидов. Несмотря на возросший в последнее время интерес к хроматографии как к источнику дополнительной информации о первичной структуре пептидов и белков, до сих пор не было предложено такой содержательной физической теории, описывающей процессы разделения биомакромолекул, которая позволила бы связать закономерности разделения с "текстом" аминокислотной последовательности. Все существующие методики предсказания удерживания пептидов с известной последовательностью строились либо на основе моделей, развитых для низкомолекулярных соединений, либо на основе систем искусственного интеллекта. Это в лучшем случае позволяло "определить" средний аминокислотный состав пептида, но не характер чередования аминокислотных остатков в цепи. Цель и задачи исследования. Основной целью и задачами работы были (1) разработка модели хроматографического разделения биомакромолекул (BioLCCC), хроматографического учитывающей удерживания от зависимость первичной их структуры – последовательности аминокислотных остатков; (2) экспериментальная верификация предложенной модели для предсказания времени и порядка выхода биомакромолекул с разными "текстами" в условиях градиентной хроматографии; (3) интеграция данных по последовательности цепи, получаемых в рамках развитого хроматографического подхода, с существующими экспертными системами МС/МС секвенирования для повышения достоверности идентификации белков и пептидов. Научная новизна. 1. Впервые предложена физическая модель, описывающая взаимодействие связанных в цепь аминокислотных остатков биомакромолекулы с 5 поверхностью, и учитывающая зависимость взаимодействия (статистической суммы) от их последовательности в цепи. 2. Впервые известная концепция жидкостной хроматографии в критических условиях, развитая ранее для исследования строения цепи синтетических полимеров, применена для описания разделения биомакромолекул в ВЭЖХ, в том числе и в условиях градиентной хроматографии. 3. Впервые экспериментально найдены эффективные энергии адсорбции 20 наиболее распространенных в природе аминокислотных остатков, а также концевых групп пептидов с гидрофобной поверхностью типа С18. 4. Впервые модель хроматографического разделения пептидов применена, в том числе совместно с экспертными системами МС/МС секвенирования, для определения последовательностей пептидов, для идентификации модифицированных последовательностей, вызванных участков либо аминокислотных пострансляционными модификациями белков, либо мутациями в процессе их синтеза, либо перестановками аминокислотных остатков. Практическое значение работы. Полученные результаты могут быть использованы исследователями, работающими в области протеомики, для решения следующих проблем: 9 предсказания времен удерживания биомакромолекул с известной последовательностью, что позволит повысить достоверность идентификации пептидов и белков, полученных в результате хроматомасс-спектрометрического анализа; 9 определения аминокислотных последовательностей неизвестных или отсутствующих в протеомных базах данных белков (de novo sequencing); 6 9 определения или идентификации типа и места посттрансляционных модификаций в аминокислотной последовательности, а также изомерных аминокислот. Личный вклад автора. Материал, представленный в диссертации, получен при непосредственном участии автора в постановке задач исследований, в выполнении экспериментов и в обсуждении полученных результатов. Диссертационная работа выполнена на кафедре химической физики Московского физико-технического института в лаборатории физических основ и техники масс-спектрометрии биополимеров Института энергетических проблем химической физики РАН в период с 2004 по 2007 год. Апробация работы. Результаты работы докладывались и обсуждались на следующих российских и международных конференциях: 2-й Съезд Всероссийского масс-спектрометрического общества "Массспектрометрия и ее прикладные проблемы", 2005, Москва, Россия, 53-я Конференция Американского масс-спектрометрического общества, 2005, Сан Антонио, США, 17-я Международная масс-спектрометрическая конференция, 2006, Прага, Чехия, XLIX Научная конференция Московского физико-технического института, 2006, Москва, Россия, 54-я Конференция Американского масс-спектрометрического общества, 2006, Сиэтл, США, 3я Школа-семинар "Масс-спектрометрия в химической физике, биофизике и экологии", 2007, Звенигород, Россия. Публикации. Основное содержание диссертационной работы опубликовано в статьях, список которых приведен на стр. 95-96 диссертации. Работы, вошедшие в диссертацию, были выполнены при поддержке РФФИ (гранты №№ 03-04-48228, 06-04-49632), Российской Академии Наук (ОХНМ 4.2), CRDF (гранты №№ RUC1-5031-MO-04, RUE1000588-MO-05), и INTAS (Young Scientist Fellowship №04-83-2643 и Genomics-05-1000004-7759). 7 Изложение в диссертации построено следующим образом: Глава 1 содержит обзор работ, посвященных вопросам применения масс-спектрометрии для исследования биомолекул, современным методам жидкостной хроматографии макромолекул, моделям предсказания хроматографических времен удерживания пептидов по их аминокислотным последовательностям, а также методикам биоинформатики, необходимым для решения задач идентификации белков и пептидов по массспектрометрическим данным. Основное внимание в обзоре уделено обсуждению проблем, возникающих при масс-спектрометрическом анализе сложных пептидных смесей, секвенировании и идентификации пептидов и белков. Как правило, для секвенирования пептидов используется их направленная фрагментация (разрыв пептидной связи) методами столкновительной диссоциации или захвата медленных электронов. Получающийся при этом спектр фрагментов характеризуется тем, что разность между соседними по массам пиками различается на массу соответствующего аминокислотного остатка. Тем самым, разбивая макромолекулярный ион на фрагменты, оказывается возможным восстановить полностью или, по крайней мере, частично аминокислотную последовательность пептида. Однако на пути экспериментальной реализации такого подхода существуют проблемы. Вопервых, некоторые из аминокислотных остатков имеют близкие (Lys и Gln, здесь и далее используются стандартные обозначения аминокислотных остатков) или тождественные (Leu и Ile) массы, так что последовательность определяется «с точностью» до замены остатков с одинаковой или близкой массой. Во-вторых, в большинстве случаев не удается получить полный спектр фрагментации, т.е. разорвать все пептидные связи. Это обуславливает необходимость вовлечения в протеомные исследования других методов, дающих дополнительную информацию о последовательности. 8 к масс-спектрометрии Таким методом, безусловно, является жидкостная хроматография. Поэтому в последнее время делались попытки вовлечения хроматографических данных, совместно с МС, в решение задачи определения последовательности. Очевидно, что для использования хроматографии как дополнительного источника данных, необходимо найти связь между последовательностью и временем удерживания. Для установления такой связи с начала 80-тых годов использовались традиционные для хроматографии низкомолекулярных веществ эмпирические подходы. Их экстраполяция на биомакромолекулы сводилась к суммированию «коэффициентов удерживания», относящихся к каждому из аминокислотных остатков и определяемых экспериментально. Очевидно, что это не позволяет «увидеть» аминокислотную последовательность, т. к. в рамках такого теоретического подхода перестановки различных остатков, удаленных по цепи, приводят к предсказаниям одинакового времени удерживания. В то же время экспериментально было обнаружено, что удерживание пептидов, имеющих один и то же набор аминокислот, может заметно различаться. Для учета этого в эмпирические теории необходимо вводить поправки, учитывающие «соседей» по цепи, их зарядовое состояние, и т.п. В целом, количество поправочных коэффициентов может превышать несколько сотен. К тому же отметим, что эмпирический подход, хотя и дополненный зачастую правильными качественными соображениями, не позволяет понять в целом физическую сущность зависимости разделения от последовательности цепи. Взаимодействие пептида с поверхностью зависит не только от аминокислотного состава пептида, но и от последовательности чередования аминокислот. Зависимость от последовательности обусловлена тем, что аминокислотные остатки связаны в цепь, т.е. во взаимодействие пептида с поверхностью вовлечены, так или иначе, все составляющие его аминокислоты. Такие же проблемы имеют место и в хроматографии синтетических полимеров. Для определения строения макромолекул 9 синтетических полимеров в хроматографии применяется подход, отличный от экстраполяции подходов, развитых для низкомолекулярных веществ. В основу предложенной модельной теории легло понятие жидкостной хроматографии в критических условиях, появившееся впервые в 80-тых годах для описания адсорбции синтетических полимеров. В настоящее время в химии полимеров этот метод является хорошо развитым и применяется для решения таких задач как определение структуры макромолекул, исследование кинетики реакций полимеризации и исследование кинетики реакций с участием макромолекул. В данной работе нами частично осуществлен перенос основных идей критической хроматографии полимеров на другой тип объектов исследования – биомолекулы. Отметим, что в практике исследования структурных особенностей синтетических полимеров термином «критическая хроматография» обозначают режим хроматографического разделения при фиксированном, «критическом» составе бинарного растворителя. В данной же работе термин «жидкостная хроматография в критических условиях» представляет собой единую теоретическую концепцию описания разделения биомакромолекул в градиентной хроматографии. В основу теории, связывающей удерживание со структурой цепи, положена решеточная модель цепи. Оказывается, что даже такая простейшая модель правильно описывает основные закономерности разделения макромолекул, в том числе содержащих «модифицированные» мономеры. При этом наиболее чувствительным к строению цепи оказывается режим разделения вблизи критической точки адсорбции, где существует тонкий баланс между потерями энтропии цепи и приобретением энергии за счет притяжения к поверхности: любое малое отличие в строении цепи нарушает этот баланс и наиболее отчетливо проявляется в этом режиме. Критическая хроматография практически решила проблему определения строения цепи макромолекул, в т.ч. и определения таких тонких параметров, как характер чередования разных мономеров в цепи, 10 место и тип функциональных групп или модификаторов, т.е. задач, идейно весьма близких к тем, которые возникают при хроматографическом анализе последовательностей пептидов и белков. Несмотря на то, что модель разделения, используемая в критической хроматографии, допускает обобщение и для биомакромолекул, она никогда ранее не использовалась для установления связи между удерживанием и последовательностью пептидов. Обсуждается возможность применения основных идей критической хроматографии для описания разделения пептидов и белков, возможность предсказания времен удерживания по известным аминокислотным последовательностям, а также возможность решения «обратной задачи» - определения последовательности или каких-то ее элементов из хроматографических данных. Тем самым, формулируются основные задачи исследования. Глава 2 содержит теоретическое описание модели жидкостной хроматографии в критических условиях в применении к биополимерам (BioLCCC). Рассматриваются основные предположения, которые легли в основу модели BioLCCC, а также степень идеализации, позволяющая записать основные уравнения в наиболее простой форме, допускающей в некоторых случаях аналитическое решение для предсказания времен удерживания. В Главе 3 описана процедура определения ряда таких феноменологических параметров как эффективные энергии адсорбции для 20 наиболее распространенных в природе аминокислот и энергии взаимодействия с поверхностью твердой фазы на основе силикагеля С18 для воды и ацетонитрила. В Главе 4 приведены результаты, демонстрирующие эффективность и работоспособность предложенной модели разделения природных и исследования и синтетических пептидов. В заключение подведен итог настоящего сформулированы основные результаты и выводы. 11 Я благодарю моего научного руководителя Михаила Владимировича Горшкова, а также Александра Владимировича Горшкова, Виктора Викторовича Евреинова, Романа Александровича Зубарева, Кима Хасельманна за интересные идеи и поддержку моих научных исследований. Спасибо моей семье и друзьям за их любовь, понимание и готовность оказать поддержку в 12 любую минуту. 1. Введение. Основные представления о предмете исследований 1.1 Масс-спектрометрия как основной метод исследования биомолекул в протеомике О масс-спектрометрии (МС) как о методе исследования биологических образцов заговорили с появлением так называемых мягких методов ионизации: электрораспыление или электроспрей (ESI) [1] и лазерная десорбция на матрице (МАLDI) [2] (Рис. 1). Оба этих метода ионизации сделали возможным измерение масс-спектров нелетучих соединений, и, в частности, белков и пептидов. Создатели методов мягкой ионизации, Джон Фенн и Коиши Танака, в 2002 году были удостоены Нобелевской премии по химии. Появление методов мягкой ионизации, электроспрея и МАLDI, открыло новые возможности для протеомных исследований, ибо в них широко стала использоваться масс-спектрометрия – наиболее чувствительный и точный физический метод измерения масс молекул. Следует отметить, что в решении проблем протеомики, одной из основных задач которой используются является различные определение типы первичной структуры масс-спектрометров. белков, Наибольшее распространение в последние годы получили масс-спектрометры на основе радиочастотной квадрупольной ионной ловушки (QIT) [3], которые, уступая другим типам масс-спектрометров по разрешению и точности измерения масс, обладают высокой чувствительностью и производительностью (скорость получения спектров в широком диапазоне отношения массы к заряду). Еще одним достоинством масс-спектрометров QIT является возможность реализации различных методов фрагментации ионов. Нашли широкое применение в задачах идентификации белков по массам пептидов, входящих в их состав (Peptide Mass Fingerprinting), и времяпролетные массспектрометры (TOF) с источником ионизации МАЛДИ [4]. Еще одним типом 13 Вход в масс-спектрометр капилляр (а) жидкость Формирование заряженных капель и ионов Десорбированные ионы матрицы и анализируемого вещества Импульс Лазера (б) Матрица Рис.1. Принципиальная схема работы методов мягкой ионизации: электроспрей (ESI) [1], (а), и лазерная десорбция с матрицы (MALDI) [2], (б). 14 масс-спектрометров, исследованиях, нашедших являются широкое применение масс-спектрометры ионного в протеомных циклотронного резонанса с преобразованием Фурье (ИЦР ПФ, FTICR). Благодаря высокой точности измерения масс, разрешающей способности и чувствительности эти приборы позволяют свести к минимуму возможные ошибки при структурном анализе белков и пептидов [5]. В последние несколько лет конкуренцию масс-спектрометрии ИЦР по аналитическим характеристикам составил совершенно новый тип масс-спектрометров, получивший название орбитальная ионная ловушка (Orbitrap). Этот прибор представляет собой электростатическую ионную ловушку, в которой ионы движутся по стабильным циклическим траекториям вокруг центрального электрода и одновременно осциллируют вдоль оси центрального электрода [6]. Принцип детектирования ионов и измерения масс-спектров в этих приборах аналогичен масс-спектрометрии ИЦР ПФ. Следует отметить, что особенностью биологических образцов является их сложность (многокомпонентность) и высокое концентрационное различие входящих в их состав компонентов. Это накладывает повышенные требования к протоколам предварительной обработки образцов, в которую входят многостадийная очистка и сепарирование белков с помощью одно- и двумерного гель-электрофореза и/или жидкостной хроматографии. Логическим шагом в развитии аналитических методов анализа сложных смесей белков и пептидов явилась комбинация масс-спектрометров с различными методами разделения смесей и разработка хромато-массспектрометрических комплексов (ЖХ-МС, LC-MS) [7-8] (Рис. 2.). Одной из основных задач в протеомных исследованиях является секвенирование белков и пептидов, что диктует необходимость использования тандемной масс-спектрометрии (МС/МС). Наибольшее распространение получил метод фрагментации биомолекул в столкновениях ионов с молекулами буферного газа (CAD, CID), который наиболее просто может быть реализован на масс-спектрометрах ловушечного типа [9] и 15 MS/MS LC ESI SEQUENCE Рис.2. Схема хромато-масс-спектрометрического анализа (LC-MS) для секвенирования пептидов [Горшков М.В., Школа-конференция «Успехи аналитической химии» (31 Годичная сессия НСАХ РАН), 2006]. 16 диссоциация под воздействием многофотонного инфракрасного излучения (IRMPD), который, в основном, нашел применение в масс-спектрометрах ИЦР ПФ, но также реализуется и в радиочастотных квадрупольных ловушках [10]. В последние годы появились новые, альтернативные, методы фрагментации пептидов, наиболее интересными из которых являются методы, основанные на диссоциативном взаимодействии положительно заряженных ионов биомолекул с отрицательно заряженными частицами, электронами (метод диссоциативного захвата медленных электров, ECD [11]) или ионами (метод диссоциативной передачи электрона, ETD [12]). В отличие от методик CAD и IRMPD, которые в основном приводят к формированию b- и y- пептидных фрагментов (Рис. 3,), диссоциация, связанная с захватом или передачей электрона, приводит к разрыву более слабой связи –NH-CHR- и образованию так называемых c- и z- фрагментов. На Рис. 4 представлен пример спектра диссоциации пептида Substance P в методе ECD фрагментации. В настоящее время тандемная масс-спектрометрия в сочетании с жидкостной хроматографией (ЖХ-МС/МС, LC-MS/MS) является основным методом, используемым в лабораториях, занимающихся идентификацией, секвенированием полученные и в количественным ходе анализом белков. хромато-масс-спектрометрического Результаты, анализа, обрабатываются затем специальным программным обеспечением, которое фильтрует массив полученных экспериментальных данных от шумов и составляет список измеренных масс и соответствующих им масс фрагментов. Последующая идентификация биомолекул осуществляется с использованием протеомных баз данных [13-15]. В настоящее время существует множество программ, которые осуществляют эту процедуру автоматически:Mascot [16], SEQUEST [17], X!Tandem [18], OMSSA [19], и другие. 17 Collisionally Activated (or Induced) Dissociation (CAD or CID), 1960s, 1990s Electron Detachment Dissociation (EDD), 2004 Electron Capture Dissociation (ECD), 1998 a b c … - CHR – C(O) – NH – CHR’ - … 157nm UV Dissociation, 2004 Metastable-atom Induced Dissociation (MAID), 2005 Рис. 3. Классификация y x z Electron Transfer Dissociation (ETD), 2004 Infrared Multiphoton Dissociation (IRMPD), 1960s, 1995 фрагментов, образующихся при разрыве пептидной связи различными методами фрагментации [лекции проф. Р.А. Зубарева, Университет г. Упсалы, Швеция, 2005]. 18 Relative Peak Height 6.0 RPKPQQFFGLM-NH2 4.0 no ECD 2.0 0.0 400.0 650.0 900.0 m/z 1150 1400 [M+2H]2+ 2.1 Relative Peak Height Substance P [M+2H]2+ QQFFGLM QFFGLM FFGLM FGLM GLM LM 1.4 c5+ 0.7 c4 c6 + c7 + + c8+ c9+ c10 50 ms ECD M + [M+2H]+ 0.0 400.0 650.0 900.0 m/z 1150 1400 Рис. 4. Спектр родительского иона (верхний) пептида Substance P и спектр его фрагментов (нижний), полученный методом захвата медленных электронов (ECD) [Gorshkov M.V. et all, Int. J. Mass Spectrom., 234(1-3), 13136, 2004]. 19 В целом процесс идентификации белков может быть разбит на четыре последовательных шага: (1) сбор хромато-масс-спектрометрических данных для смеси пептидов, полученных в результате гидролиза белков каким-либо ферментом; (2) фильтрация полученных данных и генерация листа масс пептидов для дальнейшей обработки; (3) поиск совпадений по протеомным базам данных на основе листа масс пептидов; и, (4) верификация результатов поиска с последующим формированием окончательного списка идентификаций (Рис. 5). Опишем в качестве примера алгоритм работы поисковой машины Mascot, при помощи которой нами проводилась идентификация пептидов. Информация по изученным белкам находится в базах данных в открытом доступе в Интернете и содержит различную информацию о белках: название и происхождение белка, уникальный номер белка в базе данных, рентгенографические и спектроскопические данные о пространственной структуре и т.п. Основная, интересующая нас информация в базе данных – это аминокислотная последовательность белка. Фактически, поисковая машина извлекает информацию об аминокислотной последовательности белка, делает «теоретический гидролиз» этой последовательности на пептиды (протеолитическая смесь), рассчитывает массы «теоретических пептидов» и их фрагментов, и, наконец, сравнивает теоретические расчеты с экспериментальными данными. В результате такого сравнения, как правило, получается список пептидов-кандидатов, удовлетворяющих конкретному масс-спектру (список последовательностейсовпадений). Этот список Mascot фильтрует, оценивая для каждого кандидата вероятность случайного совпадения экспериментальной массы с рассчитанной теоретически по алгоритму, описанному в [16] и оставляя в итоговом списке результатов лишь один, наиболее вероятный пептид. Достоверность идентификации каждого пептида отражается в результатах поиска в виде индекса (достоверности), обозначенным как «Score» или «Mascot score», который 20 Идентификация пептидов: обработка данных Файл с экспериментальными данными Фильтрация экспериментальных данных Генерация листа значимых экспериментальных данных Обращение к поисковой машине Установка параметров поиска, Поиск по базам данных Подготовка экспериментальных данных к поиску по базам данных Программа обработки экспериментальных данных Файл с результатами поиска Программа обработки результатов поиска Фильтрация результатов поиска Итоговый список идентификаций Рис. 5. Схема идентификации белков и пептидов по базам данных [11 из списка публикаций автора, стр. 98-99]. 21 является, по своему смыслу, вероятностью случайного совпадения экспериментальной массы и теоретической (записанной в логарифмической шкале). Пороговое значение индекса, как правило, равно 30-34 и определяется из условия, что достоверность данной МС/МС идентификации должна быть не менее 95%. Это означает, что все пептиды, имеющие индекс достоверности достоверные ниже порогового идентификации. достоверности по значения, Таким сравнению с не рассматриваются образом, пороговым чем выше значением, как индекс тем выше вероятность, что данная последовательность была точно идентифицирована или является, по крайней мере, гомологом. Однако алгоритм расчета достоверности МС/МС идентификации в Mascot неидеален. Так, например, Mascot , как правило, присваивает близкие значения индекса пептидам, для которых было получено одинаковое количество фрагментов в МС/МС, причем это значение не зависит от длины пептидов. Следовательно, короткие пептиды аминокислотных (пептиды, остатков в имеющие небольшое последовательности) количество получают высокие значения индекса, хотя среди них значительно реже встречаются уникальные для того или иного белка. Более того, многие пептиды имеют большое количество гомологов – сходных по аминокислотной последовательности пептидов, принадлежащих разным белкам. Таким образом, индекс Mascot Score нельзя назвать достаточным решением проблемы однозначной идентификации пептидов, даже в случае индексов, значительно превышающих пороговую величину. Проблема еще больше усложняется изза ошибок в «текстах» аминокислотных последовательностей белков в базах данных. Работа над обновлением и корректировкой баз данных белков ведется непрерывно, что, в свою очередь, увеличивает степень неопределенности в результатах идентификаций белков и пептидов, полученных для одних и тех же данных, но в разное время. Еще одной типичной проблемой при рутинном анализе протеолитических смесей пептидов является высокая степень гомологии среди пептидов. В результате, 22 в списке последовательностей-кандидатов, программой, возникает множество выдаваемых последовательностей, поисковой которым присваиваются близкие значения индекса. Например, последовательности, в которых присутствуют аминокислотные остатки лейцина и изолейцина (массы этих аминокислотных остатков совпадают) в различных комбинациях, получают, как правило, одно и то же значение индекса Mascot Score. При этом программа в окончательном списке идентификаций оставляет только одну последовательность! Таким образом, выявление и разработка дополнительных методов или подходов к идентификации пептидов на основе имеющихся экспериментальных данных является серьезной и актуальной задачей в современных протеомных исследованиях. Эти подходы должны не просто «дополнять» стандартные предоставлять масс-спектрометрические независимую оценку решения, достоверности а пептидных идентификаций. Достаточно очевидным, в связи с этим, представляется использование хроматографических спектрометрическим протеолитических данным смесей в данных, практически пептидов. сопутствующих каждом масс- исследовании Хроматографическое разделение веществ основано на принципиально иных, с физико-химической точки зрения, принципах, чем разделение по массам в масс-анализаторе. Следовательно, хроматография дает комплементарную информацию о структуре молекул по отношению к масс-спектрометрическим данным (в этом случае говорят, что эти два метода «ортогональны»). Проблема состоит в том, что до недавнего времени в научном сообществе, занимающимся как протеомными исследованиями, так и развитием хроматографических методов разделения биомолекул, отсутствовали единые представления о механизме разделения пептидов и белков. Более того, существовало представление о хроматографии биомолекул, как о методе, пригодном только для разделения сложных смесей пептидов, в то время как масс-спектрометр выполняет функцию анализатора структуры биомолекул. Вместе с тем уже к 23 середине 80-х годов было показано, что времена удерживания пептидов в колонках с использованием обращенной фазы С18 в качестве адсорбента зависят от их аминокислотного состава [20-22]. Эти работы послужили основой создания в последние годы ряда моделей и алгоритмов, позволяющих предсказывать времена удерживания пептидов в зависимости от аминокислотной последовательности, а также использовать эти предсказания с целью идентификации белков. 1.2 Модели предсказания хроматографических времен удерживания белков и пептидов по их аминокислотной последовательности В последние годы было предложено достаточно большое количество методик, главной целью которых являлось повышение качества и достоверности процесса идентификации пептидов. Следует отметить, что при этом большинство усилий было направлено на разработку новых алгоритмов для интерпретации МС/МС данных [23-28], изучение механизмов тех или иных типов фрагментации в тандемной массспектрометрии [29-31], а также на разработку инструментальных методик, способных улучшить разрешающую способность, чувствительность и точность измерений существующих масс-спектрометров [32-35]. К началу нынешнего столетия сформировалось понимание того, что одними средствами масс-спектрометрии задачу идентификации аминокислотной последовательности белка решить если не невозможно, то, по крайней мере, этот процесс сложен и требует на нынешнем этапе длительного времени. Достаточно сказать, что полная расшифровка аминокислотной последовательности среднего по размеру белка (молекулярный вес около 70000-80000 Да), не входящего в протеомные базы данных, с учетом всех посттрансляционных модификаций занимает около года для оснащенной самым современным оборудованием масс- спектрометрической лаборатории. Этот факт инициировал поиск и развитие 24 методов и математических алгоритмов, позволяющих использовать хроматографические данные в процессе секвенирования или идентификации белков [36-40]. Наиболее развитой среди всех существующих на сегодняшний день моделей предсказания времен удерживания в хроматографии полипептидов является сформулированная в 80-х годах прошлого века [20, 41], так называемая аддитивная модель, получившая широкое признание и внимание со стороны хроматографического сообщества [38, 42-48]. Основное предположение, которое делается в рамках модели – это то, что разделение пептидов идет в соответствии с теми же принципами, что и разделение низкомолекулярных органических соединений, т.е. исключительно через адсорбционное взаимодействие всей пептидной цепочки с поверхностью твердой фазы. Взаимодействие каждого аминокислотного остатка определяется его индивидуальным коэффициентом удерживания (retention coefficient) и общее время удерживания пептида определяется суммой коэффициентов удерживания аминокислотных остатков, входящих в его состав. Такой аддитивный подход к рассмотрению разделения пептидов достаточно понятен и лежит в рамках существовавших в то время представлений, которые рассматривали пептиды как небольшие индивидуальные органические соединения, либо соединения, составленные из небольшого числа индивидуальных соединений (более того, даже в наше время такие представления являются доминирующими). К концу 80-х годов была завершена работа по определению индивидуальных коэффициентов удерживания для 20 наиболее распространенных в природе аминокислотных остатков [47]. Следует отметить, что определение коэффициентов для каждого конкретного аминокислотного остатка осуществлялось в экспериментах на модельных синтетических пептидах, в состав которых входил тот или иной остаток. Уже в этих ранних работах был сделан первый значительный шаг в сторону от хроматографии низкомолекулярных соединений: взаимодействие аминокислотных остатков с поверхностью 25 рассматривалось как последовательности. происходящее Полученные в в составе этих аминокислотной работах коэффициенты удерживания аминокислотных остатков стали широко использоваться в хроматографии для предсказания времен удерживания пептидов и пептидных стандартов. Идея же использования времен удерживания пептидов наряду с масс-спектрометрической информацией в протеомных исследованиях появилась лишь в 2002 году [36], и в настоящее время приобретает все большую популярность среди исследователей в области протеомики. На сегодняшний день можно выделить три совершенно различных подхода к предсказанию времени удерживания: (1) машинное обучение с применением методов искусственных нейронных сетей [37, 49] и векторной регрессии [40]; (2) различные варианты аддитивной модели [36, 38, 49-53]; и (3) концепция жидкостной хроматографии в критических условиях, положенная в основу описания хроматографического разделения биомолекул и представленная в данной работе. Следует сказать, что модельным описанием хроматографии пептидов является только жидкостная хроматография биомолекул в критических условиях, в то время как остальные подходы являются сугубо эмпирическими. Остановимся подробнее на каждом из перечисленных подходов и результатах, которые были получены с их использованием. Машинное обучение (англ. Machine Learning, подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться) очень широко используется в биоинформатике для решения самых различных задач [54-59]. Общая постановка задачи обучения формулируется следующим образом: имеется множество объектов (ситуаций – в нашем случае аминокислотная последовательность пептида) и множество возможных ответов (откликов, реакций, т.е. в нашем случае времен удерживания). Между ответами и объектами существует некоторая зависимость, которая неизвестна. Известна только конечная совокупность пар «объект, ответ», называемая обучающей выборкой. На основе этих 26 данных требуется восстановить зависимость, то есть построить алгоритм, способный для любого объекта выдать достаточно точный ответ с целью использовать затем эту зависимость для предсказания времен удерживания пептидов с известной последовательностью. В работе [37] для решения этой задачи использовали искусственные нейронные сети (ИНС). В качестве обучающей выборки для построения нейронной сети первоначально были взяты 7000 пептидов, идентифицированных в микроорганизме Deinococcus Radiodurans, а затем полученный алгоритм использовался для предсказания времен удерживания 5200 пептидов из микроорганизма Shewanella oneidensis. В среднем была получена точность предсказания ±3-4%. В следующей работе [60] была продемонстрирована времен возможность удерживания для использования увеличения хроматографических количества достоверных идентификаций и показано, что с применением как МС, так и ЖХ данных можно получить от 10 до 30% больше идентификаций. Кроме того, в последней работе [49] была на порядки увеличена обучающая выборка – 345000 пептидов от 20 различных организмов, идентифицированных в общей сложности в 12059 экспериментах, причем были приняты во внимание влияние заряженных групп, возможное формирование альфаспиральных структур (для пептидов длиной больше чем 15 аминокислот), учтен порядок расположения аминокислот в последовательности и их гидрофобность. Вследствие всех этих манипуляций для тестового набора из 1303 пептидов был получен квадратичный коэффициент корреляции между предсказанными и экспериментальными временами удерживания R2=0.967 и средняя точность предсказаний ~1.5%. Еще одна модель предсказания удерживания, основанная на использовании векторной регрессии (Support vector regression, SVR) в качестве метода машинного обучения, была предложена А.А. Кламмером и соавторами [40]. В работе использовались данные восьми ЖХ-МС/МС экспериментов, полученные для дрожжей Saccharomyces Cerevisiae. Для 27 данных экспериментов в качестве обучающих выборок в общей сложности использовались от 150 до ~2400 пептидов, в результате чего коэффициенты корреляции R для тестовых групп пептидов (50 – 800 пептидов в зависимости от номера эксперимента) варьировались от 0.80 до 0.92. Следует отметить, что и для данной работы в целом наблюдалось соответствие: чем больше обучающая выборка пептидов, тем выше коэффициенты корреляции, полученные для тестовых групп пептидов. И хотя авторы докладывают, что применение их модели предсказания времен удерживания позволило в оценках увеличить число верных пептидных идентификаций на 50%, следует отметить, что все же точность этой модели пока еще недостаточна для ее серьезного рассмотрения в задачах идентификации, и, чтобы повысить точность модели придется опять же рассматривать очень большие обучающие выборки, как и в случае с ИНС. Большое количество данных, которое требуется для обучения машины «предсказывать» время удерживания пептидов, делает оба этих метода не слишком практичными для каждой новой хроматографической системы. К тому же, если в случае ИНС подразумевается однократная тренировка системы на большом количестве данных, то второй метод был реализован для «динамического» обучения, т.е. для каждого эксперимента подразумевается отдельный тренинг машины. Кроме того, авторы этих моделей отказались от понимания «физики процессов», происходящих при хроматографическом разделении – для такого рода моделей жидкостной хроматограф, по сути, остается «черным ящиком». В 2004 году появился усовершенствованный вариант аддитивной модели для расчета времен удерживания пептидов [38]. Используя 346 триптических пептидов, идентифицированных в смеси 17 белков по МС/МС данным, авторы определили коэффициенты удерживания 20 наиболее распространенных в природе аминокислот, решив задачу оптимизации значения квадратичного коэффициента корреляции R2 и используя в качестве начальной точки ряд коэффициентов удерживания, предложенный в [47]. 28 Далее время удерживания пептида определялось суммированием коэффициентов удерживания отдельных аминокислот, как и в других аддитивных моделях, а также были введены поправочные коэффициенты для N-концевых аминокислот. Это в результате позволило получить значение коэффициента корреляции для тестовых групп пептидов R2≈0.94. Впоследствии этот результат был значительно улучшен. Так, например, в [51] для ~2000 пептидов посредством введения дополнительных поправок, позволяющих учитывать положение аминокислотного остатка в цепи (т.е. саму последовательность), тип концевых групп, длину пептида, его изоэлектрическую точку и склонность к формированию альфа-спиралей, была получена корреляция с R2 ≈ 0.98 между предсказанными и экспериментальными временами удерживания. На сегодняшний день эта модель является наиболее точной, однако не следует забывать, что и эта модель в основе своей является эмпирической и не моделирует сам процесс хроматографического разделения, хотя, безусловно, введение различного рода поправок осуществляется на основе физических соображений. Кроме того, по словам авторов, в нее заложено в общей сложности порядка 300(!) свободных параметров. Представляется, что, несмотря на довольно высокую точность и скорость расчетов, эмпирические подходы, основанные на рутинной оптимизации свободных коэффициентов и подгонке экспериментальных данных, не могут отражать физическую картину разделения пептидов, наблюдаемую в реальных экспериментах. Более того, беря за основу аддитивную модель и считая, что время удерживания определяется суммой индивидуальных адсорбционных свойств аминокислот, входящих в состав того или иного пептида, авторы таких подходов не принимают во внимание, что изменение свободной энергии биомолекулы при взаимодействии с поверхностью определяется не только адсорбционными свойствами аминокислот, но и потерями энтропии, обусловленными потерями степеней свободы вблизи поверхности: ∆G = ∆εads - kT∆S. Именно 29 преобладание энтропийной составляющей в уравнении энергетического баланса макромолекул вблизи поверхности адсорбента обуславливает существование эксклюзионного режима разделения. В качестве пояснения рассмотрим два пептида, RRRR и RRRRRRRR. Это простой пример, в котором пептиды состоят только из аминокислотного остатка аргинина (это может быть и любой другой остаток). Каков будет порядок выхода таких пептидов в условиях градиентного элюирования? Кажется очевидным, что пептид RRRR выйдет раньше из хроматографической колонки. Тот же порядок предсказывается, если рассчитать времена удерживания для этой пары, используя алгоритмы, предложенные в существующих моделях [51]. Однако оказывается, что порядок выхода пептидов зависит от условий элюирования (в случае хроматографии на обращенной фазе, скорости изменения концентрации органического компонента в бинарном растворителе), вследствие чего для этой пары порядок выхода может инвертироваться. В этом случае более длинный пептид выйдет первым, т.е. наблюдается эксклюзионный режим хроматографии, когда, как в случае полимеров, молекулы с большей молекулярной массой имеют меньшее удерживание, чем молекулы с меньшей молекулярной массой. Подобное изменение порядка выхода пептидов из-за смены режимов разделения в результате изменения условий градиентного элюирования является признанным и доказанным явлением [61]. Задачей данной работы было предложить физическую модель хроматографического разделения пептидов, которая могла бы связать аминокислотную последовательность с порядком выхода из хроматографической колонки при тех или иных условиях разделения. За основу была выбрана теория критической хроматографии полимеров (или жидкостная хроматография в критических условиях), развитая в начале 80-х годов для описания механизмов и процесса разделения синтетических полимеров и олигомеров. Именно в рамках критической жидкостной хроматографии были впервые качественно и количественно описаны адсорбционный и экслюзионный режимы 30 разделения полимеров и предсказано существование третьего режима разделения, критического, который является переходным, между адсорбционным и эксклюзионным. Следует внести ясность в используемую в данной работе терминологию. Как известно, в хроматографии существуют два хроматографических метода: сверхкритическая флюидная хроматография и жидкостная хроматография в критических условиях. Эти методы, несмотря на некую схожесть названий, в своей сущности имеют различный смысл и значение. «Сверхкритическая флюидная хроматография» или «Supercritical fluid chromatography» (SFC) – разработанный в 1960-х годах метод хроматографического разделения, в котором в качестве мобильной фазы используется сверхкритическая жидкость, чаще всего вода или диоксид углерода. Сверхкритическая хроматография является своеобразным «гибридом» газовой и жидкостной хроматографии: если температура мобильной фазы ниже своей критической температуры, а давление выше критического, то мобильная фаза действует как жидкость и процесс разделения происходит по законам жидкостной хроматографии, если же, наоборот, температура выше критической, а давление ниже критического значения, то мобильная фаза представляет собой газ и при разделении действуют законы газовой хроматографии (Raymond P.W. Scott, Liquid chromatography for the Analyst, Chromatographic Science Series, Marcel Dekker Ltd., 1994, 7). С 80-х годов прошлого века в хроматографии полимеров является устоявшимся понятие жидкостной хроматографии в критических условиях (LCCC), под которым подразумевается, что при разделении в жидкостной хроматографии переход аналита из адсорбированного в десорбированное состояние происходит как фазовый переход, и критическими параметрами такого перехода является температура и/или состав мобильной фазы. Часто для краткого обозначения этих двух методов используется один и тот же термин «критическая хроматография», что вносит полную неясность в то, какой метод по сути является предметом обсуждения. В настоящей 31 работе идет речь о концепции жидкостной хроматографии в критических условиях – теоретической модели, примененной для описания разделения пептидов и предсказания их времен удерживания в условиях градиентной жидкостной хроматографии на обращенной фазе. 1.3 Жидкостная хроматография в критических условиях как метод исследования синтетических полимеров История критической хроматографии началась в начале 70-х годов, когда было замечено, что при определенных условиях можно непрерывным образом перейти из эксклюзионного режима, характеризующегося меньшим временем удерживания макромолекул большей молекулярной массы, в адсорбционный режим, для которого характерно большее время удерживания макромолекул с большей молекулярной массой [62]. Примерно в это же время в статистической физике макромолекул начинают приобретать популярность идеи и методы флуктуационной теории фазовых переходов и аналогии между свойствами макромолекулярного клубка и свойствами системы вблизи критической точки [63]. Задача об адсорбции макромолекулы на плоской поверхности, наряду с общей задачей о переходах типа клубок - глобула, была одной из первых, для которой применялись идеи и методы такого подхода [64-65]. К середине 70–х годов накопилось огромное количество литературы, в основном теоретической, посвященной исследованию адсорбции изолированной макромолекулы. Было выяснено, что переход макромолекулы в адсорбированное состояние можно трактовать как фазовый переход в системе связанных мономеров [66]. Была рассмотрена задача о поведении макромолекул в ограниченном объеме, моделируемом щелеобразной порой [67]. Это создало хорошую основу для приложения новых идей хроматографии полимеров. 32 и к практической Первые систематические исследования перехода от эксклюзионного к адсорбционному режиму разделения в хроматографии и адсорбционного фазового перехода методом жидкостной хроматографии (Рис. 6, 7), подробный обзор которых приведен в [68], показали качественное соответствие наблюдаемых явлений простейшей модели адсорбции гауссовой цепи, представляемой случайным блужданием по кубической решетке [69]. В работе [70] критический режим был впервые целенаправленно реализован и осуществлено успешное разделение макромолекул не только по типам концевых групп, но также и по топологии - разделение линейных и циклических макромолекул. Тем самым было впервые экспериментально доказано существование перспективность для критического исследования режима, и структурных установлена его неоднородностей макромолекул. В идейные основы метода критической хроматографии полимеров была заложена теория критической точки [71]. Методом критической хроматографии была успешно определены распределения по типам функциональных групп реакционно-способных практически олигомеров, всех типов исследовано промышленных строение двух и трехблочных сополимеров и создана соответствующая теория такого разделения, разделены линейные и циклические макромолекулы, смеси полимеров, изучена структура звездообразных, графт-сополимеров и других разветвленных цепей [68]. В данной диссертационной работе была предпринята попытка перенести основные идеи критической хроматографии полимеров на принципиально другой вид объектов – биомолекулы, главное отличие которых от полимеров заключается в их гетерогенности и отсутствии молекулярно-массового распределения, характерного для гомополимеров. 33 PS (M 500-50,000), silica, pore size 100 A, cyclohexane/THF (95/5) Adsorption (LAC) Exclusion (SEC) Рис 6. Экспериментальное наблюдение непрерывного перехода полимера из эксклюзионного в адсорбционный режим разделения через критическую точку [68]. Critical (LCCC) Exclusion (SEC) Рис. 7. Adsorption (LAC) Экспериментальное наблюдение критической моды хроматографического разделения: исчезновение зависимости объемов удерживания от степени полимеризации [68]. 34 Согласно концепции жидкостной хроматографии в критических условиях (LCCC) равновесное состояние макромолекулы на поверхности адсорбента определяется энтропийными балансом между потерями в изменением результате внутренней образования энергии связей и между отдельными мономерами и поверхностью. В зависимости от того, как соотносятся количественно эти две термодинамические величины, в изократической моде разделения, когда состав бинарного растворителя не меняется со временем в течении эксперимента, различают три предельных случая или три хроматографических режима: (1) адсорбционный (возрастание энергии значительно превышает энтропийные потери); (2) критический энтропийными значительно (возрастание потерями); меньше энергии (3) полностью эксклюзионный энтропийных потерь). скомпенсировано (возрастание При этом энергии адсорбция макромолекул носит характер фазового перехода и реализуется при определенных значениях критических параметров: состава бинарного растворителя и/или температуры. Главное отличие биомолекул от полимеров заключается в гетерогенности цепи. Если полимер состоит из повторяющихся звеньев или, по крайней мере, блоков мономеров, то для природных биомолекул в тексте последовательности никакой периодичности или повторяемости структурных единиц не наблюдается. Как следствие, существенно поразному должны вести себя гомо- и гетерополимер в критических условиях. Гомополимеры характеризуются различной длиной цепи и состоят из одних и тех же мономеров, поэтому критические условия для всех гомополимеров будут одни и те же (экспериментально это проявляется в том, что в хроматограмме исчезает молекулярно-массовое распределение и все гомополимеры выходят из колонки одновременно в одном хроматографическом пике). Для гетерополимеров понятия молекулярномассового распределения не существует. В известном смысле их можно рассматривать как индивидуальные соединения, поэтому не существует 35 такого понятия как критическая точка, как в случае гомополимеров. Все гетерополимеры имеют различные времена удерживания, и хроматограмма содержит пики, соответствующие конкретному соединению. Взаимодействие макромолекул с поверхностью определяется тонким балансом энергии взаимодействия адсорбирующихся мономеров и потерь энтропии мономеров в петлях и хвостах (Рис. 8). По мере увеличения силы растворителя размер десорбированных петель увеличивается и при определенном составе (когда размер петель по порядку величины совпадает с размером клубка) происходит десорбция макромолекулы как целого. Предполагается, что именно это и происходит при градиентном элюировании: по мере увеличения силы растворителя в конфигурации адсорбированной макромолекулы появляются десорбированные петли и хвосты, ее адсорбционное взаимодействие ослабляется, и она начинает перемещаться вдоль колонки. При этом всегда существует тонкий баланс между энергией и энтропией, приводящий к зависимости адсорбционных свойств от того, каким образом цепь составлена из гидрофобных и гидрофильных остатков. Хотя для гетерополимера критической точки адсорбции в смысле исчезновения молекулярно - массового распределения не существует, описанный выше механизм разделения пептидов все же ближе к критическому режиму, чем к адсорбционному. Исходя из этих же соображений понятно, хроматографического почему разделения такой подход позволит увидеть к и описанию перестановки аминокислот внутри цепи. Рассмотрим теперь, как изложенные выше представления о характере адсорбции биомакромолекул могут помочь в решении основной проблемы – обратной задачи – определении последовательности из хроматографических данных (de novo sequencing). Понятно, что в связи с большой плотностью возможных последовательностей в одном хроматографическом пике, эта задача не имеет решения в рамках только хроматографии. Тем не менее, интерпретируя данные по разделению в рамках рассматриваемой модели, 36 A A A A A A A A A A A A A (a) A A A A A B A A A A A A A A A (b) A B Перестановка аминокислотных остатков Æ изменение энтропийных вкладов десорбированных петель и хвостов Æ баланс ∆F = ∆εads(Nc ) - kT∆S = 0 достигается при других значениях ∆εads(Nc ) Æ A A A B A A A B A A A A A A A A A B B разное удерживание (c) A A A A B A A A A B Рис. 8. Иллюстрация трактовки в рамках модели BioLCCC влияния перестановок аминокислот внутри цепи на удерживание пептида [Gorshkov M.V., LC-MS Workshop, Dubrovnik, 2007]. 37 можно получить дополнительную информацию о том, какова может быть последовательность аминокислотных остатков в цепи того или иного пептида. Объединяя модель BioLCCC с масс-спектрометрическими методиками секвенирования, можно предложить следующую схему секвенирования последовательности пептида. В режиме реального времени точно измеряются объемы удерживания и массы пептидов. Из точного измерения масс определяются возможные составы. Затем, решая прямую задачу, в модели BioLCCC вычеркиваются далекие от реальности составы (как уже говорилось, хроматографические данные «ортогональны» данным массспектрометрии), а в оставшихся кандидатах-составах ищутся последовательности, наиболее близко соответствующие экспериментальным данным. При этом возможно, и не потребуется полная фрагментация цепи: достаточно нескольких фрагментов, чтобы отобрать одну из набора лучших последовательностей. Рассматривая процесс разделения пептидов и белков в рамках модели гауссовой цепи, предлагается не традиционный подход, основанный на хроматографии низкомолекулярных соединений, а «макромолекулярный» взгляд на проблему. При этом пептиды рассматриваются как небольшие макромолекулы, имеющие цепочечную структуру и, следовательно, процесс их разделения в хроматографической колонке можно описывать в рамках концепции критической жидкостной хроматографии макромолекул. В свою очередь в рамках этой концепции времена удерживания зависят не только от состава мономеров в цепи, но и от гетерогенности цепи мономеров. В случае белков и пептидов это означает зависимость времен удерживания от их аминокислотной последовательности. количественной связи последовательностью даст между Ясно, временами дополнительную что установление удерживания размерность в и процессе идентификации пептидов или «чтения» их аминокислотного текста. В последующих главах изложены физические основы метода критической 38 хроматографии в применении к биополимерам, а также приведены примеры его приложения для решения основных задач протеомики. 2. Теоретические основы концепции жидкостной хроматографии в критических условиях 2.1 Модель случайных блужданий для гетерополимеров Из-за сложности рассматриваемой системы описание взаимодействия реальной макромолекулы с поверхностью, учитывающее детальное химическое строение, как самой макромолекулы, так и поверхности, и молекул растворителя, как методами квантовой химии, так и другими методами математического моделирования, вряд ли возможно в обозримом будущем. Это связано не только с ограничениями в вычислительной мощности, но также и с тем, что реальные потенциалы взаимодействий известны лишь приблизительно, из-за чего результаты сложных и длительных расчетов также будут далеки от реальности. Однако в хроматографической системе реализуются соотношения между рядом параметров: Размер колонки L >> размер частиц d >> размер пор D ~ размер макромолекул R >> размер мономеров a и молекул растворителя r, радиус действия адсорбционных потенциалов r0 , которые позволяют значительно упростить модель разделения. В частности, из того факта, что размер макромолекул больше размера мономеров и радиусов взаимодействия, можно на первом этапе пренебречь особенностями химической структуры мономеров, а также использовать самые простые представления о характере взаимодействия мономеров с поверхностью. На практике для описания поведения макромолекулы при взаимодействии с поверхностью адсорбента полезной оказывается модель 39 случайных блужданий по узлам кубической решетки [67]. В этой модели (Рис. 9), макромолекула представляется (в линейной нашем цепочкой случае биомакромолекула) «бестелесных» мономеров (аминокислотных остатков), соединенных между собой наподобие шариков на шарнирах. Пора адсорбента моделируется щелью, размер которой D определяется отношением размера поры d к размеру мономера a, и, как правило, не превышает 30. При этом взаимодействие макромолекулы с поверхностью определяется теми мономерами, которые находятся непосредственно в контакте с поверхностью (слой 1 и D, Рис. 9). Мономеры макромолекулы, оставаясь связанными в цепь, случайным образом могут «перемещаться» по узлам кубической решетки в поре, образуя, тем самым, все возможные состояния. Для определения статистической суммы достаточно просуммировать по всем возможным конфигурациям с учетом их статистического веса, зависящего от того, какие мономеры находятся на поверхности и взаимодействуют с ней. Контакт i-того мономера с поверхностью увеличивает статистический вес конфигурации на величину exp ε eff i , где ε eff i – эффективная энергия адсорбции. Таким образом, различие в химическом строении аминокислотных остатков сводится к различию их эффективных энергий адсорбции, которые следует рассматривать как феноменологические параметры модели. Чтобы посчитать статистическую сумму Zp макромолекулы в поре и определить основную количественную характеристику в хроматографии – коэффициент распределения Kd проще всего воспользоваться методом переходной матрицы, элементы которой есть условная вероятность перехода мономера из одного узла в соседний: 40 Рис. 9. Модель случайных блужданий гетерополимера [1-2 из списка публикаций автора, стр. 98-99]. 41 W (ε eff i ) = 2 ⋅ eε 3 1 6 0 eff i ... 1 ⋅ eε 6 2 3 1 6 ... 0 eff i 0 0 ... 0 1 0 ... 0 2 1 6 ... ... 0 ... ... 1 6 0 2 1 6 3 ... 0 0 ... 0 ... 3 ε eff i 1 ⋅e 6 6 2 ⋅ eε 3 (1) eff i DxD Если аминокислотная последовательность состоит из N мономеров, то произведение стартового описывающего P0=| exp(ε eff i ) вектора распределение начального 1 … 1 T exp(ε eff i ) | , аминокислотного остатка (начальный аминокислотный остаток соответствует первому остатку на C – конце пептида), на N-1 матриц перехода, дает распределение N- конца внутри поры, а суммирование по всем координатам N- конца цепи определяет статистическую сумму цепи в поре и, соответственно, коэффициент распределения Kd = N 1 1 Z p = | 1 1 ... 1 1 | ⋅∏W (ε eff i ) ⋅ P0 D D i =2 . (2) При этом следует отметить важное свойство, вытекающее из такой записи коэффициента распределения. Поскольку каждая матрица перехода описывает конкретную аминокислоту через энергию взаимодействия с поверхностью ε eff i , а произведение матриц некоммутативно, то в таком представлении коэффициент аминокислотного состава распределения пептида, но и зависит от не только от порядка чередования отсутствует какое-либо аминокислот в цепи, то есть K ( SEQUENCE ) ≠ K ( SEQEUNCE ) . d d Поскольку дополнительное в представлении взаимодействие между 42 (2) соседними мономерами (за исключением химической связи), оказывается, что самого факта связывания остатков в цепь уже достаточно для того, чтобы разделение в хроматографии зависело и от последовательности. Представленная модель, безусловно, не учитывает всех особенностей строения цепи реальных пептидов, в частности, возможность образования вторичных структур и т.п. Однако модель блужданий допускает рассмотрение и более реалистичных цепей, в частности, несложно ввести в эту модель параметры жесткости цепи, дополнительное взаимодействие удаленных по цепи остатков, нелокальность взаимодействия с поверхностью. Нам, для того чтобы связать модель с реальной хроматографической системой и использовать ее в дальнейшем для предсказания времени удерживания пептидов и их последовательности, необходимо определить ряд феноменологических параметров - эффективных энергий адсорбции, с учетом состава бинарного растворителя и изменения состава растворителя во времени в условиях градиентного элюирования. 2.2 Эффективная энергия взаимодействия биомакромолекулы с поверхностью твердой фазы в градиентной хроматографии Используя подход, предложенный в [72] для низкомолекулярных соединений, представим взаимодействие каждого аминокислотного остатка со стенкой поры, т.е. его эффективную энергию адсорбции ε eff i , как разность двух взаимодействий: мономер-поверхность X 0 i и сольвент- поверхность ε AB ( N B ) : ε eff i = X 0 i − ε AB ( N B ) , (3) где ε AB ( N B ) - энергия десорбции растворителя (сила растворителя), которая зависит от мольной доли N B компонента B в бинарном растворителе AB. Для определения зависимости ε AB ( N B ) рассмотрим цепь блужданий на решетке в бинарном растворителе с компонентами 43 A (вода) и B (ацетонитрил). Предположим короткодействующее взаимодействие мономера с поверхностью, ограниченное размером самого мономера a ≈ 10 Å. Попадание мономера на поверхность вызывает десорбцию либо молекул компонента растворителя А, либо В. В силу малости средней концентрации мономеров в клубке можно предположить, что адсорбция мономеров макромолекулы слабо влияет на равновесное распределение компонентов растворителя на поверхности и в растворе. Тогда усредненная матрица перехода W может быть представлена в виде W = (1 − θ B ) ⋅W (X 0 − ε A ) + θ B ⋅W (X 0 − ε B ) , (4) где θ B - степень заполнения поверхности компонентом B . Легко заметить, что W =W (ε eff ) =W (X 0 − ε A B ) , (5) ε A B = ε A − ln [ (1 − θ B ) + θ B ⋅ exp(ε A − ε B )] , (6) где а ε A и ε B - соответствующие элюирующие силы "чистых" компонентов А и В. Следовательно, в бинарном растворителе цепь можно представить блужданием по решетке с матрицей перехода, в которой элюирующая сила заменена на эффективную величину ε A B . Введем константу равновесия компонентов растворителя на поверхности в форме K ( P, T ) = θ B (1 − N B ) = exp(ε B − ε A ) . (1 − θ B ) N B (7) Тогда для элюирующей силы смеси из (6) и (7) получаем, что ε AB =ε A +ln[1− N B + N B ⋅exp(ε B −ε A )] . (8) Соотношение (8) является аналогом уравнения Снайдера для элюирующей силы бинарного закономерностей растворителя. разделения при Таким образом, переменном 44 во для времени описания составе растворителя, в теорию необходимо включить еще два феноменологических параметра - элюирующие силы компонентов бинарного растворителя, которые, подобно энергии адсорбции аминокислотных остатков, имеют физический смысл эффективной энергии адсорбции компонентов растворителя. 2.3 Основное уравнение градиентной хроматографии Обычно разделение биологических образцов происходит в условиях градиентного элюирования, т .е при изменяющемся со временем составе бинарного растворителя. Для завершения построения модели разделения необходимо связать объем (или время) удерживания с профилем градиентной программы. Рассмотрим особенности критической хроматографии при изменении во времени состава растворителя N B = f (V ) . При этом также будет изменяться и коэффициент распределения K d = K d (V ) , где V – текущий объем растворителя, прокачиваемого через колонку. При фиксированном составе растворителя средняя скорость u перемещения макромолекул, имеющих время удерживания tR в колонке длиной L равна u= L tR . (9) Время dt , в течение которого макромолекула будет двигаться в элементе объема dV , очевидно, определится выражением dt = dV ⋅ t R , VR − V0 (10) где VR – объем удерживания, а V0 – объем подвижной фазы. За это время она сместится вдоль колонки на расстояние dl , равное dl = u ⋅ dt = L ⋅ dV V p K d (V ) . (11) 45 Условие выхода макромолекулы из колонки ∫ dl = L и поэтому ∫ VR −V0 0 dV = 1. V p K d (V ) Полученное (12) уравнение (12) позволяет определить объемы удерживания для произвольного профиля градиента N B = f (V ) . 2.4 Система уравнений модели BioLCCC для определения объемов/времен удерживания пептидов Суммируя все основные теоретические выводы, сделанные нами ранее, можно сформулировать систему уравнений, которые описывают разделение линейных макромолекул в градиентной высокоэффективной жидкостной хроматографии: ⎧ε eff i ( N B ) = X 0i − ε AB ( N B ) ⎪ ⎪ ⎪ε AB ( N B ) = ε A + ln[1 − N B (V ) + N B (V ) exp(ε B − ε A )] ⎪ N ⎪ . ⎨ K d = 1 | 1 1 ... 1 1 | ⋅∏W (ε eff i ) ⋅ P0 ⎪ D i=2 ⎪ ⎪VR −V0 dV ⎪ ⎪ ∫ V K (V ) = 1 ⎩ 0 p d (13) Система уравнений (13) позволяет последовательно рассчитывать эффективную энергию поверхностью на взаимодействия каждом шаге аминокислотного градиента ε eff i ( N B ) , остатка с коэффициент распределения K d , и объем удерживания VR. Для определения объема удерживания при градиенте состава растворителя интеграл удобно записать в дискретном виде, аппроксимируя 46 непрерывную функцию K d (V ) ступенчатой функцией K d (Vi ) , где Vi - порция растворителя постоянного состава [73], то есть в виде n −1 n −1 i =1 i =1 VR − V0 = ∑ Vi + K d (Vn ) ⋅ V p (1 − ∑ Vi ). K d (Vi )V p (14) Здесь n- номер порции растворителя, в котором макромолекула выходит из колонки, определяемый условием n −1 n 1 1 < < . 1 ∑ ∑ i =1 K d (Vi ) ⋅ V p i =1 K d (Vi ) ⋅ V p (15) Перечислим кратко основные допущения, которые были сделаны при выводе системы уравнений (13): (1) пептид в поре адсорбента рассматривается как линейная макромолекула; (2) не принимаются во внимание особенности химического строения аминокислот, пептидов и поверхности адсорбента; (3) потенциал взаимодействия аминокислотных остатков с поверхностью является короткодействующим и апроксимируется δ-функцией; (4) размер пептида предполагается меньше размера поры адсорбента (режим широких пор); (5) пренебрегается взаимодействиями в растворе. Однако, несмотря на столь идеализированное рассмотрение, как показали результаты нашей работы, такая простейшая модель хорошо описывает реальный хроматографический эксперимент. Отметим, что в практике протеомных исследований чаще используют понятие времени удерживания RT, которое пропорционально объему удерживания и зависит от скорости потока растворителя. Прежде чем приступать к расчетам времен удерживания необходимо определить энергии взаимодействия всех основных аминокислот X0i, а также молекул растворителя с поверхностью εА и εВ. 3. Определение феноменологических параметров модели Для описания характера разделения биомакромолекул при любых изменениях состава растворителя необходимо определить три основных 47 феноменологических параметра представленной модели: энергию адсорбции звена (аминокислотного остатка), X 0 , и элюирующие силы растворителей ε A и ε B . В критическом режиме разделения коэффициент распределения примерно равен 1, и, следовательно, сумма элементов в каждой строке матрицы перехода (1) должна быть равна 1. Отсюда имеем простое соотношение, связывающее феноменологические параметры модели X 0 − ε A B (N c ) = ln 6 ≈ 0.18 . 5 (16) Варьируя X 0 , ε A , ε B и добиваясь наилучшего совпадения теории и эксперимента, можно определить параметры модели, необходимые для описания с хорошей точностью перехода от эксклюзии к адсорбции. Знание этих параметров позволяет предсказывать особенности разделения макромолекул известной структуры в данном бинарном растворителе A и B при любом его составе и при любом характере изменения его состава во времени (градиенте). Применение системы уравнений (13) в совокупности с соотношением полученных (16) в к описанию работе Ac − GXXLLLKK − amid , где [47] для экспериментальных ЖХ синтетических пептидов X − варьируемый аминокислотный данных, типа остаток, позволило найти необходимую шкалу энергий X i 0 . Энергии X i 0 определялись следующим образом. На первом этапе варьированием энергий X K 0 , X G0 , X L0 добивались совпадения экспериментальных и расчетных объемов удерживания для трех основных пептидных моделей: Ac − GGGLLLKK − amid , Ac − GLLLLLKK − amid , Ac − GKKLLLKK − amid . Это дает возможность найти энергии адсорбции остатков аминокислот K , G, L , содержащихся в этих трех модельных соединениях. Затем, варьированием уже только одной энергии X i 0 , из объемов удерживания оставшихся моделей, Ac − GXXLLLKK − amid , определялись все остальные энергии. Найденная таким образом шкала энергий приведена в таблице 1. 48 K H R N G S Q D T E 0,266 0,386 0,516 0,614 0,656 0,698 0,746 0,781 0,876 0,984 A P C Y V M I L F W 1,143 1,143 1,296 1,686 1,751 1,822 2,156 2,298 2,319 2,436 Таблица 1. Энергии взаимодействия аминокислотных остатков X 0i с поверхностью обращенной фазы -C18 (в единицах kT ) [1-2 из списка публикаций автора, стр. 98-99]. 49 Эта шкала энергий является основой для всех последующих расчетов. Описанный выше алгоритм определения феноменологических параметров был применен нами к совокупности экспериментальных данных, описанных в работе [47]. синтетических пептидов Использованный Ac − GXXLLLKK − amid , в где этой работе набор X − аминокислотный остаток, позволяет из экспериментальных хроматографических данных по их разделению определить необходимую шкалу энергий X i 0 . В расчетах по системе уравнений (13) необходимо задавать константы колонки V0 (объем подвижной фазы) и V p (объем неподвижной фазы), а также размер пор адсорбента D . Поскольку эти параметры в упомянутой выше работе [47] не определялись экспериментально, для них нами были определены следующие величины: V0 ≈ V p ≈ 0.9 ⋅ 1 πd 2 ⋅ l = 1.5 мл для колонки 2 4 размером 4.1 x 250 мм и V0 ≈ VP ≈ 1.7 мл для колонок 4.6 x 250 мм. Размер пор D , выраженный в единицах размера звена, был принят D = 30 для адсорбентов с порами 300 Å и D = 10 для пор 100 Å. Следует отметить, что выбранные таким образом параметры модели близки к реальным величинам, однако в целом эти параметры слабо влияют на общую картину разделения. Параметры растворителя ε A = 0 и ε B = 2.40 выбирались такими, чтобы совокупность экспериментально зафиксированных времен удерживания модельных пептидов при найденных величинах X 0i описывалась наилучшим образом. Кроме эффективных энергий адсорбции аминокислотных остатков в рассмотрение необходимо включить также и энергии адсорбции концевых групп X0N,C. Энергии концевых групп Ac- (CH3CO-NH-) и – amide (-CO-NH2) принимались равными нулю ε Ac − = ε − amide = 0 , что является достаточно естественным приближением для взаимодействия этих групп с обращенной фазой. Если пептиды имеют другие концевые группы, Н– (H2N-NH) и – free acid (-CO-OH), то их наличие меняет энергию адсорбции концевых 50 аминокислотных остатков так, что X C = X C 0 + ε − COOH . X N = X N 0 + ε H2 N − , Хроматографические данные для использованных в [47] модельных пептидов Y − GLLLLLKK − Z , где Y , Z − разные типы концевых групп, позволили определить энергии адсорбции концевых групп ε H N − = -1.69 и 2 ε −COOH = -0.03. 4. Апробация модели на экспериментальных данных 4.1 Экспериментальные условия и методы исследования Эксперименты по разделению и идентификации индивидуальных пептидов и их смесей проводились на нескольких системах: макроскопической (стандартной) аналитической системе ВЭЖХ HP1100 (Hewlett Packard/Agilent, США) и нано системе ВЭЖХ Agilent 1100, а также системе Ultimate 3000 (Dionex, США). Стандартная система ВЭЖХ HP1100 имела в составе ультрафиолетовый детектор на основе диодной матрицы, позволяющий определять объем удерживания любых пептидов на нескольких длинах волн. На системе ВЭЖХ HP1100 были получены экспериментальные данные для синтетических пептидов RAAAALAAAAR, RAAAAIAAAAR, GALYIYLGDGLDTADAEG и GEADATDLGDGLYIYLAG при градиенте 1%ACN/мин и скорости подачи растворителя 0.5 мл/мин. Нано система ВЭЖХ Agilent 1100 была объединена с гибридным масс-спектрометром типа линейная радиочастотная ионная ловушка - масс-спектрометр ионного циклотронного резонанса LTQ-FT (Thermo Fisher, Бремен, Германия). Масс-спектрометр был оборудован наноэлектроспреем (Proxeon Biosystems, Оденсе, Дания), позволяющим получать многозарядные макромолекулярные ионы, которые затем могут быть фрагментированы несколькими методами: в результате столкновений с молекулами буферного газа (CAD) в ионной ловушке и 51 фрагментацией в результате захвата медленных электронов (ECD) в ловушке ионного циклотронного резонанса (ИЦР). Спектры фрагментов затем использовались для последующей идентификации последовательностей пептидов по базе данных NCBI с использованием поисковой системы Mascot (www.matrixscience.com). Хроматографический эксперимент для дайджеста белков бактерии E.Coli и пептидного стандарта S1-S5 на данной системе проводился при градиенте 4-45%В в течении 90 минут при скорости подачи растворителя 200 нл/мин. Компонент А мобильной фазы состоял из 99.5% воды с добавками 0.5% уксусной кислоты, компонент В содержал 89.5% ацетонитрила, 10% воды и 0.5% уксусной кислоты. Система ВЭЖХ Ultimate 3000 (Dionex, США) также в качестве детектора имела масс-спектрометр LTQ-FT (Thermo Fisher, Бремен, Германия), на данном приборе также был реализован столкновительный метод фрагментации (CAD) в ионной ловушке. На данной системе были получены экспериментальные данные для дайджестов белка Cytochrome C (Dionex/LCPacking, USA) и дайджеста шести белков 6 Protein Mixture (Dionex/LCPacking, USA). При разделении этих образцов скорость подачи растворителя была равна 300 нл/мин и использовались следующие градиенты: (1) 0-35%В в течении 120 мин и (2) 0-50%В в течении 30 мин. Мобильная фаза состояла из двух компонентов: (А) 98% воды, 1.9% ацетонитрила, 0.1% муравьиной кислоты и (В) 80% ацетонитрила, 19.9% воды, 0.1% муравьиной кислоты. Модельные пептиды, используемые в нашем исследовании, были получены путем автоматизированного твердофазного синтеза на синтезаторе Intavis ResPep Synthesizer (Intavis Bioanalytical Instruments AG, Германия). Пептидный стандарт S1-S5 (Pierce Inc., USA), дайджест белка Cytochrome C (Dionex/LCPacking, USA) и дайджест шести белков 6 Protein Mixture (Dionex/LCPacking, USA) являются коммерческими стандартами. 52 Разработанная объемов/времен модель удерживания предсказания биомолекул по хроматографических их аминокислотной последовательности была реализована в виде программного обеспечения «Теоретический хроматограф» (Рис. 10), при помощи которого было проведено дальнейшее тестирование модели на корреляцию с экспериментальными данными. Алгоритм работы данной программы представлен на Рисунке 11. «Теоретический хроматограф» позволяет предсказывать времена удерживания белков и пептидов в зависимости от их первичной структуры при заданных экспериментальных параметрах разделения: (1) параметры колонки (внутренний диаметр и длина колонки, размер пор, фактор, показывающий долю пространства в колонке, занятую твердой фазой); (2) профиль градиента; и (3) состав компонентов растворителя. Для расчета времен удерживания «Теоретический хроматограф» использует ряд обсуждавшихся выше феноменологических параметров, названных эффективными энергиями адсорбции, для 20 наиболее часто встречающихся природных аминокислот, а также С- и Nконцевых групп. Кроме того, в «Теоретическом хроматографе» была реализована возможность рассчитывать коэффициент линейной корреляции предсказанных времен удерживания с экспериментальными и строить графики корреляции. Разработанная программа использовалась обработке экспериментальных данных и тестировании модели BioLCCC. 53 при Рис. 10. Интерфейс программы «Теоретический хроматограф» [5-6,9 из списка публикаций автора, стр. 98-99]. Theoretical Chromatograph INPUT: Column i.d. and length; pore size; flow rate; gradient profile; binary solvent composition; end group types. INPUT: SEQUENCE_DATA.TXT MAIN PROGRAM: Tabulated massive of Xi0 for 20 amino acids and end group energies. Reads sequence; Set to the amino acid residues the appropriate energy value Xi0 GRADIENT PROGRAM: Calculates eAB at each point of gradient at given flow rate; Returns eAB(j) to MAIN PROGRAM Go to GRADIENT PROGRAM; Get the eAB(j) For each eAB(j) calculates ei(j) OUTPUT_DATA.TXT Theoretical VR /RT for each peptide sequence from SEQUENCE_DATA.TXT Using INPUT and eAB(j), calculates massive Kd(j), and, then, retention volumes/retention times Рис. 11. Алгоритм работы программы «Теоретический хроматограф» [2,9 из списка публикаций автора, стр. 98-99] . 54 4.2 Корреляция экспериментальных и предсказанных времен удерживания на примере пептидных стандартов и дайджеста белков бактерии Escherichia Coli Начнем обсуждение c экспериментальных результатов, полученных в ходе тестирования модели BioLCCC на коммерческих стандартах S1-S5 и дайджеста белка Cytochrome C. На Рис. 12а и 12б представлена корреляция между найденными экспериментально временами удерживания и временами, предсказанными в рамках модели BioLCCC для данных образцов. Как видно, наблюдается хорошая корреляция между предсказанными и реальными временем удерживания в обоих случаях. Вместе с тем стоит отметить, что на Рис. 12а стандарт S1 явно "выпадает" из линейной зависимости. Отличие этого стандарта от S3 заключается в том, что он имеет на конце ионизованную группу H3+N– . Очевидно, что эта группа сильно гидрофильна и отталкивается от поверхности (другими словами, это отталкивание обусловлено тем, что "изображение" заряда на границе раздела полярной фазы (воды) и неполярной –С18 имеет тот же знак). Поэтому объем удерживания стандарта S1 заметно меньше объема удерживания S3, имеющего тот же "текст", но незаряженную концевую группу на N–конце. Хотя модель BioLCCC учитывает такое отталкивание (энергия взаимодействия группы H3+N– принята равной ε H N − = – 1.69), однако, даже если предположить бесконечно 2 сильное отталкивание концевого мономера, это приводит к исключению лишь относительно небольшого числа конфигураций, а именно тех, которые начинаются на поверхности. Этого, по-видимому, недостаточно для наблюдаемого уменьшения объема удерживания стандарта S1 с зарядом на N–конце. Поэтому необходимо учитывать нелокальность взаимодействия таких концевых групп, что достаточно просто сделать в переходных матрицах уравнения (1) в 55 рамках модели BioLCCC. (а) 65 R2= 0.974 (б) 30 Ac-RGVVGLGLG Ac-RG VVGLGLGK-amide 25 55 Ac-RGVGGLGLGK-amide 50 Ac-RGAGGLGLGK-amide 45 40 Ac-RGGGGLGLGK-amide 35 40 45 50 20 15 10 5 H2N-RGAGGLGLGK-amide 35 RTcalc, мин RTcalc, мин 60 R2= 0.962 55 60 0 65 10 RTexp, мин 15 20 25 30 35 40 RTexp, мин Рис.12. Корреляция экспериментальных и рассчитанных по модели BioLCCC времен удерживания для коммерческого пептидного стандарта S1S5 [1-2,8 из списка публикаций автора, стр. 98-99] (12а) и дайджеста белка Cytochrome C (12б) [8,10 из списка публикаций автора, стр. 98-99]. 56 (Отметим, что идейно это близко к поправкам к энергии адсорбции аминокислотных остатков, "привязанных" N– к концу пептида, развиваемому в работе.) Тем не менее, правильный учет взаимодействия заряженных концевых групп NH3+ , а также аминокислотных остатков лизина, аргинина и гистидина – (а также их взаимного влияния друг на друга в цепи) в рамках модели BioLCCC пока остается открытым. Рассмотрим наконец возможность использования модели BioLCCC для анализа хроматографических данных, полученных в протеомных исследованиях смесей триптических пептидов белков бактерии E.Сoli. Главное отличие данного объекта исследований от двух предыдущих заключается в том, что аминокислотные последовательности пептидов не были известны со 100%-ной точностью, т.е. все расчеты времен удерживания были сделаны для последовательностей, идентифицированных на основе масс-спектрометрических данных при помощи поисковой программы Mascot по белковым базам данных. Хотя достоверность идентификаций, сделанных программой Mascot, не должна была быть менее 95%, вместе с тем следует сказать, что далеко не для всех последовательностей были получены полные спектры фрагментации высокого качества, так что достоверность их первичной структуры не абсолютная. Как следует из Рисунка 13а, и для реальных систем наблюдается хорошая корреляция (коэффициент корреляции R2 ~ 0.9) между предсказанными и реальными временами. Тем самым, информация о возможном тексте последовательности, получаемая из времени удерживания, может быть использована для повышения достоверности идентификации пептидов, а, следовательно, и белков протеома организма. Такой же анализ был применен нами и к идентифицированным последовательностям пептидов из стандартной смеси 6 белков: Cytochrome C, Bovine Serum Albumin, Chicken Lysozime, Apo-transferrin, Alcohol 57 (а) (б) 60 R2= 0.808 R2 = 0.906 50 80 RTcalc, мин RTcalc, мин 100 60 40 30 20 40 10 20 20 40 60 80 0 10 100 20 30 40 50 60 RTexp, мин RTexp, мин Рис.13. Корреляция экспериментальных и рассчитанных по модели BioLCCC времен удерживания для дайджеста белков бактерии E.Coli [1-2,8 из списка публикаций автора, стр. 98-99] (13а) и пептидов стандартной смеси из шести белков [11 из списка публикаций автора, стр. 98-99] (13б). 58 dehydrogenase последнего и beta-galactosidase образца (Dionex/LCPackings, корреляция между USA). предсказанными Для и экспериментальными временами удерживания приведена на Рис. 13б. В целом, однако, степень корреляции в этом случае заметно хуже, чем для белков E.coli. В отличие от белков E.coli, при анализе данной стандартной белковой смеси использовались также и такие идентифицированные последовательности, степень достоверности которых была существенно ниже 95 %. Кроме того, следует отметить, что в смеси была идентифицирована пара белков, которые не входят в перечень описания данного стандарта. Так вместо белка Apo-transferrin был идентифицирован Serotransferrin, а также наряду с beta-galactosidase был идентифицирован белок beta-D-galactosidase. Это еще раз доказывает, что даже для «проверенных» стандартов с известными заранее белками, идентификация последовательностей пептидов только лишь по их массам может обладать не слишком высокой достоверностью. 4.3 Предсказание разделения пептидов с модифицированными аминокислотными остатками на примере изомеров лейцин и изолейцин Рассмотрим теперь разделение биомолекул, которые содержат изомеры лейцин (L) и изолейцин (I). Интерес к хроматографическому разделению и идентификации таких макромолекул связан с тем, что такие последовательности не идентифицируются (или, по крайней мере, очень сложно идентифицируются) любыми методами МС, в том числе и по спектрам фрагментации (МС/МС). Иными словами, в методе МС пептидные пары с одинаковым содержанием этих изомеров неразличимы. Вместе с тем, хроматография позволяет легко разделить такие последовательности, что видно из хроматограммы, представленной на Рис. 14. При этом согласие предсказанного времени выхода 59 пептидов с экспериментальным Рис.14. Хроматограмма, демонстрирующая разделение пептидов, содержащих изомерные аминокислоты типа H-RAAAALAAAAR-OH (1) и H-RAAAAIAAAAR-OH (2). Рассчитанные в рамках модели BioLCCC и экспериментально наблюдаемые времена удерживания равны, соответственно, 18.50 мин и 18.54 мин (1), 17.90 мин и 17.88 мин (2) [1,5-7 из списка публикаций автора, стр. 98-99]. 60 оказывается очень хорошим. Этот пример подтверждает сформулированный выше тезис о комплиментарности хроматографических данных о последовательности, получаемых в рамках модели BioLCCC, данным МС (с точки зрения МС пептидная пара из рассмотренного примера неразличима, в то время как, с точки зрения хроматографии – это два разных «текста»). Следует отметить возможность разделения таких последовательностей не только по типу изомеров, но также и по месту этих изомеров в цепи. Например, рассчитанные по модели BioLCCC объемы удерживания для последовательностей типа H-RAAAALAAAAR-OH и H-RALAAAAAAAROH различаются. Экспериментальная проверка этого факта будет служить прямым доказательством возможности использования модели BioLCCC для определения места (номера остатка) модифицированных и/или изомерных форм аминокислот в цепи, что является одной из наиболее трудных задач в протеомных исследованиях. Исследование закономерностей разделения модифицированных пептидов и биомакромолекул будет предметом дальнейших экспериментальных исследований. 4.4 Предсказание разделения последовательностей с перестановкой аминокислот на примере пептидов с зеркально-симметричными текстами Рассмотрим следующий, более сложный пример разделения пептидов. Он относится последовательностей. к разделению Эти перевернутых, последовательности имеют, "зеркальных" очевидно, одинаковую массу, так что их "чтение" с помощью точного измерения массы макромолекулярного иона невозможно и требует использования методов МС/МС (однако, даже в этом случае возможны ситуации, когда спектры фрагментации не позволят различить пары зеркальных изомеров). 61 Для доказательства возможности разделения «зеркальных» пептидов были синтезированы последовательности типа H- GALYIYLGDGLDTADAEG-amide и H-GEADATDLGDGLYIYLAG-amide, отличающиеся "переворотом" внутренней части последовательности. Также были синтезированы те же последовательности, отличающиеся типом концевой группы на С– конце: H-GALYIYLGDGLDTADAEG-OH и HGEADATDLGDGLYIYLAG-OH. Зеркальные последовательности можно также представить как "перестановку" концевых аминокислотных остатков. Как показано на Рис. 15а и 15б, такие последовательности действительно разделяются в полном соответствии с предсказаниями теории BioLCCC. Естественно, что разделение таких структур не следует из аддитивной модели предсказания времен удерживания или ее аналогов. Здесь практически в чистом виде проявляется эффект связанности остатков в цепь и коллективный характер их взаимодействия с поверхностью. Этот пример демонстрирует влияние перестановки аминокислотных остатков в цепи на статистическую сумму гетерополимера вблизи поверхности и, соответственно, на его время удерживания, а также показывает, что учет перестановок, предлагаемый в рамках развитого нами подхода, корректен. Отметим также существенную роль гетерогенности цепи: для макромолекул гомополимера перестановка разных концевых групп вырождена в смысле взаимодействия с поверхностью. 62 Рис. 15. Хроматографическое разделение "зеркальных" пептидов типа H - GALYIYLGDGLDTADAEG - amide (1) и H - GEADATDLGDGLYIYLAG - amide (2), (а), и H - GALYIYLGDGLDTADAEG - OH (3) и H - GEADATDLGDGLYIYLAG - OH (4), (б). Расчетные в рамках модели BioLCCC и экспериментально наблюдаемые времена удерживания соответственно 42.04 мин и 45.34 мин (1), 43.92 мин и 48.22 мин (2), 41.99 мин и 45.70 мин (3), 43.83 мин и 48.31 мин (4) [1, 5-7 из списка публикаций автора, стр. 98-99]. 63 4.5 Практическое применение модели BioLCCC для фильтрации и подтверждения результатов поиска по базам данных в процессе идентификации пептидов и белков на примере Escherichia Coli Наиболее очевидной областью применения разработанной модели для предсказания хроматографических времен удерживания являются задачи идентификации уже изученных белков и/или секвенирование новых. Как уже отмечалось, хроматография в данном случае дает информацию о структуре биомолекулы, которая комплементарна масс-спектрометрическим данным. Естественно информации, предположить, полученной из что комбинация хроматографических структурной и масс- спектрометрических данных, позволит не только повысить достоверность соответствующих идентификаций, но и уменьшить время, необходимое для анализа первичной структуры неизвестных белков и пептидов. Кроме того, вовлечение хроматографии в процесс секвенирования позволит снизить ряд требований к масс-спектрометрии, например, точность измерения масс и степень фрагментации в МС/МС экспериментах. Снижение этих требований, в свою очередь, позволит более широко использовать в протеомных исследованиях недорогие и высокопроизводительные масс- спектрометрические комплексы на основе радиочастотных квадрупольных и времяпролетных масс-анализаторов. Попробуем оценить возможности модели, основанной на концепции жидкостной хроматографии в критических условиях (BioLCCC), для предсказания времени удерживания и решения задачи повышения достоверности идентифицированных пептидов и уменьшения числа ложных идентификаций. В принципе, возможно несколько вариантов использования модели предсказания времен удерживания на разных стадиях процесса идентификации: (1) либо непосредственно при поиске, когда модель интегрирована в поисковую машину; (2) либо при выборе наиболее 64 достоверной идентификации из всего списка МС совпадений, найденных во время поиска; (3) либо на стадии проверки окончательных результатов поиска, выданных поисковой машиной. Рассмотрим более подробно каждый из предложенных вариантов на примере результатов идентификации пептидов и белков в бактерии E.Coli, выданных поисковой машиной Mascot, и сравним модель предсказания времени удерживания, представленную в данной работе, с альтернативным подходом, разработанным О. Крохиным в Университете Манитобы, Канада, и названным “Sequence Specific Retention calculator” (SSRcalc) [38, 51]. Как уже отмечалось выше, в основе последнего подхода лежит аддитивная модель, существенно переработанная и дополненная большим количеством корректировочных коэффициентов и поправок, учитывающих химические особенности аминокислотных остатков в последовательностях и их взаимодействия как друг с другом, так и с поверхностью адсорбента (гидрофобность, полярные группы, влияние «соседей», и т.п.). Такое сравнение может быть легко проведено в виду того, что разработанный в Университете Манитобы калькулятор удерживания доступен в (http://hs2.proteome.ca/SSRCalc/SSRCalc.html), снабжен описанием использованию и достаточно прост подробными времен Интернете в использовании, инструкциями (http://hs2.proteome.ca/SSRCalc/SSRCalcHelp.html). по Для расчета времени удерживания с использованием этого калькулятора достаточно ввести последовательности, задать размер поры использовавшегося адсорбента и ввести два коэффициента, учитывающие временную задержку градиента и его наклон (все остальные поправочные коэффициенты, заложенные в калькулятор, скрыты от пользователя). Расчет времени удерживания происходит Retention Time = a + b* Hydrophobicity, по где линейному коэффициент уравнению а связан с временем задержки отклика детектора и определяется объемами подводных капилляров, соединительных трубок и т.д., а коэффициент b зависит от наклона градиента и в идеале подбирается пользователем так, чтобы наклон 65 корреляции между экспериментальными и предсказанными временами был порядка 45 градусов. Нами при всех дальнейших расчетах времен удерживания по калькулятору SSRcalc использовались следующие значения коэффициентов: a = 29 мин, b = 1,4. Проверка и фильтрация финального отчета по пептидам, идентифицированным по масс-спектрометрическим данным. Наиболее простым случаем использования моделей предсказания времен удерживания является использование их на стадии обработки результатов поиска, когда сам поиск уже закончен и выдан отчет по идентификациям. Надо отметить, что этот случай является и наименее результативным: в то время как в протеомных исследованиях стремятся повысить количество идентификаций, сделанных во время поиска, мы же применением дополнительного фильтра повышаем достоверность идентификаций за счет уменьшения их количества. Этого недостатка лишены подходы, в которых сравнение с хроматографическими данными идет в процессе поиска по базам данным. В этом случае, на место отклоненной хроматографическими фильтрами МС идентификации, можно подобрать другую, удовлетворяющую всем условиям ЖХ-МС идентификацию. Тем не менее, сравним результаты работы двух выбранных моделей как фильтров финального отчета по МС/МС идентификациям. В общей сложности отчет поисковой машины по масс-спектрометрическим идентификациям содержал 468 пептидов, чьи индексы достоверности Mascot Score варьировались от 1 до 115, и по которым идентифицировали более 70 белков, опять же с очень широким диапазоном индексов достоверности (их называют Protein I.D.), от нескольких единиц до 990. Для простоты обработки данных и получения предварительных оценок за время удерживания для каждого пептида было принято время регистрации его масс-спектра, которое извлекалось непосредственно из финального отчета поисковой машины. 66 Достоверность хроматографической идентификации, которая была обозначена нами как индекс LC _ Score (Liquid Chromatography Score), оценивалась по относительному отклонению предсказанного времени удерживания от экспериментального и определялась как LC _ Score = RTexp − RT pred σ , (17) где σ - среднеквадратичное отклонение, определяющееся точностью предсказания модели. Чтобы определить эту величину для обеих моделей предсказания удерживания, BioLCCC и SSRcalc, в данном исследовании были отобраны пептиды, чьи значения индексов достоверности МС идентификации были выше 60, т.е. намного превышали пороговое значение, и, следовательно, достоверность их определения вряд ли могла бы быть поставлена под сомнение. Кроме того, последовательности этих пептидов не содержали никаких модификаций аминокислотных остатков и принадлежали белкам, которые в данном поиске набрали наибольшее количество идентификаций. На Рис. 16 представлена корреляция экспериментальных времен удерживания с предсказанными по модели BioLCCC и модели SSRcalc. Величины среднеквадратичного отклонения и коэффициентов корреляции для этих данных, как и ожидалось, не слишком различаются и составили 2.9 минуты и R2=0.97 в случае BioLCCC и 2.97 минуты и R2=0.96 для SSRcalc, соответственно. Во всех дальнейших расчетах индексов достоверности хроматографических идентификаций, LC _ Score , использовались именно эти значения стандартных отклонений. На Рисунках идентифицированных достоверностей 17а, 17б представлено последовательностей масс-спектрометрических в и распределение шкалах индексов хроматографических идентификаций для обоих калькуляторов, SSRcalc и BioLCCC. Очевидно, что качественно полученные распределения дают схожую картину: 67 (а) (б) 80 100 R2= 90 0.972 σ = 2.90 min 70 RTcalc, мин RTcalc, мин 80 70 60 50 60 50 40 30 40 30 R2= 0.956 σ=2.97 min 30 40 50 60 70 80 90 20 100 30 40 50 60 RTexp, мин 70 80 90 100 RTexp, мин Рис. 16. Определение величин стандартного отклонения σ для моделей BioLCCC и SSRcalc по графикам корреляции [11 из списка публикаций автора, стр. 98-99]. (б) 30 30 20 20 SSRcalc score BioLCCC score (а) 10 0 -10 10 0 -10 0 20 40 60 80 100 120 0 20 40 60 80 100 120 Mascot score Mascot score Рис.17. Графики распределений идентификаций для моделей BioLCCC (а) и SSRcalc (б) по двум шкалам индексов достоверности, хроматографической и масс-спектрометрической: LC_Score vs. Mascot_Score публикаций автора, стр. 98-99]. 68 [11 из списка чем ниже достоверность МС идентификации, тем выше величина LC _ Score . Это лишний раз подтверждает, во-первых, наличие большого количества неверно идентифицированных пептидов на основе только массспектрометрических данных, и, во-вторых, комплементарность массспектрометрических и хроматографических данных о структуре пептидов. При этом следует отметить, что распределение точек для SSRcalc калькулятора в области LC _ Score ≤ ±2, 15 ≤ Mas cot_ Score ≤ 60 более плотное, нежели на Рисунке 17а. LC_Score vs. Mascot_Score Более показал детальный анализ следующие распределений результаты. Отбор «достоверных» идентификаций осуществлялся таким образом, чтобы хроматографические данные удовлетворяли критерию: − 2 ≤ LC _ Score ≤ 2 . В целом модель BioLCCC оказалась значительно более жестким фильтром и не подтвердила порядка 45% всех масс-спектрометрических идентификаций, в то время как аддитивная модель SSRcalc отклонила только 27%. При этом показания BioLCCC и SSRcalc, как по отношению к положительным, так и ложным идентификациям, совпадают только в 63% случаев (Рис. 18). Очевидно, что такой подход к повышению достоверности идентификаций пептидов сопровождается потерей значительного числа (от 30 до 45%) всех идентификаций, сделанных только на основе МС данных. Его использование приведет к тому, что за счет повышения достоверности пептидных идентификаций существенно будет снижена достоверность идентификации самого белка, в состав которого входят эти пептиды. Белок определяется (идентифицируется) тем точнее, чем большее количество пептидов, принадлежащих ему, удалось обнаружить, и чем большую часть последовательности протеина они покрывают. Как правило, в процессе идентификации удается получить информацию лишь о 50-60% аминокислотной последовательности белка. Даже в этом случае всегда находится огромное количество белков-гомологов, и точная, т.е. 69 SSRcalc MS/MS BioLCCC MS/MS 55% 73% SSRcalc BioLCCC 63% Рис. 18. Сравнение результатов, полученных после обработки всех МС идентификаций пептидов хроматографическими фильтрами SSRcalc и BioLCCC [11 из списка публикаций автора, стр. 98-99]. 70 однозначная, идентификация белка становится невозможной. Конечно, среди пептидов существует так называемые уникальные пептиды, которые являются своеобразными «метками» белка, однако, на данный момент времени эта информация, как правило, труднодоступна и, в частности, не используется поисковой машиной Mascot. Поэтому более удачным вариантом использования хроматографических фильтров является их применение на стадии отбора пептида-лидера из всех обнаруженных МС совпадений или же непосредственно в процессе поиска по базам данных. Фильтрация списка совпадений, составленного по масс- спектрометрическим данным, с использованием предсказания хроматографического удерживания. Рассмотрим использование выбранных для сравнения моделей предсказания времен удерживания при идентификации белков и пептидов при оценке достоверности совпадений mexp и mtheor, mfragexp и mfragtheor с «хроматографической точки зрения» на этапе отбора наиболее вероятного кандидата из всех найденных МС совпадений (Рис. 19). Продемонстрируем это на том же примере идентификации белков бактерии E.Coli, уже описанной нами ранее. Достоверность хроматографической идентификации, среднеквадратичное отклонение и экспериментальное время удерживания определялись при этом так же, как это описано в предыдущем пункте. Фактически стандартный отчет поисковой машины Mascot содержит значительно более широкую информацию о данных поиска, нежели та информация, которая потом используется пользователем. При желании пользователь может посмотреть, например, на все тексты последовательностей, которые удовлетворяют данному масс-спектру и его спектру фрагментации в рамках заданной точности, а также увидеть индексы достоверности, которые были присвоены поисковой машиной каждой из этих последовательностей. 71 Поиск по базам данных: Извлечение из базы данных аминокислотных последовательностей белков «Теоретический» гидролиз белков трипсином Расчет mtheor и mfragmenttheor для теоретических пептидов Сравнение в пределах выбранной точности: mtheor&mexp, mfragmenttheor&mframentexp Формирование списка совпадений в пределах выбранной точности по массам Оценка вероятности достоверного совпадения для каждого пептида из списка Расчет RTtheor для каждого пептида из списка совпадений Сравнение в пределах выбранной точности RTtheor&RTexp для каждого пептида из списка совпадений. Формирование фильтрованного по RT списка совпадений Отбор наиболее вероятного кандидата по максимальному значению Mascot Score и Protein I.D. Формирование итогового листа идентификаций. Рис.19. Схема фильтрации списка совпадений с использованием хроматографических данных [11 из списка публикаций автора, стр. 98-99]. 72 На Рисунке 20 приведен фрагмент отчета поисковой машины, полученный для обсуждаемой здесь бактерии E.Coli, на котором выделена информация, представляющая для исследователя определенный интерес. Так, в данном конкретном примере, для выделенного спектра было обнаружено в общей сложности 10 последовательностей-совпадений, тексты которых существенно различаются. В финальный же отчет поисковая машина вносит лишь одну из всех обнаруженных последовательностей. Также можно обратить внимание, что ряд последовательностей в этом примере имеют один и тот индекс достоверности Score. Более детальный анализ отчета показал, что ситуация, когда поисковая машина находит большое количество различных вариантов последовательностей для одного и того же масс-спектра и также, рассчитывает для них одинаковые индексы достоверности является очень распространенной. рассмотрены Так МС на Рис. 21 идентификации приведен в пример, широком когда диапазоне были индекса достоверности (от 34 до 60) и было обнаружено, что даже для идентификаций, чей индекс достоверности превышает пороговое значение почти в 2 раза, поисковая машина первоначально может обнаружить до 10 равнозначных совпадений. Например, в данном поиске идентифицированный пептид SLEEIIR имеет индекс, равный 59, и индексы еще 9 последовательностей-совпадений были оценены Mascot таким же значением. Несложно заметить, что наибольшие вопросы у поисковой машины вызывают последовательности, содержащие перестановки двух и более аминокислот, аминокислоты с близкими или равными значениями масс (Lys/Gln и Leu/Ile), например, EGLFQK и EGIFQK, а также целые блоки аминокислот, имеющие близкие массы (например, EGLFQK и DAIFQK). После расчета индекса достоверности для всех совпадений поисковая машина предлагает лишь одну последовательность в качестве лидера поиска, хотя на самом деле «право на рассмотрение» имеют еще 73 Рис. 20. Фрагмент отчета поисковой машины Mascot. Для выбранного спектра выделены все найденные поисковой машиной последовательности-совпадения, а также пептид - лидер поиска, попавший в финальный отчет поисковой машины [11 из списка публикаций автора, стр. 98-99]. 74 6 EGIFQK BioLCCC score 4 EGLFQK DAIFQK ADLFQK DALFQK LSEEILR LSEELIR GEIFAGK EGLFAGK GELFGAK ADLFAGK 2 EARELRK AREELRK RAEEIRK ERAELRK GKGNELRK EAREIRK 0 RAEELRK REAELRK VETQIR VETQLR EVTQLR DITQIR DITQLR DLTQLR IDTGALR EVTAGLR EVTGALR GVSADQISIVSYGK VTEELLR EDLIASGR VATVSLPR SQILDEAK GITLSVRP EDLLASGR ISEELLR SIEEIIR LSEELLR SLEEIIR SIEELIR SIEELLR SLEELLR SPMVGTFYR SIAVSIPR DLTGALR GVSGEQISIVSYGK APMVGTFYR ASIVSLPR AGSLDLEAK EQIIFPEIDYDK -2 EQLIFPEIDYDK EQLLFPEIDYDK -4 35 40 45 50 55 60 Mascot score Рис. 21. Примеры равнозначных последовательностей-совпадений, обнаруженных программой Mascot для различных масс-спектров и представленные в виде распределения LC_Score vs. Mascot_Score [11 из списка публикаций автора, стр. 98-99]. 75 несколько последовательностей. Mascot выбирает в качестве лидера последовательность, которая принадлежит белку, уже набравшему наибольшее количество идентифицированных пептидов. Это, конечно, действенный способ, если стоит выбор между белком, для которого число идентифицированных пептидов порядка сотни и белком, для которого найдена лишь пара пептидов. Однако, если ситуация значительно менее прозрачна и предстоит выбор между белками, которые имеют сравнимое количество пептидных идентификаций, обоснованность такого подхода сомнительна. Одной из основных причин, почему в ходе поиска может обнаруживаться так много различных вариантов последовательностей, является факт, что любой поиск по базам данных «настроен» на поиск пептидов-гомологов, а не на установление идентичности пептидов. Абсолютная идентичность может быть установлена только полным de novo секвенированием. Однако, в большинстве случаев количество информации, присутствующей в спектрах фрагментации, недостаточно для de novo секвенирования, поэтому необходимость рассмотрения большого количества совпадений является неизбежным следствием при применении стратегии поиска по базам данных для установления первичной структуры. В принципе, применение моделей предсказания времен удерживания может разрешить конфликт, когда в списках кандидатов возникают неопределенности, и может способствовать выделению единственно правильной последовательности из всех найденных. Однако следует понимать, что такая ситуация является идеализированной: даже если предположить, что модель предсказания работает очень точно и правильно, надо понимать, что не каждая перестановка или замена аминокислот в последовательности приведет к заметному изменению экспериментального времени удерживания. Таким образом, говоря о возможности использования модели предсказания удерживания в качестве фильтра списков всех найденных МС совпадений, имеет смысл говорить о сокращении этого 76 списка, но далеко не всегда этот сокращенный список будет состоять из единственного кандидата на идентификацию. Посмотрим теперь, насколько позволит сократить списки МС совпадений применение удерживания BioLCCC выбранных и моделей SSRcalc. На предсказания времени Рисунке 22 описана последовательность действий при проведении данного анализа. На первом этапе работы, при помощи специально написанного программного обеспечения «Peptide Summary Report Analyzer», из отчета Mascot были извлечены все найденные в базе данных МС совпадения на каждый МС и МС/МС спектр, время регистрации масс-спектра и индексы достоверности для всех совпадений. Далее, согласно схеме, приведенной на Рисунке 22, для всех МС совпадений в рамках моделей BioLCCC и SSRcalc были рассчитаны времена удерживания, а затем по формуле (16) вычислены индексы достоверности хроматографических идентификаций. На основе полученных данных список МС совпадений был отфильтрован в рамках критерия - 2 ≤ LC_score ≤ 2 и были сформированы списки ЖХ-МС/МС совпадений. Далее из полученных ЖХ-МС/МС списков совпадений формировался окончательный лист ЖХ-МС/МС идентификаций (Top peptides), каждая из которых удовлетворяла следующим условиям отбора: Mascot_score =max, Protein_I.D. = max. В ситуации, когда в списке ЖХ-МС/МС совпадений присутствовало несколько вариантов с одинаковым значением индекса достоверности МС хроматографическому идентификации, -2 ≤ LC_score критерию удовлетворяющих ≤ 2, а значение Protein_I.D. = max было определить затруднительно, нами выбирался пептид с минимальными значениями BioLCCC score и SSRcalc score соответственно. Результаты этих действий суммированы в таблице на Рисунке 23. В общей последовательностей. сложности Применение были извлечены 2999 хроматографических вариантов фильтров позволило отсеять 58% и 48% от всех обнаруженных МС совпадений в случае использования модели BioLCCC и SSRcalc, соответственно. С 77 Elution Mascot score MS/MS peptide variants LC_Score … … … … LC-MS/MS LC-MS/MS Top peptide peptide variants … … Для каждого МС спектра: • Рассчитать достоверность ЖХ идентификации • Отфильтровать список МС совпадений: − 2 ≤ LC _ Score ≤ 2 • Сформировать список ЖХМС/МС идентификаций: Извлечь для каждого МС спектра: • Время регистрации спектра • Список МС совпадений • Индекс достоверности M _ Score = max, Pr otein _ Score = max, LC _ Score = min Рис.22. Схема проведенного анализа при фильтрации списков МС совпадений [11 из списка публикаций автора, стр. 98-99]. MS/MS peptide variants BioLCCC-MS/MS peptide variants SSR-MS/MS peptide variants MS/MS Top peptides BioLCCCMS/MS Top peptides SSR-MS/MS Top peptides 2999 1249 1554 468 351 374 100% 42% 52% 100% 75% 80% SSRcalc BioLCCC 215 peptides Рис. 23. Сравнение результатов, полученных после обработки всех найденных для каждого масс-спектра последовательностей-совпадений хроматографическими фильтрами BioLCCC и SSRcalc [11 из списка публикаций автора, стр. 98-99]. 78 использованием модели BioLCCC удалось в общей сложности сделать 351 хромато-масс-спектрометрическую идентификацию, что на 25% меньше числа идентификаций, сделанных только лишь по МС/МС данным программой Mascot. В случае калькулятора SSRcalc было сделано 374 идентификации, что на 20% меньше числа идентификаций, сделанных только по МС/МС данным. При анализе финальных списков ЖХ-МС/МС идентификаций для обоих калькуляторов хроматографического удерживания (BioLCCC и SSRcalc) было обнаружено, что лишь 215 последовательностей являются для них общими и составляют пересечение списков финальных ЖХ-МС/МС идентификаций. При этом следует отметить, что применение такого подхода по сравнению с методом фильтрации финального отчета в рамках хроматографических критериев позволило увеличить общее число ЖХ-МС/МС идентификаций в случае BioLCCC на 20%, а в случае SSRcalc на 8%. Полученные данные показывают, что на данный момент модель BioLCCC является более жестким фильтром МС идентификаций нежели SSRcalc, хотя в принципе, можно сказать, что применение обоих калькуляторов хроматографического удерживания показало сравнимое число идентификаций: 351 и 374. Наибольшие вопросы вызывает достоверность результатов обсуждаемых моделей предсказания удерживания. Как очевидно из данного исследования, предсказания для рассматриваемых моделей совпадают лишь примерно в 60-65% случаев, хотя при этом обе модели демонстрируют достаточно высокие коэффициенты корреляции экспериментальных и предсказанных данных (порядка 0.96-0.98). Возникает справедливый вопрос: какая из моделей более адекватно описывает хроматографический эксперимент? Ответ неочевиден, так как и та, и другая модель имеют свои преимущества и недостатки. Кратко сходства и отличия данных моделей приведены в Таблице 2, а более подробное обсуждение моделей приведено в Результатах и выводах. 79 BioLCCC SSRcalc Простой интерфейс Простой интерфейс Физическая модель адсорбции биомолекулы: в явном виде показывает влияние на удерживание связанности АА в цепь Эмпирический подход, основанный на корреляции удерживания с гидрофобностью, содержит ~ 300 корреляционных параметров Аминокислотный состав Последовательность (модификации) Концевые группы: Н-…-ОН; Ас-…-Amide Длина цепи Нет В разработке Нет Аминокислотный состав Последовательность (модификации) Концевые группы: Н-…-ОН Длина цепи Изоэлектрическая точка (в разработке) Влияние заряженных групп (K, R, H) Спирал. структуры (в разработке) Любые колонки С18 Линейный градиент ацетонитрил/вода + ТФУ, муравьиная Колонки С18 с порами 100 и 300А Линейный градиент ацетонитрил/вода + ТФУ, муравьиная Считается стат. сумма биомакромолекулы Относительная гидрофобность Эффективные энергии адсорбции 20 АА изменяются в соответствие с изменением состава растворителя – расчет Разл. значения коэфф. удерживания 20 АА для разных длин пептидов, соседей и пр. – подогнано под эксперимент R2=0.96-0.98 на точных пептидах Малая статистика. Точность!!! R2=0.96-0.98 на «неточных» пептидах Большая статистика. Точность!!! Инверсия выхода при замене градиента нет «Зеркальные пептиды» нет Таблица 2. Сравнительная характеристика [11 из списка публикаций автора, стр. 98-99] модели BioLCCC [1-2 из списка публикаций автора, стр. 98-99], и аддитивной модели SSRcalc, разработанной О. Крохиным из Университета Манитобы [38, 51]. 80 Использование хроматографических данных при поиске по базам данных: LC-MS/MS Ion Search. Этот вариант предполагает производить поиск по базам данных с использованием спектрометрии уже не (Peptide только Mass экспериментальных Fingerprinting) и данных масс- тандемной масс- спектрометрии (MS/MS Ion Search), но и хроматографических данных, полученных в ходе хромато-масс-спектрометрического анализа (LC-MS/MS Ion Search). Возможная схема интеграции хроматографических фильтров в поисковую машину приведена на Рис. 24. По существу данная схема является обобщением алгоритма, который использует поисковая машина Mascot при поиске по базам данных, на случай, когда поиск осуществлялся бы не только по масс-спектрометрическим, но и по хроматографическим данным. Эта схема на данный момент времени пока не реализована на практике, ибо ее реализация требует решения ряда технических вопросов, например, (1) корректного определения времени удерживания пептида по хроматограмме; (2) калибровки хроматографических разработки алгоритма, позволяющего систем; и, (3) подсчитать вероятность достоверности ЖХ-МС/МС идентификации. Обсудим кратко каждую из перечисленных проблем. Подготовка экспериментальных данных, полученных в ходе ЖХМС/МС анализа, помимо фильтрации шумов, заключается в генерации файла с данными для поиска, которые наряду с массами родительского иона и его фрагментов должны содержать также времена удерживания пептидов в максимуме хроматографического пика RTmax (Рис. 24). В существующих на сегодняшний день поисковых программах, когда составляется такой лист с МС данными, извлекается не время удерживания, а время регистрации массспектра для данного иона. Среднее же время по всем регистрациям одного и того же иона RTscanave не всегда соответствует максимуму удерживания, так как один и тот же ион может быть задетектирован масс-анализатором как в максимуме, так и на крыльях хроматографического пика (Рис. 25). 81 ЖХ-МС/МС эксперимент: Обработка экспериментальных данных Фильтрация экспериментальных данных Генерация файла с данными для поиска: масса пептида, массы фрагментов, время удерживания Выбор параметров поиска Поиск по базам данных: Извлечение из базы данных аминокислотных последовательностей белков «Теоретический» гидролиз белков трипсином Расчет mtheor и mfragmenttheor для теоретических пептидов Расчет RTtheor для теоретических пептидов Сравнение в пределах выбранной точности: mtheor&mexp, mfragmenttheor&mframentexp и RTtheor&RTexp Формирование списка совпадений в пределах выбранной точности по массам и RT Оценка вероятности достоверного совпадения для каждого пептида из списка Отбор наиболее вероятного кандидата на достоверную идентификацию: Формирование итогового листа идентификаций Рис. 24. Схема интеграции модели расчета времени удерживания в поисковую машину [11 из списка публикаций автора, стр. 98-99]. 82 RTmax RTscanave 0.75 min RTscanave RTmax 0.25 min 1 min Scan 4 Scan 3 Scan 2 Scan 1 Scan 4 Scan 3 Scan 2 Scan 1 0.5 min (б) (a) Рис. 25. Демонстрация «корректного» (а) и «некорректного» (б) определения удерживания по максимуму хроматографического пика и по среднему значению всех времен регистраций МС спектров одного и того же иона [11 из списка публикаций автора, стр. 98-99]. 83 Если величины RTmax и RTscanave отличаются на величину, не превышающую полуширину хроматографического пика или даже 3-4 полуширины (такова в настоящее время точность предсказания удерживания представленной модели), то такое различие не внесет существенных изменений в корреляцию экспериментальных и рассчитанных по модели BioLCCC времен удерживания. Однако большее различие приведет к нежелательному увеличению разброса между экспериментальными и предсказанными значениями удерживания. Поэтому вопрос правильного определения экспериментального времени удерживания по максимуму пика является здесь принципиальным, поскольку на практике ситуация, когда массспектрометр регистрирует спектр даже не на крыльях хроматографической линии, а в месте, где на первый взгляд вообще нет никакого хроматографического выхода, достаточно распространенна. Она может быть связана с неравномерностью распределения концентраций среди пептидов в образце или с перегрузом хроматографической колонки, а также с адсорбцией-десорбцией транспорта ионов в ионов с внутренних масс-спектрометре. поверхностей Решением этой системы проблемы, естественно, станет создание программы обработки экспериментальных данных, которая будет извлекать из файла с экспериментальными данными время удерживания для каждого спектра. Выбор оптимизирован параметров и хроматографическую поиска дополнен часть соответственно должен параметрами, описывающими эксперимента. В идеале для быть удобства использования параметры поиска должны быть дополнены лишь одним параметром: точностью хроматографического измерения или, другими словами, допустимым отклонением от измеренного значения (LC tolerance). Этот параметр является исключительно приборной характеристикой и, как правило, в отлаженных ЖХ системах с нано потоками, являющихся стандартными для протеомики, не превышает 0.5 минут в рамках заданного протокола хроматографического разделения. Однако существует другая 84 проблема: при использовании различных экспериментальных условий разделения (градиент, скорость элюирования, состав мобильной фазы), различных хроматографических колонок (геометрический размер, размер частиц сорбента и пор, тип сорбента и его производитель) и самих хроматографических систем можно получить для одного и того же образца существенно различающиеся времена удерживания. Эту проблему можно решить при помощи калибровки хроматографических данных с использованием выбранного пептидного стандарта и рассчитанных для него по модели BioLCCC теоретических времен удерживания, например, так, как это описано в [74]. В этой работе предложена такая процедура калибровки на основе линейного уравнения, которая позволяет стандартизовать хроматографические данные и сделать время удерживания независимым от условий проведения хроматографического эксперимента. Для определения коэффициентов в уравнении калибровки в качестве стандарта были выбраны рассчитанные с помощью модели BioLCCC теоретические времена удерживания для пептидов из дайджеста белка Cytochrome C (Dionex/LCPacking, USA). Такой подход продемонстрировал согласие нормализованных времен удерживания в пределах 3% точности для разных типов градиентов, скоростей подачи растворителя и различных хроматографических колонок. Фактически такая калибровка должна быть реализована на стадии обработки экспериментальных данных и подготовки данных для поиска: файл с хромато-масс-спектрометрическими данными должен содержать уже стандартизованные времена удерживания. В этом случае результат последующего расчета времен удерживания для «теоретических пептидов» в рамках калибровочного хроматографического протокола будет адекватен полученным экспериментальными данными. После проведенного поиска по базам данных и выявления совпадений по массам родительского иона, массам фрагментов и стандартизованным временам удерживания производится оценка вероятности достоверного совпадения. При этом в принципе для подсчета вероятности можно выбрать 85 любой из уже существующих вероятностных алгоритмов, однако при расчете алгоритм следует обобщить еще и на «хроматографическую составляющую». Затем следует стандартная процедура: после оценки вероятности каждого из претендентов, выбирается лидер и именно он попадает в финальный лист идентификаций. В принципе, алгоритм, описанный выше, есть не что иное, как обобщение алгоритма, разработанного в [16] и получившего название Molecular Weight Search (Mowse), на возможность поиска с учетом хроматографических данных, назовем его условно Molecular Weight & Time Search. Заключение и выводы В рамках данной работы была не только разработана достаточно корректная физическая модель хроматографического разделения пептидов, BioLCCC, но и проведено сравнение полученных с ее использованием результатов с альтернативным подходом к предсказанию удерживания в рамках модели SSRcalc. В заключение обсудим еще раз преимущества и недостатки данных моделей удерживания. Остановимся подробнее на конкретных примерах, показывающих различие в работе сравниваемых моделей предсказания удерживания. Рассмотрим перестановку концевых групп или «зеркальные» последовательности, описанные ранее в данной работе. Этот пример эквивалентен "перевороту" текста последовательности слева направо. Вообще говоря, не вполне очевидно, почему удерживание таких "перевернутых" последовательностей должно различаться. Впрочем, оно и не различается для гомополимера. Однако, если мы имеем дело с гетерополимером (пептидом), составленным из мономеров с разными энергиями притяжения, то перестановка концов по-разному влияет на все другие мономеры цепи. Это приводит к тому, что макромолекулы с "перевернутым" текстом могут разделяться, что и было продемонстрировано экспериментально (Рис. 15). Немаловажно 86 отметить при этом, что концепция жидкостной хроматографии в критических условиях позволила правильно увидеть порядок выхода таких «зеркальных» пептидов. Модель SSRcalc в свою очередь не видит почти никакого различия в удерживании таких последовательностей при градиенте 1% В/мин, а при более медленном градиенте дает обратный экспериментальному порядок выхода пептидов Последовательность Эксперимент BioLCCC SSRcalc H-GALYIYLGDGLDTADAEG-amide 45.34 42.04 N/A H-GEADATDLGDGLYIYLAG-amide 48.22 43.92 N/A H-GALYIYLGDGLDTADAEG-OH 45.70 41.99 45.0 H-GEADATDLGDGLYIYLAG-OH 48.31 43.83 44.8 Так, в данной таблице приведены экспериментально измеренные и рассчитанные в рамках моделей BioLCCC и SSRcalc времена удерживания. Отметим, что в данном случае расчет по модели SSRcalc проводился для значений a = 22 мин, b = 0.63. Кроме того, в настоящее время модель SSRcalc позволяет делать расчет только для пептидов, имеющих концевые группы Н -peptide- OH. Другой пример также интересен. При экспериментах с пептидами белка Cytochrome C было замечено, что порядок выхода пептидов, характеризующихся близкими временами удерживания, инвертируется при замене градиента на более медленный (Рис. 26). Интересным и несколько неожиданным оказался тот факт, что разработанная в настоящей работе модель позволяет предсказать изменение порядка выхода таких пептидов при изменении градиента на более медленный! Не будет преувеличением утверждение, что на сегодняшний день это вообще единственная модель позволяющая увидеть и предсказать такой эффект. Физическая природа обнаруженного эффекта для пептидов с близкими временами удерживания может быть объяснена с позиции критической хроматографии следующим образом. Напомним, что непрерывный переход через критическую область 87 100 95 90 85 80 75 70 65 60 55 50 45 40 35 30 25 20 15 10 5 0 Gradient from 0 to 35%B in 120 min 25.29 TGPNLHGLFGR Relative Abundance Relative Abundance Gradient from 0 to 50%B in 30 min 25.68 MIFAGIK 16 18 20 22 24 26 28 Time, min 30 32 34 36 100 95 90 85 80 75 70 65 60 55 50 45 40 35 30 25 20 15 10 5 0 20 TGPNLHGLFGR 60.59 MIFAGIK 30 40 50 60 70 80 90 100 Time, min Gradient from 0 to 50%B in 30 min Peptide 61.48 Gradient from 0 to 35%B in 120 min TGPNLHGLFGR MIFAGIK TGPNLHGLFGR MIFAGIK RTexp 25.29 25.68 61.48 60.59 BioLCCC 25.15 26.05 61.77 60.00 SSRCalc 25.3 26.60 60.80 67.6 Рис. 26. Экспериментальное наблюдение изменения порядка выхода пептидов, имеющих близкие времена удерживания, при изменении условий градиентного элюирования [Gorshkov M.V. et al, готовится к печати]. 88 для гетерополимера осуществляется не только на пути от эксклюзионного в адсорбционный режим хроматографии, но и, наоборот, при переходе от адсорбции к эксклюзии. Резкий градиент, реализующийся когда содержание ацетонитрила в бинарном растворителе быстро нарастает, соответствует ситуации, когда мы движемся к критической области со стороны эксклюзионного режима и в итоге пептид с более длинной последовательностью выходит из колонки первым. В то же время, медленный градиент соответствует обратной ситуации, когда во время элюирования преобладает адсорбционный режим, удерживание в котором тем больше, чем длиннее аминокислотная последовательность пептида. Сравниваемые подходы к модели описанию и используют пониманию принципиально процесса различные хроматографического разделения пептидов. Если модель, предложенная и разработанная нами, отталкивается от феномена адсорбции и описывает поведение биомолекулы как макромолекулы, с использованием методов статистической физики, то модель SSRcalc рассматривает соединения, исходя из биомолекулы понятия как низкомолекулярные гидрофобности пептида как основополагающего явления в хроматографии. Отметим, что аддитивный подход безусловно справедлив для низкомолекулярных соединений или достаточно коротких пептидов, т.к он неявно предполагает, что пептид лежит на поверхности «целиком» и взаимодействует с ней сразу всеми аминокислотами. Однако при увеличении длины цепи до 10-15 аминокислот удерживание заметно отклоняется от простой аддитивной модели. Поэтому дальнейшее развитие аддитивных моделей, и модели SSRcalc, в частности, строится на приведении в соответствие экспериментальных данных с предсказаниями путем введения в рассмотрение сложных нелинейных функций, аргументом которых, однако, по-прежнему остается суммирование коэффициентов удерживания аминокислот. Тем самым удается достаточно точно предсказать общие тенденции удерживания для цепей длиной 20 – 30 остатков – типичных для протеомных исследований. 89 Последовательности с одним и тем же аминокислотным составом, но различающиеся перестановками аминокислот, могут иметь разные объемы удерживания. Поэтому, следуя логике хроматографии низкомолекулярных соединений, в модели SSRcalc вводится понятие "эффекта соседа", и теория дополняется корректирующими параметрами, учитывающими влияние ближайших соседей мономера, взаимодействующего с поверхностью. Например, можно ввести различие во взаимодействии с поверхностью В в окружении А , А –В – А или в окружении В, В –В – В. Тем самым, вводя поправочные коэффициенты можно уточнять модель разделения и учесть, в том числе, и возможность разделения по текстам последовательности. В рамках модели BioLCCC, физическая причина различия в адсорбционном взаимодействии при перестановке мономеров в цепи лежит в связанности остатков в цепь и коллективном характере взаимодействия. Аддитивная модель предполагает, что цепь целиком лежит на поверхности и все остатки взаимодействуют с поверхностью, однако, для длинных цепей это не так. Даже для гомополимеров равновесная конфигурация адсорбированной макромолекулы включает не только лежащие на поверхности (и взаимодействующие с ней) мономеры, но также и мономеры в петлях, простирающихся достаточно далеко в раствор, где мономеры не взаимодействуют с поверхностью. То же самое можно сказать и в отношении пептидов: наряду с сильно адсорбирующимися или, другими словами, гидрофобными остатками в цепи присутствуют и гидрофильные, отталкивающиеся от поверхности и способные образовывать петли, уходящие в раствор. Такая возможность учитывается в модели SSRcalc следующим образом. Обычно хроматография пептидов проводится на обращенной фазе в условиях, когда N - конец оказывается заряженным (в форме H3+N-) . Заряженность этого конца означает его сильное отталкивание от гидрофобной поверхности обращенной фазы ("изображение" заряда на гидрофобной поверхности имеет тот же знак, что и сам заряд). Тем самым, N - конец стремиться уйти подальше от 90 поверхности, и утащить ковалентно привязанные к нему остатки. Следовательно, привязанные к N- концу остатки оказываются также удаленными от поверхности и их вклад во взаимодействие изменяется. Более того, оказывается существенным, какие остатки, гидрофобные или гидрофильные привязаны к N – концу. Очевидно, что если переставить местами остатки вблизи N - конца, то эффект такой перестановки может быть заметным. Таким образом, оказывается возможным "увидеть" элементы текста цепи вблизи N - конца, т.е. опять таки связать разделение не только с аминокислотным составом, но и с текстом. Такой подход значительно расширил возможности модели SSRcalc. Тем не менее, предсказание объемов удерживания для пептидов с известным текстом в аддитивной модели основывается на рассмотрении пептидов "со стороны" низкомолекулярных соединений, т.е. рассмотрении их как "длинных" низкомолекулярных соединений. Собственно полимерная природа цепи при таком рассмотрении "учитывается" путем эмпирических поправок. Вместе с тем причина зависимости удерживания от последовательности имеет как раз полимерный характер. Если с самого начала положить в основу рассмотрения взаимодействия пептидов с поверхностью их полимерную природу, т.е. рассматривать их не как длинные низкомолекулярные соединения, а как короткие макромолекулы, то такое изменение точки зрения имеет определенные и обоснованные преимущества. В частности, при таком рассмотрении зависимость удерживания от текста цепи возникает естественным образом без необходимости задания множества дополнительных эмпирических параметров. В чем же преимущество предлагаемой модели по сравнению с SSRcalc? Во-первых, в отличие от суммы индивидуальных свойств аминокислот, мы имеем произведение матриц, отражающих их индивидуальные свойства - энергии адсорбции аминокислотных остатков пептида. Свойства произведения матриц 91 позволяют связать объем удерживания именно с текстом последовательности. Произведение матриц некоммутативно и, следовательно, зависит от порядка перемножения, задаваемого текстом последовательности. Во-вторых, макромолекул" рассмотрение дает разделения возможность пептидов проанализировать "со стороны возможности хроматографии для чтения текста и интерпретации различий в разделении пептидов в терминах слабой дефектности в структуре (модификаций). Ясно, однако, что в общем случае такое соответствие цепи блужданий реальной макромолекуле пептида или белка (даже находящегося в клубкообразном состоянии) не вполне адекватно реальной ситуации. (Грубо говоря, в модели блужданий несколько "преувеличена" энтропийная составляющая во взаимодействии макромолекулы, а в аддитивной модели энтропийная составляющая, наоборот, сильно приуменьшена.) Привязка модели BioLCCC к реальной системе осуществляется с помощью набора 20 феноменологических параметров – эффективных энергий взаимодействия, определяемых экспериментально. По сути, эффективная энергия адсорбции – это единственный нетривиальный параметр разработанной нами модели. Очевидно, что это эффективная энергия зависит от типа поверхности, от состава и компонентов растворителя и температуры. Поскольку взаимодействие аминокислотных остатков с поверхностью ничем не отличается от взаимодействия низкомолекулярного аналога, для определения зависимости элюирующей силы растворителя в модели BioLCCC можно использовать корреляционную теорию, разработанную для низкомолекулярных веществ. Для рассматриваемой модели и формы переходной матрицы естественным является подход Снайдера, хотя он и не часто применяется в хроматографии на обращенной фазе. Возможно на обращенной фазе это действительно не лучшая модель, но она весьма проста и ее степень приближения соответствует степени приближения модели блужданий - в последней также пренебрегается взаимодействием с 92 растворителем. Параметр, описывающий силу растворителя, имеет простой физический смысл эффективной подход содержит энергии адсорбции компонента растворителя. Такой сильное допущение: пренебрежение взаимодействиями в растворе. Однако это предположение позволило нам «расцепить» свойства макромолекулы и растворителя (в смысле взаимодействия с поверхностью) и учесть влияние изменения состава растворителя на эффективную энергию взаимодействия. Во избежание недоразумений, говоря в модели BioLCCC о влиянии перестановки на взаимодействие с поверхностью других мономеров, необходимо еще раз отметить следующее. Рассматриваемое влияние перестановки не связано с тем, что энергия взаимодействия аминокислотного остатка зависит от того, какие аминокислоты (ближайшие соседи) окружают его в аминокислотной последовательности. Так, в модели BioLCCC все энергии аминокислотных остатков, приведенные в таблице 1, фиксированы, но при перестановках в цепи меняются условия их взаимодействия с поверхностью (т.е. вероятность столкновения с поверхностью). В модели SSRcalc коэффициенты удерживания различны для одной и той же аминокислоты в зависимости от длины пептида и расположения аминокислоты в последовательности, т.е. зависят от ближайших соседей (т.е. удерживание мономера В в окружении А отличается от его удерживания в окружении С). Нельзя сказать, что такой подход неверен и «эффект ближайшего соседа» не имеет значения. Возможно, что именно этот эффект является доминирующим в изменении адсорбционного взаимодействия при перестановке мономеров. Однако нами было показано, что даже при пренебрежении влиянием ближайшего соседа на общее удерживание пептида перестановка остатков в цепи все равно приводит к изменению адсорбционного взаимодействия. В целом, какое явление является определяющим 93 в изменении удерживания при перестановках, «влияние ближайшего соседа» или связанность мономеров в цепь – покажут будущие исследования. Еще один важный вопрос – влияние модификации аминокислотного остатка и места расположения этой модификации в аминокислотной последовательности на хроматографическое удерживание пептида. Модификация аминокислоты (например, посттрансляционная) в рамках концепции жидкостной хроматографии в критических условиях меняет ее энергию взаимодействия, а сам по себе этот факт может быть легко обнаружен по изменению массы пептида, а также и по изменению объема удерживания. В рамках аддитивной модели модификации легко учитываются, так что интерпретация хроматографических данных в этом случае проще, чем при перестановке звеньев в цепи. Однако, интересен не только сам факт однократной или многократной модификации цепи, но и место, где произошла такая модификация. В такой постановке задача заметно усложняется и для определения места модификации необходимо прибегать к секвенированию. Изменение взаимодействия с поверхностью одного из мономеров меняет не только его условия взаимодействия с поверхностью, но и «привязанных» к нему соседей по цепи. Таким образом, общее взаимодействие всей цепи зависит от того, в каком месте цепи произошла модификация. Модель BioLCCC предсказывает, что пептиды должны разделяться также и по месту замененной группы. Предложенный подход представляет собой, образно говоря, "первое приближение" к решению проблемы - многие детали строения реальной структуры пептида оказываются за рамками рассмотрения, однако, они, в принципе, способны заметно "исказить" нарисованную выше идеальную картину. Поэтому следует отметить и "слабые места" предложенной модели, в частности, для того чтобы более корректно соответствовать экспериментальным данным в будущем. Сам факт представления об аминокислотной последовательности пептида как о цепи случайных блужданий, конечно, явно модельное 94 приближение. Достаточно длинные последовательности, содержащие порядка 100 мономеров, в денатурированном, клубкообразном состоянии, как и макромолекулы обычных синтетических полимеров, достаточно хорошо моделируются гауссовым клубком. В этом случае предложенная модель правильно отражает физическую суть взаимодействия с поверхностью. Однако короткие пептиды вряд ли можно отождествить с клубком: это могут быть стержни, изогнутые стержни или даже куски спирали. Это не устраняет коллективного характера взаимодействия с поверхностью составляющих их аминокислот, но характер пространственной корреляции, а, следовательно, и влияние текста, уже отличается от гауссового клубка. В общем можно сказать, что для таких слабо флуктуирующих пептидов аддитивная модель скорее ближе к реальности. В этом случае существенны только перестановки вблизи концов цепи на расстоянии порядка радиуса взаимодействия с поверхностью, перестановки же мономеров в середине несущественны. Вообще говоря, нет особых проблем учесть жесткость цепи и в модели блужданий (введением, например, разной вероятности перехода вперед и вбок). Сложность модели при этом возрастет незначительно. Однако следует помнить, что жесткость цепи также может зависеть от первичной последовательности, и для корректного учета потребуется введение, а главное, экспериментальное определение новых параметров, отражающих упомянутое явление. Другое очевидное ограничение модели BioLCCC - предположение о локальности взаимодействия, присутствующее в модели (и, как следствие, в переходной матрице (1)). Реальные пептиды содержат ионногенные группы (K, R, H), которые в условиях хроматографического эксперимента обладают положительным зарядом. Действительно, экспериментально было обнаружено, что для пептидов, содержащих более двух сильно заряженных аминокислот, предсказанные по модели BioLCCC времена удерживания оказываются всегда больше, чем регистрируемые на опыте. Кроме того, электростатическое отталкивание заряженных аминокислот от гидрофобной 95 поверхности является, конечно, нелокальным. Однако нелокальность взаимодействия также можно учесть в рамках предложенной модели, вводя в переходную матрицу взаимодействие со второго слоя. В настоящий момент это еще не реализовано и находится в стадии разработок. Отметим, что в модели SSRcalc на данный момент уже введены эмпирические поправки, позволяющие учитывать наличие сильно заряженных аминокислотных остатков в цепи и их влияние на удерживание пептидов. Считаем нужным отметить, что предложенная модель BioLCCC не специфична к конкретному типу взаимодействий и может быть применена для описания других вариантов хроматографического разделения белков и пептидов, например, в ионнообменной или аффинной хроматографии. Для применимости модели к другим вариантам хроматографии, конечно, необходимо переопределить стандартные энергии адсорбции остатков для фаз и растворителей, применяемых в этих вариантах хроматографии с помощью модельных пептидов, как это было сделано для обращенной фазы C18. Модель SSRcalc также может быть применена к описанию других вариантов хроматографии, однако, переопределение параметров данной модели в виду их большого количества (порядка нескольких сотен) потребует значительно более долгой и кропотливой работы. Упомянутые выше ограничения на предложенную нами модель должны быть предметом дальнейших теоретических и экспериментальных исследований. Тем не менее, несмотря на ограничения, предлагаемый нами подход является продуктивным и обоснованным и позволяет более эффективно вовлекать хроматографические данные в протеомный анализ при идентификации и секвенировании пептидов и белков. Сформулируем кратко основные результаты и выводы, полученные в данной работе: 1. Предложена физическая модель хроматографического разделения биополимеров, белков и пептидов, 96 учитывающая связанность аминокислотных остатков в цепь и макромолекулярный характер поведения биомолекул при их взаимодействии с поверхностью адсорбента. 2. Развита количественная биополимеров, в основе теория которой градиентной лежит хроматографии концепция жидкостной хроматографии в критических условиях. 3. Теоретически показано, что в условиях градиентного элюирования разделение биополимеров и, следовательно, времена удерживания в колонке определяются их критическими условиями (состав смеси бинарного растворителя, температура), соответствующими балансу между энергией взаимодействия аминокислотных остатков с поверхностью и энтропийными потерями цепи аминокислотных остатков биополимера. 4. С использованием развитых теоретических подходов определены энергии взаимодействия с поверхностью обращенной фазы для 20 наиболее распространенных в природе аминокислотных остатков и 4 типов концевых групп, которые являются феноменологическими параметрами предложенной модели хроматографического разделения биополимеров. 5. Экспериментально и теоретически показано, что предложенная макромолекулярная модель хроматографического разделения биополимеров позволяет предсказывать объем или время удерживания биомолекул в зависимости от их аминокислотной последовательности. 6. Показано, что предложенная модель хроматографического разделения биополимеров позволяет количественно и качественно определять порядок выхода биополимеров, отличающихся либо изомерными, либо модифицированными формами аминокислотных остатков. 7. Экспериментально показана возможность использования модели критической хроматографии биополимеров в сочетании с масс- спектрометрией в протеомных исследованиях: определения первичной структуры биополимеров, идентификации посттрансляционных модификаций и секвенировании неизвестных белков и пептидов (de novo секвенирование). 97 Список публикаций. 1 А.В. Горшков, В.В. Евреинов, И.А. Тарасова, М.В. Горшков. О применимости концепции критической хроматографии к задачам протеомики. Зависимость времени удерживания от последовательности аминокислотных остатков в цепи. Высокомолекулярные соединения, Б, 2007, т. 49, №4, с. 732-749. 2 A.V. Gorshkov, I.A. Tarasova, V.V. Evreinov, M.M. Savitski, M.L. Nielsen, R.A. Zubarev, M.V. Gorshkov, Liquid Chromatography at Critical Conditions: Towards a Comprehensive Approach to Sequence Dependent Retention Time Prediction, Analytical Chemistry, 2006, V. 76, 7770-7777. 3 М.В. Горшков, А.В. Горшков, В.В. Евреинов, И.А.Тарасова, Массспектрометрия и жидкостная хроматография в критической точке: Новый подход к изучению биомолекул, 2-й Съезд Всероссийского массспектрометрического общества «Масс-спектрометрия и ее прикладные проблемы», 2005, Москва, Россия. 4 A. Tarasova, A. V. Gorshkov, V. V. Evreinov, O. N. Kharybin, M. V. Gorshkov, A Concept of Liquid Chromatography at Critical Conditions in Combination With Mass Spectrometry: From Polymers to Biopolymers, Proceedings of the 53rd Conference of American Society for Mass Spectrometry, 2005, San Antonio, USA. 5 A. Tarasova; A. V. Gorshkov; V. V. Evreinov, A. A. Goloborodko, S. S. Chitov, M. L. Nielsen, R. A. Zubarev, and M. V. Gorshkov, Towards High Throughput Proteomics: Liquid Chromatography at Critical Conditions/Mass Spectrometry, Proceedings of the 17th International Mass Spectrometry Conference, TuP252, p. 185, 28 August – 1 September, 2006, Prague, Czech Republic. 6 И.А. Тарасова, Д.А. Толмачев, С.С. Шитов, М.Л. Придатченко, А.Ю. Агапов, А.А. Голобородько, А.В. Горшков, Р.А. Зубарев, В.В. Евреинов, М.В. Горшков, Жидкостная хроматография в критических условиях: новый метод идентификации аминокислотных последовательностей биомолекул, 98 XLIX Научная конференция Московского физико-технического института, 2006, Москва, Россия. 7 Irina A. Tarasova; Alexander V. Gorshkov; Victor V. Evreinov; Roman A. Zubarev; Mikhail V. Gorshkov, BioLCCC-MS/MS Tools: a Comprehensive Approach to Sequence Dependent Retention Time Prediction, Proceedings of the 54th Conference of American Society for Mass Spectrometry, WP526, 28 May – 1 June, 2006, Seattle, USA. 8 И.А. Тарасова, А.В. Горшков, В.В. Евреинов, М.В. Горшков, «Идентификация первичной структуры с использованием концепции жидкостной хроматографии в критических условиях», Материалы 3-ей Школы-семинара «Масс-спектрометрия в химической физике, биофизике и экологии», стр. 92-93, 16-22 апреля, 2007, Звенигород, Россия. 9 И.А. Тарасова, А.В. Горшков, В.В. Евреинов, А.А. Голобородько, С.С. Шитов, М.Л. Придатченко, М.В. Горшков, «Теоретический хроматограф: практическая реализация критических условиях», концепции Материалы жидкостной 3-ей хроматографии Школы-семинара в «Масс- спектрометрия в химической физике, биофизике и экологии», стр. 80, 1622 апреля, 2007, Звенигород, Россия. 10 Tarasova I.A., Pridatchenko M.L., Kieffer-Jaquinod S.; Guryca V.; Garin J.; Masselon C.D.; Gorshkov A.V.; Evreinov V.V.; Gorshkov M.V., “Retention time conversion for cross-platform transfer of HPLC-MS/MS proteomics data”, Proceedings of the 55th Conference of American Society for Mass Spectrometry, Indianapolis, IN, USA, 3-7 Jun 2007. 11 Тарасова И.А., Зубарев Р.А., Горшков М.В., «Идентификация белков и пептидов по хромато-масс-спектрометрическим данным с использованием расчета времен удерживания», 3-й Съезд Всероссийского масс- спектрометрического общества «Масс-спектрометрия и ее прикладные проблемы», 3-7 сентября 2007. 99 Литература. 1. Wong S.F., Meng C.K., Fenn J.B., “Multiple Charging in Electrospray Ionization of Poly(Ethylene Glycols)”, J. Phys. Chem., 92(2), pp. 546-550 (1988). 2. Tanaka K., Waki H., Ido Y., Akita S., Yoshida Y., Yoshida T., “Protein and Polymer Analyses up to m/z 100 000 by Laser Ionization Time-of-Flight Mass Spectrometry”, Rapid Commun. Mass Spectrom., 2(8), pp. 151–153 (1988). 3. Brancia F.L., “Recent developments in ion-trap mass spectrometry and related technologies”, Expert Review of Proteomics, 3(1), pp. 143-151 (2006). 4. Roepstorff P., “MALDI-TOF mass spectrometry in protein chemistry”, EXS., 88, pp. 81-97 (2000). 5. Marshall A.G., Verdun F.R., “Fourier transforms in NMR, optical, and mass spectrometry”, A User's Handbook, Elsevier Science Publishing Company Inc., New York, pp. 450 (1990). 6. Makarov A., “Electrostatic axially harmonic orbital trapping: a high performance technique of mass analysis”, Anal. Chem., 72(6), pp. 1156-62 (2000). 7. Pandey A., Mann M., “Proteomics to study genes and genomes”, Nature, 405(6788), pp. 837-846 (2000). 8. Aebersold R., Mann M., “Mass spectrometry-based proteomics”, Nature, 422, pp. 198-207 (2003). 9. Wells J.M., McLuckey S.A., “Collision-induced dissociation (CID) of peptides and proteins”, Methods Enzymol., 402, pp.148-185 (2005). 10. Little D.P., Speir J.P., Senko M.V., O’Connor P.B., McLafferty F.W., “IRMPD of large multiply charged ions for biomolecule sequencing”, Anal Chem., 66(18), pp. 2809-15 (1994). 100 11. Zubarev R.A., Kelleher N.L., McLafferty F.W., “ECD of multiply charged protein cations. A nonergodic process”, J. Am. Chem. Soc., 120(13), pp. 3265-3266 (1998). 12. Syka J.E., Coon J.J., Schroeder M.J., Shabanowitz J., Hunt D.F., “Peptide and Protein sequence analysis by ETD MS”, PNAS, 101(26), pp. 9528-33; 10.1073/pnas.0402700101 (2004). 13. Abbott A., “A post-genomic challenge: learning to read patterns of protein synthesis”, Nature, 402, pp. 715-720, (1999). 14. Zubarev R. A., Hakansson P., Sundqvist B., “Accuracy requirements for peptide characterization by monoisotopic molecular mass measurements”, Analytical Chemistry, 68(22), pp. 4060-63 (1996). 15. Mann M., Hendrickson R. C., Pandey A., “Analysis of proteins and proteomes by mass spectrometry”, Annual Reviews in Biochemistry, 70, pp. 437-473 (2001). 16. Perkins D. N., Pappin D. J. C., Creasy D. M., Cottrell J. S., “Probability based protein identification by searching sequence databases using mass spectrometry data”, Electrophoresis, 20(18), pp. 3551–3567 (1999). 17. Eng J. K., McCormack A. L., Yates J. R., “An approach to correlate tandem mass spectral data of peptides with amino acid sequences in a protein database”, J. Am. Soc. Mass Spectrom., 5, pp. 976 –989 (1994). 18. Craig R., Beavis R.C., “TANDEM: matching proteins with mass spectra”, Bioinformatics, 20, pp. 1466-7 (2004). 19. Geer L.Y., Markey S.P., Kowalak J.A., Wagner L., Xu M., Maynard D.M., Yang X., Shi W., Bryant S.H., “Open Mass Spectrometry Search Algorithm”, J Proteome Res., 3(5), pp. 958-64 (2004). 20. Meek J.L., “Prediction of peptide retention times in high pressure liquid chromatography on the basis of amino acid composition”, Proc. Natl. Acad. Sci. USA, 77(3), p.1632-1636 (1980). 21. M.T.W. Hearn, M.J. Aguilar, C.T. Mant, R.S. Hodges, “High performance liquid chromatography of amino acids, peptides and proteins. LXXXV. 101 Evaluation of the use of hydrophobicity coefficients for the prediction of peptide elution profiles”, J. Chromatography, 438, pp.197-210 (1988). 22. C.T. Mant, T.W.L. Burke, J.A. Black R.S. Hodges, “Effect of peptide chain length on peptide retention behaviour in reversed-phase chromatography”, J. Chromatography, 458, pp.193-205 (1988). 23. Nielsen M. L., Savitski M. M., Zubarev R. A., “Improving Protein Identification Using Complementary Fragmentation Techniques in Fourier Transform Mass Spectrometry”, Mol. Cell Proteom., 4, pp.835– 845 (2004). 24. Savitski M.M., Nielsen M.L., Zubarev R.A., “New Data Base-independent, Sequence Tag-based Scoring of Peptide MS/MS Data Validates Mowse Scores, Recovers Below Threshold Data, Singles Out Modified Peptides, and Assesses the Quality of MS/MS Techniques”, Mol. Cel. Proteom., 4, pp.1180-1188 (2005). 25. Sunyaev S., Liska A. J., Golod A., Shevchenko A., Shevchenko A., “MultiTag: multiple error-tolerant sequence tag search for the sequencesimilarity identification of proteins by mass spectrometry”, Anal. Chem., 75, pp.1307–1315 (2003). 26. Mann M., Wilm M., “Error-tolerant identification of peptides in sequence databases by peptide sequence tags”, Anal. Chem., 66(24), pp.4390 – 4399. (1994). 27. Kristensen D. B., Brond J. C., Nielsen P. A., Andersen J. R., Sorensen O. T., Jorgensen V., Budin K., Matthiesen J., Veno P., Jespersen H. M., Ahrens C. H., Schandorff S., Ruhoff P. T., Wisniewski J. R., Bennett K. L., Podtelejnikov A. V., “Peptide Identification Repository (EPIR): an integrated peptide-centric platform for validation and mining of tandem mass spectrometry data”, Mol. Cell. Proteom., 3, pp.1023–1038 (2004). 28. Bern M., Goldberg D., McDonald W. H., Yates J. R., “Automatic quality assessment of peptide tandem mass spectra”, 12th International Conference on Intelligent Systems for Molecular Biology (ISMB 2004); 2004 July 31 August 4; Glasgow; Scotland. 102 29. McLafferty F. W., Fridriksson E. K., Horn D. M., Lewis M. A., Zubarev R. A., “Biochemistry. Biomolecule mass spectrometry”, Science, 21, pp.1289 – 1290 (1999). 30. Zubarev R. A., Horn D. M., Fridriksson E. K., Kelleher N. L., Kruger N. A., Lewis M. A., Carpenter B. K., McLafferty F. W., “Electron capture dissociation for structural characterization of multiply charged protein cations”, Anal. Chem., 72, pp.563–573 (2000). 31. Fernandez F. M., Wysocki V.H., Futrell J.H., “Protein identification via surface-induced dissociation in an FT-ICR mass spectrometer and a patchwork sequencing approach”, J. Am. Soc. Mass Spectrom., 17 (5), pp.700-709 (2006). 32. Marshall A.G., Hendrickson Ch.L., Jackson G.S., “Fourier Transform Ion Cyclotron Resonance Mass Spectrometry: A Primer”, Mass Spectrometry Reviews, 17, pp.1–35 (1998). 33. Shaffer S.A., Tang K.Q., Anderson G.A., Prior D.C., Udseth H.R., Smith R.D., "A novel ion funnel for focusing ions at elevated pressure using electrospray ionization mass spectrometry”, Rapid Commun. Mass Spectrom., 11, 1813–1817 (1997). 34. Schweikhard, L.; Guan, S. H.; Marshall, A. G., “Quadrupolar excitation and collisional cooling for axialization and high pressure trapping of ions in Fourier transform ion cyclotron resonance mass spectrometry”, Int. J. Mass Spectrom. Ion Processes, 120, pp.71-83 (1992). 35. Gorshkov M.V., Pasa-Tolic L., Bruce J.E., Anderson G.A., Smith R.D., “A dual-trap design and its applications in electrospray ionization FTICR mass spectrometry”, Anal. Chem., 69, 1307-1314 (1997). 36. Palmblad, M.; Ramstrom, M.; Markides, K. E.; Håkansson, P.; Bergquist, ”Prediction of Chromatography Retention and Protein Identification in Liquid Chromatography/Mass Spectrometry”, J. Anal. Chem., 74, 5826-5830 (2002). 103 37. Petritis K.; Kangas L. J.; Ferguson P. L.; Anderson G. A.; Pasa-Tolic L.; Lipton M. S.; Auberry K. J.; Strittmatter E. F.; Shen Yu.; Zhao R.; Smith R.D., “Use of artificial neural networks for the accurate prediction of peptide liquid chromatography elution times in proteome analyses”, Anal. Chem., 75, pp.1039-1048 (2003). 38. Krokhin, O. V.; Craig, R. V.; Spicer, V.; Ens, W.; Standing, K. G.; Beavis, R.C.; Wilkins, “An improved model for prediction of retention time s of tryptic peptides in ion pair reversed-phase HPLC: its application to protein peptide mapping by off-line HPLC-MALDI MS”, J. A. Mol. Cell. Proteomics, 3.9, 908-919 (2004). 39. Gorshkov A.V., Tarasova I.A., Evreinov V.V., Savitski M.M., Nielsen M.L., Zubarev R.A., Gorshkov M.V., ”Liquid Chromatography at Critical Conditions: Towards a Comprehensive Approach to Sequence Dependent Retention Time Prediction”, Anal. Chem., 76, pp. 7770-7777 (2006). 40. Klammer A.A., Yi X., MacCoss M.J., Noble W. S., ”Peptide Retention Time Prediction Yields Improved Tandem Mass Spectrum Identification for Diverse Chromatography Conditions”, RECOMB 2007, pp. 459-472. 41. Meek J.L., Rossetti Z.L., “Factors affecting retention and resolution of peptides in high performance liquid chromatography”, J. Chromatogr., 211(1), p.15-28 (1981). 42. Su S.J., Grego B., Niven B., Hearn M.T.W., ”Analysis of Group retention contributions for peptides separated by reversed-phase high performance liquid chromatography”, J. Liq. Chromatogr., 4(10), p.1745-1764 (1981). 43. Wilson K.J., Honegger A., Slottzel R.P., Hughes G.H., “The behaviour of peptides on reversed phase supports during high pressure liquid chromatography”, Biochem. J., 199, p.31 (1981). 44. Browne C.A., Bennett H.P.J., Solomon S., “The isolation of peptides by high-performance liquid chromatography using predicted elution positions”, Anal. Biochem., 124(1), p.201-8 (1982). 104 45. Sasagawa T., Okuyama T., Teller D.C., “Prediction of peptide retention times in reversed phases high performance liquid chromatography during linear gradient elution”, J. Chromatogr., 240(2), p.329-340 (1982). 46. Sasagawa T., Ericsson L.H., Teller D.C., Titani K., Walsh K.A., “Separation of peptides on a polystyrene resin column”, J. Chromatogr., 307, p.29-38 (1984). 47. Guo D., Mant C.T., Taneja A.K., Parker J.M.R., Hodges R.S. J. Chromatogr., “Prediction of peptide retention times in reversed-phased liquid chromatography. I. Determination of retention coefficients of amino acid residues of model synthetic peptides”, 359, p.499-518 (1986). 48. Sakamoto Y., Kawakami N., Sasagawa T., “Prediction of peptide retention times”, J. Chromatogr., 442, p.69-79 (1988). 49. Petritis K., Kangas L.J., Yan B., Monroe M.E., Strittmatter E.F., Qian W., Adkins J.N., Moore R.J., Xu Y., Lipton M.S., Camp D.G., Smith R.D., “Improved Peptide Elution Time Prediction for Reversed Phase Liquid Chromatography-MS by Incorporating Peptide Sequence Information” , Anal. Chem., 78, 5026-5039 (2006). 50. Palmblad, M.; Ramstrom, M.; Bailey, C. G.; McCutchen-Maloney, S. L.; Bergquist, J.; Zeller, L. C., “Protein identification by liquid chromatography using retention time prediction”, J. Chromatogr., B, 803, 131-135 (2004). 51. Krokhin O.V., Ying S., Cortens J.P., Ghosh D., Spicer V., Ens W., Standing K.G., Beavis R.C., Wilkins J.A., “Use of Peptide Retention Time Prediction for Protein Identification by off-line Reversed Phase HPLC-MALDI MS/MS”, Anal. Chem., 78, 6265-6269 (2006). 52. Azarova I.N., Baram G.I., Gol’dberg E.L., “Prediction of Retention Volumes and UV Spectra of Peptides in Reversed Phase HPLC”, Russian Journal of Bioorganic Chemistry, 32(1), pp.50–56 (2006). 53. Baczek, T., Wiczling, P., Marszall, M., Heyden, Y.V., Kaliszan, R., “Prediction of peptide retention at different hplc conditions from multiple linear regression models”, J Proteome Res, pp. 555–63 (2004). 105 54. Lewis D.P., Jebara T., Noble W.S., “Support vector machine learning from heterogeneous data: an empirical analysis using protein sequence and structure”, Bioinformatics, 22(22), pp. 2753-2760 (2006). 55. Ben-Hur A., NobleW.S., “Kernel methods for predicting protein-protein interactions”, ISMB (Supplement of Bioinformatics), pp. 38-46 (2005). 56. Ling C.X., Noble W.S., Yang Q., “Guest Editors' Introduction to the Special Issue: Machine Learning for Bioinformatics - Part 1”, IEEE/ACM Trans. Comput. Biology Bioinform., 2(2), pp.81-82 (2005). 57. Ling C.X., Noble W.S., Yang Q., “Guest Editor's Introduction to the Special Issue: Machine Learning for Bioinformatics-Part 2”, IEEE/ACM Trans. Comput. Biology Bioinform., 2(3), pp. 177-178 (2005). 58. Eskin E., Noble W.S., Singer Y., “Protein Family Classification Using Sparse Markov Transducers”, Journal of Computational Biology, 10(2), pp.187-214 (2003). 59. Liao L., Noble W.S., “Combining Pairwise Sequence Similarity and Support Vector Machines for Detecting Remote Protein Evolutionary and Structural Relationships”, Journal of Computational Biology, 10(6), pp.857-868 (2003). 60. Strittmatter E.F., Kangas L.J., Petritis K., Mottaz H.M., Anderson G.A., Shen Y., Jacobs J.M., Camp D.G., and Smith R.D., “Application of Peptide Retention Time Information in a Discriminant Function for Peptide Identification by Tandem Mass Spectrometry”, J Proteome Res; 3, pp.760769 (2004). 61. Riddle L. A., Guiochon G., “Influence of Mobile Phase Gradients on the Retention and Separation of Peptides from a Cytochrome-c Digest by Reversed-Phase Liquid Chromatography”, Chromatographia, 64, pp. 121– 127 (2006). 62. Кузаев А.И., Суслова Е.Н., Энтелис С.Г., “Адсорбционные эффекты в гель проникающей хроматографии. II Полистерольные гели”, Журн. Физ. Химии, 48(6), 1493-1495 (1974). 106 63. Де Жен П., Идеи скейлинга в физике полимеров. М.: Мир, 1982, стр. 368. 64. Лифшиц И.М., “Некоторые вопросы статистической теории биополимеров”, ЖЭТФ, т. 55, №6, стр. 221 (1968). 65. De Gennes P.-G., “Some Conformation Problems for Long Macromolecules”, Rep. Prog. Phys., v.32, p.187-205 (1969). 66. Hoeve C.A.J., Di Marzio E.A., Peyser P., “Adsorption of Polymer Molecules at Low Surface Coverage”, J. Chem. Phys., No.2, pp.2558-2563 (1965). 67. Di Marzio E.A., Rubin R., “Adsorption of Chain Polymer Between Two Plates”, J. Chem. Phys., v.55, No.9, p. 4318-4336 (1971). 68. Горшков А.В., «Критическая хроматография макромолекул», диссертация на соискание степени доктора физ.-мат. наук, 2002. 69. Скворцов А.М., Беленький Б.Г., Ганкина Э.С., Тенников М.Б., “О соответствии поведения реальной макромолекулы и гауссовой цепи при адсорбции в порах”, Высокомолекулярные соединения, А, т.20, №3, с.678-686 (1978). 70. Горшков А.В., Евреинов В.В., Энтелис С.Г., “Хроматография в критических условиях и разделение макромолекул по функциональности и топологии”, Докл. АН СССР, т.272, №3, с.632-635 (1983). 71. Entelis S.G., Evreinov V.V., Gorshkov A.V., “Functionality and Molecular Weight Distribution of Telechelic Polymers”, Adv. In Polymer Science, v.76, p.129-175 (1986). 72. Snyder, Principles of Adsorption Chromatography, (N.Y.: Dekker, 1968). 73. Snyder L.R., Saunders D.L., “Optimized solvent programming for separations of complex samples by liquid solid adsorption chromatography in columns”, J. Chromatogr. Sci., 7(4), pp.195-208 (1969). 74. Tarasova I.A., Pridatchenko M.L., Kieffer-Jaquinod S.; Guryca V.; Garin J.; Masselon C.D.; Gorshkov A.V.; Evreinov V.V.; Gorshkov M.V., “Retention 107 time conversion for cross-platform transfer of HPLC-MS/MS proteomics data”, Proceedings of the 55th Conference of American Society for Mass Spectrometry, Indianapolis, IN, USA, 3-7 Jun 2007. 108