redfold: پیش بینی دقیق ساختار ثانویه RNA با استفاده از شبکه رمزگذار باقیمانده

ساخت وبلاگ

از آنجا که ساختار ثانویه RNA با ثبات و عملکردهای آن بسیار مرتبط است ، پیش بینی ساختار برای تحقیقات بیولوژیکی از اهمیت زیادی برخوردار است. پیش بینی محاسباتی سنتی برای پیش بینی ثانویه RNA عمدتا بر اساس مدل ترمودینامیکی با برنامه نویسی پویا برای یافتن ساختار بهینه است. با این حال ، عملکرد پیش بینی بر اساس رویکرد سنتی برای تحقیقات بیشتر رضایت بخش نیست. علاوه بر این ، پیچیدگی محاسباتی پیش بینی ساختار با استفاده از برنامه نویسی پویا (o (n^3) ) است. برای ساختار RNA با pseudoknots ، که از نظر محاسباتی برای تجزیه و تحلیل در مقیاس بزرگ غیر عملی است ، (o (n^6) ) می شود.

نتایج

در این مقاله ، ما Redfold را پیشنهاد می کنیم ، یک روش مبتنی بر یادگیری عمیق برای پیش بینی ثانویه RNA. Redfold از یک شبکه رمزگذار رمزگذار مبتنی بر CNN برای یادگیری وابستگی های کوتاه و طولانی در بین دنباله RNA استفاده می کند ، و شبکه بیشتر با اتصالات پرش متقارن برای انتشار کارآمد اطلاعات فعال سازی در لایه ها یکپارچه می شود. علاوه بر این ، خروجی شبکه پس از پردازش با بهینه سازی محدود برای پیش بینی های مطلوب حتی برای RNA ها با pseudoknots انجام می شود. نتایج تجربی مبتنی بر پایگاه داده NCRNA نشان می دهد که Redfold از نظر کارآیی و دقت به عملکرد بهتر می رسد ، و از روشهای مدرن مدرن بهتر عمل می کند.

زمینه

RNA یک بیوپلیمر تک رشته ای با چهار نوع پایه نیتروژن (A ، C ، G و U) است. این می تواند به دلیل فعل و انفعالات پیوند دهنده هیدروژن موضعی بین ترکیبات آلی ، نقوش ساختار پیچیده ای داشته باشد. مطالعات نشان داده اند که RNA های غیر کد کننده (NCRNA) نقش مهمی در فرآیندهای سلولی دارند ، از جمله تنظیم رونویسی ، تکثیر کروموزوم و تعامل در پردازش RNA ها و پروتئین ها [1،2،3]. تلاش های بیشتر در مورد کاربردهای بالینی NCRNA در تشخیص ، پیش آگهی ، واکسن و درمان انجام شده است [4 ، 5]. علاوه بر این ، ساختار RNA با ثبات و عملکردهای آن از نزدیک همراه است و از این رو تجزیه و تحلیل ساختار RNA یک مسئله مهم در تحقیقات بیولوژیکی است. برای کشف مکانیسم عملکرد RNA در یک پایگاه داده ژنومی در مقیاس بزرگ ، پیش بینی محاسباتی برای ساختار ثانویه RNA یک روش کارآمد برای تجزیه و تحلیل RNA ها است. در RNA ، ساختار ثانویه توصیف فعل و انفعالات پیوند هیدروژن بین جفت های پایه مکمل است. جفت پایه واتسون-کریک متعارف شامل جفت های پایه AU و CG است در حالی که جفت wobble (جفت پایه GU) نیز اغلب در ساختار ثانویه RNA مشاهده می شود [6 ، 7]. در بیشتر موارد ، جفت های پایه به سبک تو در تو ظاهر می شوند تا یک ساختار ساقه را تشکیل دهند (شکل 1A) ، که در آن برای هر دو جفت پایه در موقعیت های پایه ((I_1 ، I_2) ) و ((J_1، j_2) ) یا (i_1

از آنجا که محاسبات موازی و توزیع شده به طور گسترده ای در دسترس قرار می گیرد ، روشهای یادگیری عمیق می توانند داده های در مقیاس بزرگ را به طور مؤثر پردازش کرده و با عملکرد قابل توجه پیشرفت قابل توجهی داشته باشند. در نتیجه ، یادگیری عمیق در زمینه های مختلفی از جمله زیست پزشکی و بیوانفورماتیک نیز به طور گسترده استفاده شده است. با توجه به موفقیت در یادگیری عمیق ، CDPFOLL [16] از شبکه عصبی حلقوی (CNN) برای برآورد احتمال زوج و بدون جفت استفاده می کند. بر اساس احتمال تخمین زده شده ، سپس ساختار ثانویه را از طریق DP پیش بینی می کند که پیش بینی ساختار را برای برخی از خانواده های RNA بدون نقوش pseudoknot بهبود می بخشد. رویکردهای یادگیری عمیق بیشتر سعی در ادغام مدلهای مختلف یادگیری برای افزایش عملکرد پیش بینی دارند. شبکه حافظه کوتاه مدت کوتاه مدت (LSTM) قادر به یادگیری رابطه بین وابستگی های مسافت طولانی در طول دنباله است ، و Spota [17] از چندین مدل یادگیری متنی عمیق همراه با LSTM برای پیش بینی احتمال پیوند پایه ساختار RNA استفاده می کند. بشربا این حال ، مدل LSTM نیاز به پردازش متوالی با تعداد زیادی از پارامترهای مدل دارد که باعث می شود برای پیش بینی ساختار RNA ناکارآمد شود. به جای استفاده از مدلهای مکرر ، UFOLD [18] مدل U-NET را برای ضبط اطلاعات متنی در دنباله ای که باعث بهبود دقت پیش بینی ساختار ثانویه RNA می شود ، اتخاذ می کند.

در این مقاله ، ما یک روش محاسباتی جدید به نام Redfold را پیشنهاد می کنیم ، که براساس شبکه رمزگذار باقیمانده برای پیش بینی ساختار ثانویه RNA است. با الهام از پیشرفت Alphafold [19] و UFOLD در پیش بینی های ساختار ، ما از شبکه رمزگذار دکوراسیون به دنبال FC-Densenet [20] برای یادگیری تعامل محلی و دوربرد در بین دنباله RNA استفاده می کنیم. ما بیشتر آن را با شبکه Resnet [21] درج می کنیم تا با یادگیری کارآمد اطلاعات باقیمانده از مشکل شیب ناپدید شده شیب جلوگیری کنیم. با مقایسه الگوریتم پیشنهادی ما Redfold با چندین الگوریتم پیش بینی ساختار ثانویه شناخته شده RNA ، Redfold از الگوریتم های قبلی از نظر سرعت و دقت بهتر عمل می کند. علاوه بر این ، ما یک سرور وب ایجاد کرده ایم که به کاربران امکان می دهد ساختار ثانویه RNA را از طریق RedFold پیش بینی کنند. کاربر می تواند دنباله RNA را با فرمت Fasta به سرور ارسال کند و سپس ساختار RNA پیش بینی شده را بررسی کند.

مواد و روش ها

پیش بینی ساختار ثانویه RNA با هدف پیش بینی ساختار دقیق جفت پایه از یک توالی RNA معین. در این کار ، ما یک الگوریتم پیش بینی ساختار سریع و دقیق را پیشنهاد کردیم که ساختار ثانویه RNA را از طریق شبکه عصبی عمیق پیش بینی می کند. توالی RNA ابتدا به یک ترکیب ورودی متشکل از ماتریس های تماس برای دینوکلئوتید و تترانوکلئوتید تبدیل می شود. پس از آن ، شبکه رمزگذار می تواند ویژگی ها را بیشتر استخراج کرده و یک نقشه نمره را برای پردازش پس از آن خروجی کند. پس از پردازش پس از پردازش ، Redfold نقشه تماس پیش بینی شده را با ساختار پیوند پایه مربوطه خروجی می کند ، و این روش در زیر بخش های زیر به تفصیل است.

پیش پردازش برای ترکیب ورودی < SPAN> پیش بینی ساختار ثانویه RNA با هدف پیش بینی ساختار دقیق جفت پایه از یک توالی RNA معین. در این کار ، ما یک الگوریتم پیش بینی ساختار سریع و دقیق را پیشنهاد کردیم که ساختار ثانویه RNA را از طریق شبکه عصبی عمیق پیش بینی می کند. توالی RNA ابتدا به یک ترکیب ورودی متشکل از ماتریس های تماس برای دینوکلئوتید و تترانوکلئوتید تبدیل می شود. پس از آن ، شبکه رمزگذار می تواند ویژگی ها را بیشتر استخراج کرده و یک نقشه نمره را برای پردازش پس از آن خروجی کند. پس از پردازش پس از پردازش ، Redfold نقشه تماس پیش بینی شده را با ساختار پیوند پایه مربوطه خروجی می کند ، و این روش در زیر بخش های زیر به تفصیل است.

پیش پردازش برای پیش بینی ساختار ثانویه ConformationRNA با هدف پیش بینی ساختار دقیق جفت پایه از یک دنباله RNA داده شده. در این کار ، ما یک الگوریتم پیش بینی ساختار سریع و دقیق را پیشنهاد کردیم که ساختار ثانویه RNA را از طریق شبکه عصبی عمیق پیش بینی می کند. توالی RNA ابتدا به یک ترکیب ورودی متشکل از ماتریس های تماس برای دینوکلئوتید و تترانوکلئوتید تبدیل می شود. پس از آن ، شبکه رمزگذار می تواند ویژگی ها را بیشتر استخراج کرده و یک نقشه نمره را برای پردازش پس از آن خروجی کند. پس از پردازش پس از پردازش ، Redfold نقشه تماس پیش بینی شده را با ساختار پیوند پایه مربوطه خروجی می کند ، و این روش در زیر بخش های زیر به تفصیل است.

figure 1

پیش پردازش برای ترکیب ورودی

Redfold ابتدا توالی RNA ورودی را به ماتریس تماس باینری دو بعدی به عنوان ترکیب ورودی تبدیل می کند. مشابه پیش بینی ساختار پروتئین با استفاده از نقشه های تماس برای نشان دادن جفت باقیمانده در تعامل ، Redfold ماتریس تماس را تصویب می کند تا موقعیت های نسبی دینوکلئوتید و تترانوکلئوتید را در بین دنباله RNA نشان دهد. بگذارید دنباله RNA ( underline = (b_1 ، b_2. b_l) ) که در آن هر پایه (b_i in \) و l طول دنباله است. ماتریس تماس برای dinucleotide (m ( underline) in ^) ، جایی که دینوکلئوتید ( underline in ^2 ) ، ردیابی تمام 10 ترکیب ممکن از جفت های پایه ( underline) در دنباله رخ می دهد. به عنوان مثال ، عنصر (M_ ) ماتریس تماس M (AU) را بگیرید اگر دینوکلئوتید ((b_i ، b_j) ) متعلق به مجموعه دینوکلئوتید (\) باشد ، بدون در نظر گرفتنترتیب پایه. استفاده از دینوکلئوتید غیر مرتب شده ، پیش بینی را نسبت به جهش RNA که در حالی که همان ساختار ثانویه را حفظ می کند ، سازماندهی مجدد می کند ، قوی تر می کند. از آنجا که ساختار RNA مربوط به محتوای متوالی دینوکلئوتید (2-MER) است [22 ، 23] ، ماتریس تماس برای تترانوکلئوتید برای ردیابی تمام 136 ترکیب ممکن از جفت 2-mer در دنباله است. ماتریس تماس برای تترانوکلئوتید ( underline ) به عنوان (m ( underline) in ^) مشخص می شود ، جایی که تترانوکلئوتید ( زیر خط در ^4 ). همانطور که در شکل 1C نشان داده شده است ، عنصر (M_ ) ماتریس تماس M (Aguu) یکی است اگر جفت 2-mer ((b_ib _ ، b_jb _) ) متعلق به مجموعه تترانوکلئوتید (\) باشد. بدون در نظر گرفتن دستور 2-mer. آخرین ردیف یا ستون موجود در ماتریس تماس برای تترانوکلئوتید ، ردیابی پایه های ترمینال دنباله است که می تواند به RNA های دایره ای (circas) نیز دسترسی پیدا کند. به عنوان مثال ، عنصر (m_ ) بررسی این است که آیا جفت 2-mer ((b_lb_1 ، b_jb _) ) متعلق به ترکیب های تترانوکلئوتید ( underline ) است. ترکیب ورودی از این رو از ماتریس تماس ( textbf ) با اندازه کلی (146 بار l times l ) برای یک دنباله RNA ورودی با طول l تشکیل شده است. بر اساس ترکیب ورودی ، شبکه عصبی زیر قادر به استخراج نقشه ویژگی و یک نقشه نمره برای پیش بینی ساختار است.

معماری شبکه

شبکه عصبی عمیق (DNN) Redfold از استخراج ویژگی ها و شبکه رمزگذار تشکیل دهنده تشکیل شده است که بر اساس طراحی فیوژن FC-Densenet و Resnet اجرا می شود. از آنجا که ترکیب ورودی از ماتریس های تماس با کمبود بالا تشکیل شده است ، Redfold با استفاده از CNN با ماژول های حلقوی اساسی 3 لایه (BCMS) برای استخراج ویژگی های مفید برای پیش بینی ساختار ثانویه RNA. BCM یک واحد پردازش اساسی است که از 2 بعدی حل و فصل ، عادی سازی دسته ای و واحد خطی اصلاح شده (RELU) تشکیل شده است. پس از شبکه استخراج ویژگی ، نقشه ویژگی چگالش از اندازه (16 بار L بار L ) است ، و همانطور که در شکل 2 نشان داده شده است ، در شبکه رمزگذار رمزگذار زیر تغذیه می شود.

figure 2

از آنجا که نقشه های ویژگی نزدیک به ترکیب ورودی از اطلاعات ساختار سطح پایین تشکیل شده اند ، شبکه رمزگذار در DNN از یک ساختار هرمی سلسله مراتبی برای استخراج ویژگی های ساختار سطح بالا استفاده می کند. علاوه بر این ، ماژول Transition Down با استفاده از نمونه گیری پایین و BCM ، اندازه نقشه ویژگی را کوچک می کند اما عمق نقشه ویژگی را با ماژول متصل متراکم (DCM) افزایش می دهد تا از تشکیل تنگناها در مسیر رمزگذاری جلوگیری شود. DCM مجموعه ای از لایه های BCM است و بین لایه ها همانطور که در شکل 2B نشان داده شده است ، بین لایه ها متصل است. هر لایه BCM در DCM یک نقشه ویژگی جدید ایجاد می کند و سپس با نقشه های ویژگی از همه لایه های قبلی قبل از انتقال آنها به لایه بعدی ، هماهنگ می شود. بر این اساس ، نقشه ویژگی خروجی DCM تمام نقشه های ویژگی از جمله نقشه ویژگی ورودی را که از تمام ویژگی های قبلی استفاده می کند ، ترکیب می کند تا تعداد پارامترهای شبکه را کاهش دهد. DCM ها می توانند از ویژگی های متنوع تری برخوردار باشند و راندمان پارامتر شبکه را بهبود بخشند [24].

در مرحله بعد ، شبکه رمزگشایی از انتقال و DCM ها برای بازسازی نقشه های ویژگی مکانی برای پیش بینی ساختار بر اساس ویژگی های رمزگذاری شده سطح بالا تشکیل شده است. ماژول Transition Up با استفاده از نمونه برداری و BCM برای گسترش اندازه نقشه ویژگی و کاهش عمق نقشه ویژگی. در همین حال ، ویژگی های رمزگذاری شده چند سطحی با اتخاذ اتصال پرش و جمع بندی مستقیم به عنوان اتصال باقیمانده در RESNET به مسیر رمزگشایی معرفی می شوند [21]. نقشه های ویژگی بازسازی شده و نقشه های ویژگی رمزگذاری شده با همان اندازه مستقیماً با پرش اضافه می شوند و همانطور که در شکل 2A نشان داده شده است به اتصال اضافه می شود. در مقایسه با FC-Densenet ، اتصال باقیمانده قادر به یادگیری اطلاعات دقیق تر به روشی کارآمدتر است. در نتیجه ، شبکه رمزگشایی یک نقشه خام با اندازه (l times l ) تولید می کند و برای اطمینان از یک ماتریس متقارن ، آن را به تقارن منتقل می کند. در تقارن ، نقشه خام با استفاده از آن اضافه می شود و برای کاهش تغییر متغیر متغیر داخلی به صورت عادی قرار می گیرد [25]. سرانجام ، شبکه یک نقشه نمره ( textbf ) با اندازه (l times l ) ، و عنصر (s_ ) نقشه نمره نشانگر نمره پایبندی برای دینوکلئوتید است (((b_i ، b_j) ).

  1. پردازش پس از پیش بینی ساختار
  2. در مرحله نهایی ، پردازش پس از آن لازم است تا جفت های پایه پیش بینی شده محدودیت های زیر را برای ساختار ثانویه RNA برآورده کنند.
  3. 1 پیوند پایه RNA از قوانین جفت واتسون-کریک و جفت شدن پیروی می کند.

2 حداقل طول حلقه موی حداقل 4 پایه است [26].

3 هر پایه را نمی توان با بیش از یک پایه جفت کرد.

مشکل پیدا کردن ساختار جفت پایه می تواند به عنوان یک بهینه سازی محدود شبیه به رویکردهای موجود در UFOLD و E2EFOLD تدوین شود [18 ، 27]. در این مشکل بهینه سازی ، هدف یافتن یک ساختار ثانویه RNA است که تمام محدودیت های ساختار را برآورده می کند و نمره کلی جفت شدن پایه را به حداکثر می رساند. فرض کنید (p in ^) نقشه تماس پیش بینی شده با ساختار جفت پایه مربوط به دنباله ورودی ( underline ) است ، جایی که عنصر (p_ in p ) یکی است اگر دینوکلئوتید (()(b_i ، b_j) in underline ) یک جفت پایه را تشکیل دهید. برای برآورده کردن محدودیت ساختار اول ، نقشه تماس باید از قوانین متعارف و مبهم پیروی کند که (p in m (au)+m (cg)+m (gu) ) ، جایی که m ماتریس تماس با توجه به یک خاص استدینوکلئوتید. علاوه بر این ، عنصر راه اندازی شده مورب (y_ ) اگر (| i-j |

جایی که ( omega ) فضای نمونه از کلیه ساختارهای احتمالی جفت پایه است که دو محدودیت ساختار اول را برآورده می کند ، و براکت ها ( langle cdot ، cdot ragle ) محصول داخلی ماتریس را نشان می دهد. از HyperParameter ( Rho ) برای کنترل تنظیم L 1 برای بهبود کمبود ماتریس تماس استفاده می شود. آخرین محدودیت ساختار را می توان از طریق محدودیت های نابرابری در بهینه سازی مورد بررسی قرار داد تا حداکثر یک عنصر غیرزرو در هر ردیف یا ستون محدود شود. بر این اساس ، معیار بهینه سازی این است که ساختار پیوند پایه را برآورده می کند که محدودیت های ساختار را برآورده می کند و همچنین به حداکثر رساندن شباهت با نقشه نمره ، و این مشکل بهینه سازی محدود می تواند با استفاده از روش Primal-Dual به طور مؤثر حل شود [27،28،29]بشرعلاوه بر این ، روش بهینه سازی محدود همچنین می تواند برای ساختار RNA با pseudoknots کارآمد باشد.

از آنجا که Redfold از ساختار رمزگذار رمزگذار با تکنیک بهینه سازی باقیمانده و بهینه سازی محدود استفاده می کند ، قادر است ساختار ثانویه RNA را به طور مؤثر تخمین بزند. پیچیدگی محاسباتی redfold (o (mn^2) ) است ، جایی که n طول توالی و m پارامترهای شبکه است. علاوه بر این ، می تواند از محاسبات موازی برای تسریع در محاسبه استفاده کند و از این رو توان کلی را افزایش دهد. در مقایسه با روشهای بهینه سازی ترمودینامیکی که به پیچیدگی زمان نیاز دارند (o (n^3) ) [30] ، Redfold یک روش بسیار کارآمد برای پیش بینی ساختار ثانویه RNA است.

نتایج و بحث<( ext + ext )>/<( ext + ext + ext + ext )>) , the sensitivity (SEN) = (frac>+ ext>) , and the positive predictive value (PPV) = (frac>+ ext>به منظور ارزیابی عملکرد روش پیش بینی ساختار پیشنهادی Redfold ، مجموعه داده Rnastralign [31] متشکل از 8 خانواده RNA به عنوان معیار برای ارزیابی عملکرد استفاده شد. از آنجا که برخی از سکانس ها در 16 خانواده S_RRNA با توجه به اکثریت مجموعه داده ها نسبتاً طولانی هستند ، توالی های با طول بیش از 720 پایه در معیار قرار نگرفتند. نشان داده شده است که از بین بردن دور از داده های آموزش جلوگیری می کند و از تعصب مدل در یک شبکه عصبی جلوگیری می کند و همچنین می تواند راندمان حافظه را برای تسریع در عملکرد محاسبات بهبود بخشد [32 ، 33]. علاوه بر این ، توالی RNA که حاوی پایه های ناشناخته هستند از معیار حذف شدند و معیار ساخته شده شامل 24315 توالی RNA در کل است. علاوه بر مجموعه داده RNASTRALIGN ، ما همچنین توالی RNA را از پایگاه داده RFAM 14. 6 [34 ، 35] برای ساخت معیار با NCRNA های متنوع برای ارزیابی عملکرد بیشتر گرفتیم. خانواده های RNA که بیش از 120 عضو دارند ، در این معیار انتخاب شدند ، از جمله 121 خانواده در کل. به عنوان یک نتیجه ، معیار NCRNA ساخته شده شامل 39،517 توالی RNA ، از جمله 11269 دنباله با ساختار Pseudoknot است. ترکیب نمونه ها با توجه به گروه های خاص خانواده NCRNA در معیار NCRNA در جدول S1 ذکر شده است (پرونده اضافی 1).

گزینه های باینری...
ما را در سایت گزینه های باینری دنبال می کنید

برچسب : نویسنده : سحر زکریا بازدید : 46 تاريخ : سه شنبه 14 شهريور 1402 ساعت: 11:13