پایگاه های داده پروتئین – تعریف، انواع، مثال ها، موارد استفاده

پایگاه داده های پروتئینی نوعی پایگاه داده بیولوژیکی هستند که مجموعه ای از اطلاعات در مورد پروتئین ها هستند.

اطلاعات موجود در پایگاه های داده پروتئین شامل توالی اسید آمینه، ساختار دامنه، عملکرد بیولوژیکی پروتئین، ساختار سه بعدی آن و برهمکنش آن با پروتئین های دیگر است.

پایگاه داده های پروتئین

چندین پایگاه داده پروتئین به صورت عمومی در دسترس هستند. بر اساس نوع اطلاعات ذخیره شده، این پایگاه ها را می توان به چند دسته طبقه بندی کرد. برخی از رایج ترین دسته به شرح زیر است:

پایگاه های داده توالی پروتئین

protein sequence database حاوی توالی اسید آمینه پروتئین ها و اطلاعات مرتبط است. توالی اسید آمینه یک پروتئین مهم است زیرا ساختار و عملکرد سه بعدی پروتئین و همچنین هویت آن را تعیین می کند.

برخی از محبوب ترین پایگاه داده های توالی پروتئین عبارتند از:

PIR (منبع اطلاعات پروتئین) یک پایگاه داده توالی پروتئینی محبوب است که اطلاعاتی در مورد توالی های پروتئینی دارای حاشیه نویسی عملکردی ارائه می دهد.

منبع اطلاعات پروتئین دارای سه پایگاه داده است، پایگاه داده توالی پروتئین (PSD)، پایگاه داده توالی مرجع غیر زائد (NREF) و پایگاه داده طبقه بندی پروتئین یکپارچه (iProClass) که حاوی توالی پروتئین مشروح، اطلاعات طبقه بندی، و خانواده پروتئین، عملکرد، و اطلاعات ساختار است.

SWISS-PROT یک پایگاه داده توالی پروتئین است که سطوح بالایی از حاشیه نویسی، از جمله اطلاعات مربوط به عملکرد پروتئین، ساختار دامنه، تغییرات پس از ترجمه و انواع پروتئین را ارائه می دهد.

این پایگاه به طور مشترک توسط SIB (موسسه بیوانفورماتیک سوئیس) و EBI (موسسه بیوانفورماتیک اروپایی) مدیریت می شود.

پایگاه داده با سه معیار خود را از سایر پایگاه‌های اطلاعاتی توالی پروتئین متمایز می‌کند: (الف) حاشیه‌نویسی، که طیف وسیعی از اطلاعات را پوشش می‌دهد، (ب) حداقل افزونگی، که تضمین می‌کند هر دنباله فقط یک بار نشان داده می‌شود، و (پ) ادغام با پایگاه‌های داده دیگر. که امکان ارجاع متقابل و بازیابی اطلاعات از پایگاه های داده مرتبط را فراهم می کند.

TrEMBL یک مکمل حاشیه نویسی کامپیوتری از Swiss-Prot است. ورودی های TrEMBL از فرمت Swiss-Prot پیروی می کنند.

این شامل تمام ترجمه های EMBL (آزمایشگاه زیست شناسی مولکولی اروپایی) ورودی های توالی نوکلئوتیدی است که هنوز در Swiss-Prot ادغام نشده اند.

پایگاه داده ساختار پروتئین

Protein structure databases مجموعه ای از اطلاعات مربوط به ساختار سه بعدی و ساختار ثانویه پروتئین ها هستند.

چندین نمونه از پایگاه داده ساختار پروتئین وجود دارد. برخی عبارتند از:

PDB (بانک داده های پروتئینی) یک مخزن جهانی از داده های ساختار سه بعدی در مولکول های بزرگ مانند پروتئین ها، اسیدهای نوکلئیک و سایر ماکرومولکول های بیولوژیکی است.

بانک داده های پروتئینی مدل‌های ساختاری سه‌بعدی ماکرومولکول‌ها را که از طریق سه روش تجربی پرکاربرد به دست آمده‌اند، ذخیره می‌کند: کریستالوگرافی اشعه ایکس، طیف‌سنجی تشدید مغناطیسی هسته‌ای (NMR)، و میکروسکوپ الکترونی (3DEM).

SCOP (طبقه بندی ساختاری پروتئین ها) یک پایگاه داده ساختار پروتئین است که پروتئین ها را بر اساس ویژگی های ساختار ثانویه آنها سازماندهی می کند.

این پایگاه پروتئین ها را بر اساس روابط تکاملی و شباهت های ساختاری آنها به سطوح مختلف دسته بندی می کند.

پروتئین هایی با هویت توالی بالا یا ساختار و عملکرد مشابه در خانواده ها گروه بندی می شوند و خانواده هایی با ساختارهای مشابه اما هویت توالی پایین در ابرخانواده ها قرار می گیرند.

پروتئین‌هایی با ساختارهای ثانویه اصلی یکسان در آرایش یکسان در همان دسته فولد قرار می‌گیرند و فولدها بیشتر در پنج کلاس ساختاری گروه‌بندی می‌شوند.

CATH یک پایگاه داده است که دامنه های پروتئین را بر اساس الگوهای تاشو به سطوح سلسله مراتبی دسته بندی می کند.

دامنه های پروتئینی در سلسله مراتب CATH طبقه بندی می شوند که از چهار سطح افزایش ویژگی تشکیل شده است: کلاس، معماری، توپولوژی و ابرخانواده همولوگ. دامنه هایی که الگوهای تاشو مشابهی دارند در سطوح بالاتر سلسله مراتب با هم گروه بندی می شوند.

پایگاه داده های تعامل پروتئین-پروتئین

پایگاه های اطلاعاتی برهمکنش پروتئین-پروتئین مجموعه ای از اطلاعات در مورد برهمکنش بین پروتئین ها هستند. این پایگاه های اطلاعاتی اطلاعات ارزشمندی در مورد روابط بین پروتئین های مختلف و عملکرد آنها در سیستم های بیولوژیکی ارائه می دهند.

نمونه هایی از پایگاه داده های تعامل پروتئین-پروتئین عبارتند از:

BIND (پایگاه داده شبکه تعامل بیومولکولی) یک پایگاه داده است که توضیحات مفصلی از برهمکنش ها، کمپلکس های مولکولی و مسیرهای بین مولکول های زیستی مختلف از جمله پروتئین ها، اسیدهای نوکلئیک و مولکول های کوچک را ذخیره می کند.

پایگاه داده برای استفاده برای داده کاوی طراحی شده است و می تواند برای مطالعه شبکه های تعاملات و نقشه مسیرها در گونه های مختلف مورد استفاده قرار گیرد. پایگاه داده همچنین می تواند اطلاعاتی را برای شبیه سازی جنبشی (kinetic simulations) ارائه دهد.

DIP (پایگاه داده پروتئین های متقابل) یک پایگاه داده است که حاوی اطلاعات برهمکنش پروتئین-پروتئین است که از طریق روش های دستی و محاسباتی گردآوری شده است.

برای درک عملکرد پروتئین و روابط آنها با سایر پروتئین ها مفید است. همچنین می‌توان از آن برای مطالعه ویژگی‌های شبکه‌های پروتئین‌های متقابل، ارزیابی پیش‌بینی‌های برهمکنش‌های پروتئین-پروتئین، و کشف تکامل این برهمکنش‌ها استفاده کرد.

MINT (تعامل مولکولی) یک پایگاه داده است که اطلاعات مربوط به برهمکنش های عملکردی بین مولکول های بیولوژیکی مانند پروتئین ها، RNA و DNA را ذخیره می کند.

همچنین اطلاعات مربوط به تغییرات آنزیمی مولکول های شریک را ذخیره می کند.

پایگاه داده در درجه اول بر تعاملات پروتئین-پروتئین تأیید شده تجربی متمرکز است و روابط مستقیم و غیرمستقیم را در نظر می گیرد.

پایگاه داده الگوی پروتئین و پروفایل

الگوی پروتئین و پایگاه داده پروفایل حاوی اطلاعاتی در مورد نقوش موجود در توالی است. موتیف های توالی با ویژگی های ساختاری یا عملکردی در پروتئین ها مطابقت دارند. بنابراین، استفاده از الگوها یا پروفایل های توالی پروتئین ابزار ارزشمندی در تعیین عملکرد پروتئین ها است.

InterPro یک پایگاه داده است که حاوی اطلاعاتی در مورد خانواده های پروتئینی، دامنه ها و سایت های کاربردی است.

با ترکیب چندین پایگاه داده اصلی  پروتئین، از جمله PROSITE، Pfam، PRINTS، ProDom و SMART در یک منبع جامع ایجاد شد.

PROSITE مجموعه‌ای از نشان ها است که الگوها یا پروفایل‌ها را در پروتئین‌ها شناسایی می‌کند و می‌تواند اطلاعاتی در مورد عملکردهای بیولوژیکی آنها ارائه دهد.

نشان های موجود در پایگاه داده به اسناد حاشیه نویسی مرتبط هستند که اطلاعاتی در مورد خانواده پروتئین یا دامنه شناسایی شده، از جمله نام، عملکرد، ساختار سه بعدی و منابع آن ارائه می دهند.

پایگاه های داده مسیر متابولیک

پایگاه داده های مسیر متابولیک حاوی اطلاعاتی در مورد آنزیم ها، واکنش های بیوشیمیایی و مسیرهای متابولیک هستند.

ENZYME یک پایگاه داده است که اطلاعات مربوط به نامگذاری آنزیم ها را ذخیره می کند.

این به عنوان منبع نامگذاری برای نام آنزیم ها و واکنش ها توسط اکثر پایگاه های داده متابولیک و همچنین سایر پایگاه های داده بیومولکولی استفاده می شود.

KEGG  یک پایگاه داده جامع است که مسیرهای مولکولی و سلولی شامل برهمکنش بین ژن ها و مولکول ها را ترسیم می کند.

از نقشه های مسیر، جداول مولکولی، جداول ژن و نقشه های ژنوم تشکیل شده است و برای ساختن نقشه های عملکردی مسیرهای متابولیک و تنظیمی استفاده می شود.

کاربردهای پایگاه داده پروتئین

پایگاه داده های پروتئین کاربردهای متعددی دارند. برخی از برنامه های کاربردی عبارتند از:

  • protein databases را می توان در تجزیه و تحلیل توالی برای شناسایی توالی های همولوگ و پیش بینی توابع پروتئین بر اساس شباهت توالی استفاده کرد.
  • همچنین می توان از پایگاه داده های پروتئینی برای پیش بینی ساختار پروتئین با مقایسه توالی اسید آمینه یک پروتئین با ساختارهای شناخته شده در پایگاه داده استفاده کرد.
  • پایگاه های داده پروتئین همچنین شامل ابزارهایی برای مطالعه برهمکنش های پروتئین-پروتئین هستند.
  • الگوی پروتئین و پایگاه داده پروفایل را می توان برای شناسایی خانواده پروتئین با شناسایی موتیف های حفاظت شده استفاده کرد.
  • protein databases مانند پایگاه های داده مسیر متابولیک را می توان در کشف دارو و تحقیقات بیماری با مطالعه مسیرهای متابولیک درگیر در بیماری ها استفاده کرد.
Protein Databases
Protein Sequence Databases
Protein Information ResourcePIR
Swiss Institute of Bioinformatics & European Bioinformatics InstituteSWISS-PROT
Translated European Molecular Biology LaboratoryTrEMBL
Protein Structure Databases
Protein Data BankPDB
Structural Classification of ProteinsSCOP
Class, Architecture, Topology, and Homologous SuperfamilyCATH
Protein-Protein Interaction Databases
Biomolecular Interaction Network DatabaseBIND
Database of Interacting ProteinsDIP
Molecular InteractionMINT
Protein Pattern and Profile Databases
InterPro functionally analyzes protein sequences and classifies them into protein families while predicting the presence of domains and functional sites.InterPro
a protein domain database for functional characterization and annotation.PROSITE
Metabolic Pathway Databases
ENZYME
Kyoto Encyclopedia of Genes and GenomesKEGG

درحال حاضر مجموعه کیمیا زیست گستر نوین قادر به ارائه انواع مواد اولیه با گریدهای غذایی، دارویی، آرایشی، بهداشتی و صنعتی در حجم های بالا و کیفیت عالی از تولید کننده های معتبر می باشد. درصورت نیاز می توانید درخواست خود را با ما درمیان گذاشته تا در سریعترین زمان ممکن اطلاعات لازم را در اختیارتان قرار دهیم.