Rafał Ślusarz - Technologia Informacyjna w Chemii

Celem ćwiczenia jest zapoznanie się z kilkoma wybranymi narzędziami chemicznymi dostępnymi on-line.
bazy chemiczne, sekwencje aminokwasowe, formaty plików

Na dysku Google utwórz katalog "Cwiczenie10", który później udostępnisz do oceny.

Narzędzia do wizualizacji.
Do łatwej wizualizacji trójwymiarowych struktur chemicznych, zapisanych zgodnie ze standardami mogą służyć różne narzędzia. Można wykorzystywać wtyczki (plugin's) do przeglądarek, które wyświetlą cząsteczkę wprost w oknie przeglądarki (np. Jmol), lub zapisywać je lokalnie i obrazować z użyciem dodatkowych programów. To drugie rozwiązanie stwarza zazwyczaj więcej możliwości, ponieważ dzięki wtyczce możemy oglądać, mierzyć i zmieniać reprezentację cząsteczki czy struktury bez możliwości jej obejrzenia po zmodyfikowaniu jej topologii lub geometrii (np. po ręcznym usunięciu atomu/grupy lub zoptymalizowaniu jej geometrii w polu sił).
Do własnych zastosowań najlepszy może okazać się jeden z dwóch programów:
RasMol: http://www.openrasmol.org/
znany nam już i doskonale opanowany program o otwartym kodzie. Niektóre dostępne wersje są nawet bezinstalacyjne (dstępny binarny plik wykonywalny wystarczy uruchomić).
PyMOL: http://www.pymol.org/
wieloplatformowy, o dużych możliwościach. Umożliwia edycję topologii i koordynatów, mutacje i tworzenie "od zera". Wymaga trochę samozaparcia do opanowania jego obsługi, jednak dla twardzieli może być narzędziem doskonałym. Posiada implementowane pola siłowe i współpracuje z bazą RCSB online - czego nie potrafi RasMol. Starsze wersje oraz wersja edukacyjna dostępne są bezpłatnie.
Jeżeli masz zainstalowany któryś z tych programów - będziesz mógł je wykorzystać do wizualizacji - w dalszej części tego ćwiczenia.
W pracowni TI nie musisz instalować żadnego z tych programów - wszystkie już tam są i czekają na uruchomienie ;)
Pozyskiwanie struktur.
Struktury peptydów, białek i kwasów nukleinowych dostępne są swobodnie w bazie RCSB PDB: http://www.rcsb.org/
Wszystkie struktury opisane są w możliwie pełny sposób, a więc nawet bez pobierania i samodzielnej inspekcji danej struktury można odnaleźć informacje na temat bibliografii, sekwencji aminokwasowych, informacje o strukturze drugorzędowej, współrzędnych atomów, często właściwości fizykochemicznych, funkcji biologicznych, występowania lub sposobu otrzymania i innych.
Interfejs WWW działa w języku angielskim zaś wyszukiwanie wymaga podania jedynie fragmentu nazwy poszukiwanego związku, PDB ID danego związku, lub nazwiska/nazwisk autorów, którzy opublikowali daną strukturę.
Wykonaj:
Przejdź na stronę RCSB PDB i odszukaj informacje o enzymie: papaina (użyj angielskiej nazwy: papain).
1. zwróć uwagę na to, czy w wynikach wyszukiwania znajdują się wyłącznie strony opisujące strukturę papainy
2. wśród wyników odszukaj stronę ze strukturą papainy (np. 9PAP)
3. odszukaj PDB ID tej struktury, sprawdź, jakie inne struktury ta struktura zastępuje (ang. "superseds", lub "previous versions")
  Wykonaj: Utwórz lokalnie plik tekstowy (TXT) i umieść w nim spis struktur, które zostały zastąpione przez zidentyfikowaną strukturą papainy odnalezione w tym podpunkcie; plik ma zawierać tylko nazwy tych struktur, np:
  1AAB
  2BBC
  3CCD
  4DDE
4. odszukaj symbol UniProtKB (UniProt Knowledgebase) sprawdź, dokąd prowadzi ten odnośnik
5. odszukaj właściwe cytowanie dla odnalezionej struktury (ang.: citation)
6. odszukaj informacje eksperymentalne na temat tej struktury (ang.: experimental data)
7. obejrzyj cząsteczkę wykorzystując umieszczone na stronie narzędzia wizualizacji on-line ("3D View")
8. pobierz cząsteczkę papainy w postaci pliku tekstowego PDB, zapisz lokalnie i obejrzyj w dowolnym, zainstalowanym programie wizualizacyjnym (druga dostępna opcja "PDB Format (gz)" może być przydatna w sytuacjach, kiedy przeglądarka nie dopuszcza pobierania plików z rozszerzeniem PDB):
Zapisz w katalogu "Cwiczenie10" na dysku Google dwa pliki: pobrany plik PDB (pkt. 2.h) i utworzony plik tekstowy (TXT) zawierający spis struktur (pkt. 2.c).
Sekwencje.
Przejdź na stronę UniProt: http://www.uniprot.org/
Dane udostępniane na tej stronie dotyczą nie tylko samych sekwencji aminokwasowych związków białkowych, ale można ich używać także do odnajdywania podobieństw sekwencyjnych i funkcjonalnych. My skupimy się na samych sekwencjach.
1. odszukaj informacje dostępne dla enzymu papaina (ang. "papain"; musi pochodzic z melonowca właściwego (papaja), ang/łac: "Carica papaya (papaya)")
2. wybierz z listy wyników stronę opisującą ten enzym, jego strukturę (lub sekwencję). Zwróć uwagę na to, żeby pochodził z właściwego organizmu (patrz: podpunkt powyzej)
3. porównaj odnalezione informacje z tymi udostępnionymi w RCSB PDB, w szczególności zwróć uwagę na długość łańcucha i bibliografię
4. przejdź do sekcji Structure z tabelą opisów:
  
  Ponad tą tabelą powinna uruchomić sie wtyczka "LiteMOL" wyświetlająca strukturę wybranego wpisu w tabeli. Przetestuj jej działanie.
5. odszukaj sekcję strony opisującą strukturę: strukturę drugorzędową ("Secondary structure") i sekwencję ("Sequence")
6. odszukaj sekcję opatrzoną nagłówkiem "3D structure databases" - zwróć uwagę na to, że wymienione są w niej odnośniki do konkretnych struktur trójwymiarowych m.in. w RCSB PDB - sprawdź jeden z odnośników (pierwszy na tej chronologicznej liście, na początku 2024 roku, jest 1BP4 - struktura oznaczona metodami rentgenografii strukturalnej z rozdzielczością 2,20 A; na tej samej liście znajduje się odnośnik do struktury oznaczonej ze znacznie lepszą rozdzielczością (niższą) - odszukaj go i obejrzyj strukturę papainy)
7. powróć na stronę z opisem papainy, znowu do sekcji "3D structure databases"
8. wszystkie odnośniki kierują do struktur, których sekwencje zgadzają się z papainą od reszty numer 134 - zastanów się, dlaczego tak może być?
9. potwierdź, że dopiero później (niżej) w sekcji 3D structure databases pojawiają się podsekcje "PDBe-KB" i "Modbase" (bazy struktur teoretycznych)
10. odszukaj w sekcji Sequence odnośnik zatytułowany "FASTA" lub po prostu "Download" (wybierz opcję "Fasta (canonical)") - sprawdź, dokąd prowadzi; zapisz uzyskany plik tekstowy.
Może to być także przycisk "Download" dla pobrania pliku FASTA:
Prześlij uzyskany plik z sekwencją (uzyskany z narzędzia FASTA) na dysk Google, do katalogu "Cwiczenie10".
Konwersje formatów.
1. Zapis sekwencji.
  Dysponując konkretnym plikiem ze strukturą możemy zamienić zapisaną w nim sekwencję aminokwasów np. z pliku PDB na sekwencję reprezentowaną skrótami jednoliterowymi korzystając np. z usługi dostępnej pod adresem: https://swift.cmbi.umcn.nl/servers/html/soupir.html
  1) Przejdź pod podany adres, wydobądź i skonwertuj na sekwencję jednoliterową zawartość tego pliku PDB. Zachowaj stronę z wynikiem (z sekwencją) - np. w oddzielnej karcie przeglądarki, lub zapisz otrzymany plik sequence.pir (plik tekstowy) do późniejszego porównania.
  UWAGA techniczna: jeżeli witryna nie chce współpracować i zamiast podać skonwertowaną sekwencję wypisze, że "nie ma takiego pliku", zwróć uwagę, czy w pasku adresu znajduje się hash - czyli fragment, który nie jest słowem (nazwą katalogu), a za nim nazwa pliku, który mieliśmy pobrać (sequence.pir).
  
  Jeżeli tak, to wina lezy po stronie serwisu - po prostu "coś" im nie działa - w majestacie prawa możemy porzucić ten i kolejny podpunkt (przejść wprost do "B"). Jeżeli nie - należy powtórzyć czynności.
  2) Korzystając z tego samego interfejsu (adres powyżej) wpisz w polu kodów PDB oznaczenie: 1L9H - przejdź kolejno do wyników i porównaj je z tymi otrzymanymi w poprzednim kroku. Jeżeli obydwie sekwencje są identyczne, to w nagrodę możesz obejrzeć plik 1L9H w RasMolu lub PyMolu. Koniecznie sprawdź też zawartość tego pliku (tekstowo: np. w Notatniku), dla sprawdzenia, czy nie zawiera on po prostu jednoliterowej sekwencji rodopsyny.
  Ilustracja do dwóch powyższych punktów:
2. Kody reszt aminokwasowych.
  Polecenie "do wykonania" znajduje się dopiero w następnym akapicie; ten akapit (zawierający cztery różne odnośniki) tylko przeczytaj.
  Do konwersji sekwencji zapisanych kodem jednoliterowym na trójliterowy i odwrotnie można użyć np. narzędzia umieszczonego pod adresem: http://molbiol.ru/eng/scripts/01_17.html lub pod innym adresem: https://www.bioline.com/media/calculator/01_17.html, można też użyć translatorów, które konwertują oddzielnie ("3-to-1" lub "1-to-3", ale użycie akurat ich wymaga zapisywania sekwencji bez myślników i z nagłówkami).
  Wykonaj: przejdź pod jeden z zaproponowanych wyżej adresów i skonwertuj znaną Ci już sekwencję jednoliterową receptora rodopsynowego 1L9H na jej trójliterowy odpowiednik. Jeżeli z przyczyn technicznych nie dysponujesz swoim plikiem "sequence.pir" - użyj tego pliku (zawiera wyłącznie sekwencję jednoliterową rodopsyny). Porównaj otrzymany wynik z sekwencją zapisaną w zapisanym lokalnie pliku rd_1l9h.pdb (zapis sekwencji aminokwasowej rozpoczyna się w 381 linii pliku).
3. Format pliku.
  Struktury chemiczne można zapisywać na wiele sposobów - w wielu formatach. Najpopularniejsze z nich, to PDB lub XYZ i MOL2. Korzystając z konwertera on-line dostępnego pod adresem: http://cdb.ics.uci.edu/cgibin/BabelWeb.py skonwertuj (zmień format) pliku pobranego w punkcie 4.A.1) z PDB (Input Format: Protein Databank) na MOL2 (output: Tripos Sybyl Mol2)
  Uwaga: formularz wymaga, aby najpierw wczytać plik do konwersji, a dopiero potem wybrać formaty: wejściowy i wyjściowy. Jeżeli nie posiadasz własnej kopii tego pliku (sequence.pir) - pobierz ją (ponownie) z treści punktu 4.B
  Aby zapisać lokalnie skonwertowany plik, należy zaznaczyć CAŁY tekst w dolnej części formularza (wynik konwersji) i wkleić go do pliku teksotwego - koniecznie do NOTATNIKA lub innego etytora tekstowego (TXT; w pracowni TI użyj do tego "Edytora tekstowego" - gedit), a NIE DO WORD'a lub innego edytora z pakietu biurowego. Nowemu plikowi należy nadać rozszerzenie "mol2".
  JEŻELI wskazany powyżej konwerter NIE DZIAŁA, to użyj tego: https://datascience.unm.edu/tomcat/biocomp/convert
  W tym konwerterze format wejściowy jest wykrywany automatycznie, więc nie trzeba go podawać, zaś w formacie wyjściowym wybierz - jak poprzednio"mol2 - Tripos MOL2". Po uruchomieniu przycisku "Go Convert" pobierz skonwertowany plik "convert_out.mol2" (w sekcji "Results") i postępuj z nim tak, jak opisano to powyżej.
  Uzyskaną strukturę zapisz lokalnie i obejrzyj zainstalowanym u siebie programem do wizualizacji (w pracowni może to być "Chimera" lub "PyMol"; w RasMol'u należy wyspecyfikować format ładowanego pliku:
  rasmol -mol2 nazwa_pliku.mol2
  - z linii poleceń lub "load mol2 nazwa_pliku.mol2" z commandline'a wewnątrz RasMol'a; w niektórych wersjach RasMola trzeba włączyć tę linię poleceń (F7)).
  Porównaj ją z oryginalnym plikiem PDB oglądanym w tym samym programie. Czy po konwersji formatu zmieniła się geometria oglądanej cząsteczki? Czy powinna się zmienić?
  Uwaga: niektóre wersje RasMol'a mają problem z interpretacją formatu MOL2 w ogóle. W takich przypadkach zamiast cząsteczki będzie widoczna "rozciągnięta galaktyka". Jeżeli nie jest widoczne nic - to problem jest innej natury: albo dokonano złej konwersji, albo nie podano formatu podczas wczytywania pliku. Tak, czy inaczej - nie ma się co przejmować takim, lub innym wyglądem tego pliku - należy go przesłać do oceny.
Prześlij na dysk Google, do katalogu "Cwiczenie10" skonwertowaną cząsteczkę (w formacie "mol2").
Odczytywanie widm.
Wiele baz zawiera gotowe widma otrzymane eksperymentalnie. Jedną z nich jest baza dostępna pod adresem: https://webbook.nist.gov/chemistry/
1. przejdź pod wskazany adres
2. w opcjach wyszukiwania (Search Options) wybierz poszukiwanie wg nazwy (General Searches > Name)
3. w formularzu wpisz toluen (ang. toluene)
4. poniżej, w opcjach wyszukiwania zaznacz opcję poszukiwania widma w podczerwieni (Select the desired type(s) of data > IR Spectrum)
5. zatwierdź swój wybór (Search)
6. na kolejnej stronie, z charakterystyką, odszukaj odnośnik do widma w podczerwieni (IR Spectrum) roztworu toluenu (solution)
7. obejrzyj zdigitalizowane widmo w podczerwieni toluenu w roztworze
8. pod wykresem zmień opcję Transmittance na Absorbance
9. odszukaj pasma charakterystyczne absorpcji - spisz je do późniejszego porównania, lub pozostaw otwartą kartę z widmem
Powstały obraz (widmo IR wyrażone jako zmiana absorbancji toluenu) zapisz pod nazwą abs_toluen.png (metodą zrzutu ekranu) i prześlij do katalogu "Cwiczenie10" na swoim dysku Google.

Na stronie Webbok Chemistry (pod podanym wyżej adresem) odszukaj możliwość poszukiwania struktury (Structure) na podstawie wykonanego własnoręcznie rysunku (Use applet to draw a structure). W aplecie Javy narysuj benzen i wybierz Done... (nie zapomnij narysować odpowiedniej ilości wiązań podwójnych, które aplet zamieni na wiązanie zdelokalizowane). W ramce, która się pojawi zaznacz wyszukiwanie widma IR i zatwierdź wybór.

Uwaga: Jeżeli w używanej przez Ciebie przeglądarce nie ma możliwości uruchomienia Javy - wykorzystaj ponownie wyszukiwanie z użyciem wzoru sumarycznego (ang. formula, użyj wzoru: C6H6; wśród wyników wyszukiwania wybierz właściwy związek: "benzene"; nie używaj wyszukiwania wg nazwy).
Na kolejnej stronie poszukaj odnośnika do widma IR w roztworze (solution) i je obejrzyj. Upewnij się, ze porównujesz widmo absorbancji. Sprawdź, którego pasma charakterystycznego (lub których pasm) tym razem nie obserwujesz w wykresie absorbancji w stosunku do oglądanego poprzednio widma toluenu ("jakie są różnice w widmach"; wniosków/odpowiedzi na to pytanie nie musisz zapamiętywać ani nigdzie zapisywać...).
Powstały obraz (widmo IR wyrażone jako zmiana absorbancji benzenu) zapisz pod nazwą abs_benzen.png i prześlij do katalogu "Cwiczenie10" na swoim dysku Google.

Katalog "Cwiczenie10" na dysku Google udostępnij na zwykły (ten, co zawsze) adres (powinien zawierać 6 plików).

Ćwiczenie 10