Marta Molińska-Glura, Krzysztof Moliński Wisła, grudzień 2010 Wykorzystanie informacji rodowodowej lub podobieństwa molekularnego do określenia postaci dyspersji efektów genetycznych w liniowym modelu mieszanym z dwoma komponentami Marta Molińska-Glura, Krzysztof Moliński Wisła, grudzień 2010
Tworzenie macierzy spokrewnień w oparciu o rodowód Tworzenie macierzy podobieństw molekularnych w oparciu o różne miary podobieństwa Model liniowy z dwoma komponentami Estymacja komponentów metodą REML Kryterium wyboru modelu
Predykcja efektów genetycznych nazywanych wartościami hodowlanymi roślin lub zwierząt ma istotne znaczenie w selekcji osobników. Efekty genetyczne w naukach medycznych najczęściej skojarzone są z odziedziczalnością pewnych cech (chorób).
I. Tworzenie macierzy spokrewnień w oparciu o rodowód Konstrukcja klasycznego rodowodu w postaci tabelarycznej rozpoczyna się od uporządkowania posiadanych obiektów oraz przypisaniu im rodziców. Możliwe jest również umieszczenie w tabeli rodowodowej osobników o nieokreślonych przodkach. Poniżej zamieszczono fragment przykładowej tabeli rodowodowej: Odmiany kukurydzy o nieznanym pochodzeniu Odmiany kukurydzy z pełną informacją rodowodową
Informacje zawarte w tabelarycznej postaci rodowodu mogą posłużyć do wyznaczenia macierzy spokrewnień. Na podstawie prac Wright`a (1922) i późniejszych Henderson`a (1988) możemy przedstawić wzory definiujące elementy tej macierzy: 𝑎 𝑖𝑗 = 𝑎 𝑗𝑖 = 1 2 𝑎 𝑠 𝑖 + 𝑎 𝑑 𝑖 𝑎 𝑖𝑖 =1+ 1 2 𝑎 𝑠 𝑖 𝑑 𝑖 gdzie 𝑎 𝑠 𝑖 oraz 𝑎 𝑑 𝑖 oznaczają wyznaczoną informację rodowodową, odpowiednio ojca i matki, dla i-tego osobnika, 𝑎 𝑠 𝑖 𝑑 𝑖 oznacza stopień spokrewnienia ojca i matki i-tego osobnika.
Korzystając z tabelarycznej postaci rodowodu i wcześniejszych wzorów na określanie współczynników pokrewieństwa rodowodowego, odpowiednia macierz spokrewnień przyjmuje postać:
II. Tworzenie macierzy podobieństw molekularnych w oparciu o różne miary podobieństwa 1. Przetworzenie obrazu na tablicę zawierającą odpowiednie wartości mas molekularnych charakteryzujące strukturę każdego z obiektów. 2. Zastosowanie znanych miar podobieństwa molekularnego bazujących na zestawie mas molekularnych . 3. Wartości podobieństw molekularnych jako składowe macierzy podobieństw molekularnych.
Przykładowy obraz widma uzyskany dzięki elektroforezie metodą PCR
Najpopularniejszymi miarami oznaczania podobieństwa molekularnego są: Miara Nei-Li 𝐺 𝑖𝑗 = 2 𝑁 𝑖𝑗 𝑁 𝑖 + 𝑁 𝑗 Miara Kulczyńskiego 𝐺 𝑖𝑗 = 𝑁 𝑖𝑗 𝑁 𝑖 + 𝑁 𝑗 2 𝑁 𝑖 𝑁 𝑗 Miara Jaccarda 𝐺 𝑖𝑗 = 𝑁 𝑖𝑗 𝑁 𝑖 + 𝑁 𝑗 − 𝑁 𝑖𝑗 𝑁 𝑖 to liczba „prążków” dla i-tego obiektu, 𝑁 𝑗 to liczba „prążków” dla j-tego obiektu, 𝑁 𝑖𝑗 to liczba „prążków” dla i-tego i j-tego obiektu występujących na tych samych pozycjach.
Korzystając z wyników analiz molekularnych metodą RAPD i wzoru Nei`a-Li określających podobieństwo molekularne odpowiednia macierz podobieństw molekularnych przyjmuje postać:
III. Model liniowy z dwoma komponentami 𝑦=𝑋𝛽+𝑍𝑢+𝑒 𝑦 𝑛×1 wektor obserwowanych zmiennych losowych 𝑋 𝑛×𝑝 macierz dla parametrów stałych, pełnego rzędu kolumnowego 𝛽 𝑝×1 wektor parametrów stałych 𝑍 𝑛×𝑞 macierz dla efektów losowych 𝑢 𝑞×1 wektor losowych efektów obiektowych 𝑒 𝑛×1 wektor błędów losowych
Założenia: Dla wektora błędów losowych 𝑒 zakładamy: 𝑒~ 𝑁 𝑛 0, 𝜎 𝑒 2 𝐼 𝑛 . Dla wektora zmiennych losowych 𝑢: 𝑢~ 𝑁 𝑞 0, 𝜎 𝑢 2 𝐻 , gdzie 𝜎 𝑢 2 𝐻 oznacza dyspersję wektora losowego 𝑢. Ponadto, wektory losowe 𝑢 i 𝑒 są niezależne, oraz 𝜎 𝑒 2 >0 i 𝜎 𝑢 2 ≥0 są tzw. komponentami wariancji, reprezentującymi odpowiednio wariancję błędów eksperymentalnych oraz wariancję losowych efektów obiektowych.
Przy wcześniejszych założeniach możemy zapisać: 𝑦~ 𝑁 𝑛 𝑋𝛽,𝑉 𝑉= 𝜎 𝑒 2 𝜌𝑍𝐻𝑍`+ 𝐼 𝑛 𝜌= 𝜎 𝑢 2 𝜎 𝑒 2 jest ilorazem komponentów wariancji
IV. Estymacja komponentów metodą REML Spośród wielu metod estymacji komponentów wariancji wybrano znaną metodę REML. Stąd uzasadnione jest przyjęcie we wstępie założenia o normalności rozkładu zmiennej losowej 𝑦. Zasada metody REML polega na wydzieleniu w funkcji gęstości wielowymiarowego rozkładu normalnego dwóch czynników, z których pierwszy wystarcza do estymacji komponentów wariancji (nie zależy od wektora parametrów stałych), drugi zaś zależy zarówno od wektora parametrów stałych jak i komponentów wariancji. W rozważanym modelu podział ten daje się zapisać: 𝑔 𝑦 𝜎,𝛽 = 𝑔 1 𝑀 1 𝑦 𝜎 ∙ 𝑔 2 𝑀 2 𝑦 𝜎,𝛽 𝑔, 𝑔 1 , 𝑔 2 oznaczają odpowiednie funkcje gęstości wielowymiarowego rozkładu normalnego oraz wymienionych wyżej czynników. Macierz 𝑀 1 jest podmacierzą pełnego rzędu wierszowego macierzy: 𝐼 𝑛 −𝑋 𝑋 ` 𝑋 −1 𝑋 ` oraz 𝑀 2 = 𝑋 ` 𝑉 −1 , 𝜎= 𝜎 𝑢 2 , 𝜎 𝑒 2
Dalsze postępowanie polega na niezależnej maksymalizacji funkcji 𝑔 1 i 𝑔 2 . Postępowanie to sprowadza się rozwiązania układu równań nieliniowych: 𝑆𝜎=𝑞, w którym elementy 𝑠 𝑖𝑗 macierzy 𝑆 oraz 𝑞 𝑖 wektora 𝑞 𝑖,𝑗=0,1,⋯,𝑚 mają następującą postać ogólną (zależną od nieznanych 𝜎 𝑖 2 , 𝑖=0,1,⋯,𝑚): 𝑠 𝑖𝑗 =𝑡𝑟 𝑃 𝑉 𝑖 𝑃 𝑉 𝑗 𝑞 𝑖 = 𝑦 ` 𝑃 𝑉 𝑖 𝑃𝑦 , gdzie 𝑃= 𝑉 −1 − 𝑉 −1 𝑋 𝑋 ` 𝑉 −1 𝑋 − 𝑋 ` 𝑉 −1
V. Kryterium wyboru modelu Predyktor dla wektora efektów losowych 𝑢 = 𝜎 𝑢 2 𝐻 𝑍 ` 𝑉 −1 𝑦−𝑋 𝛽 =𝜌𝐻 𝑍 ` 𝜌𝑍𝐻 𝑍 ` + 𝐼 𝑛 −1 𝑦−𝑋 𝛽 𝛽 = 𝑋 ` 𝑊𝑋 −1 𝑋 ` 𝑊𝑦 𝑢 =𝜌𝐻 𝑍 ` 𝜌𝑍𝐻 𝑍 ` + 𝐼 𝑛 −1 𝑦−𝑋 𝑋 ` 𝑊𝑋 −1 𝑋 ` 𝑊𝑦 =⋯= =𝜌𝐻 𝑍 ` 𝑉 −1 − 𝑉 −1 𝑋 𝑋 ` 𝑉 −1 𝑋 −1 𝑋 ` 𝑉 −1 𝑦=𝜌𝐻 𝑍 ` 𝑃𝑦 gdzie 𝑊= 𝑉 −1 oraz 𝝆= 𝝈 𝒖 𝟐 𝝈 𝒆 𝟐
1. W miejsce macierzy 𝜎 𝑢 2 𝐻 przyjmujemy macierz 𝜎 𝑖 2 𝐼 𝑞 nieznana struktury zależności między obiektami 2. W miejsce macierzy 𝜎 𝑢 2 𝐻 przyjmujemy 𝜎 𝑎 2 𝐴 macierz 𝐴 zawiera wartości współczynników pokrewieństwa rodowodowego (animal model-model zwierzęcia) 3. W miejsce macierzy 𝜎 𝑢 2 𝐻 przyjmujemy 𝜎 𝑔 2 𝐺 macierz 𝐺 zawiera wartości współczynników podobieństwa molekularnego