Program przedmiotu “Opracowywanie danych w chemii” 1.Wprowadzenie: przegląd rodzajów danych oraz metod ich opracowywania. 2.Podstawowe pojęcia rachunku prawdopodobieństwa i statystyki matematycznej. 3.Podstawy analizy wyników pomiarów. Statystyczna weryfikacja hipotez. Analiza wariancji. 4.Dopasowywanie modeli a)Regresja liniowa pojedyncza i wielokrotna. b)Regresja nieliniowa. c)Analiza konfluentna. d)Porównywanie modeli. e)Metoda największej entropii. 5.Analiza skupień: grupowanie podobnych obiektów. 6.Analiza czynnikowa.
Literatura J. Czermiński i współautorzy, Metody statystyczne w doświadczalnictwie chemicznym. PWN, Warszawa. S. Brand, Analiza danych, PWN, Warszawa. A. Strzałkowski, A. Śliżyński, Matematyczne metody opracowywania wyników pomiarów, PWN, Warszawa. C. R. Rao, Modele liniowe statystyki matematycznej, PWN, Warszawa. R.G. Brereton, Chemometrics, Wiley. Sieber,Wild, Nonlinear regression, Wiley.
Pochodzenie danych Pomiar (np. pomiary fizykochemiczne) Obserwacja (np. zapis zmiany liczebności populacji na określonym terenie) Symulacja (np. symulacje dynamiki molekularnej ewolucji czasowej zespołów cząsteczek)
Metody analizy danych Analiza statystyczna (obliczanie średnich i rozrzutu, ocena wiarygodności pomiarów, ocena istotności różnic wielkości zmierzonych w różnych miejscach) Dopasowywanie modeli matematycznych do danych pomiarowych (np.analiza regresyjna i konfluentna) Analiza skupień (znajdowanie skupisk obiektów o podobnych cechach) Analiza czynnikowa (wyławianie czynników określających większość właściwości zbioru danych lub zjawiska)
Zastosowania Analiza statystyczna wyników pomiarów: chemia analityczna, chemia medyczna, technologia chemiczna. Dopasowywanie modeli: chemia fizyczna, chemia organiczna, krystalochemia i inne metody określania struktury cząsteczek, chemia teoretyczna, technologia chemiczna. Analiza skupień: analiza konformacyjna, QSAR. Analiza czynnikowa: QSAR, spektroskopia.
Rachunek prawdopodobieństwa A – zdarzenie E – przestrzeń wszystkich zdarzeń P(A) – prawdopowobieństwo zdarzenia A; liczba nieujemna określająca częstość jego występowania. P(E)=1 P(A+B)=P(A)+P(B) dla zdarzeń wykluczających się.
Prawdopodobieństwo warunkowe i niezależność zdarzeń P(A|B)=P(AB)/P(B) P(AB)=P(A|B)P(B) Zdarzenia A i B są niezależne jeżeli P(A|B)=P(A) czyli P(AB)=P(A)P(B)
Zmienne losowe i ich rozkłady Zmienna losowa: liczba przyporządkowana zdarzeniu Dystrybuanta: F(x)=P(y x) Gęstość prawdopodobieństwa: f(x)=dP(x)/dx Funkcja zmiennej losowej jest też zmienną losową.
F(x) x Dystrybuanta liczby oczek na jednej ścianie kostki dla rzutów idealnie symetryczną kostką.
Momenty rozkładu Dla zmiennych ciągłych: Jeżeli H(x)=(x-x c ) n to E{H(X)} nazywa się n-tym momentem x względem c; jeżeli c= to E jest n-tym momentem centralnym, n ({x}).
Użyteczne momenty centralne Wariancja Skrzywienie Kurtoza
Obliczanie momentów centralnych zbioru punktów
Przykłady momentów centralnych paru rozkładów
x f(x) Wartość najbardziej prawdopodobna (modalna): x m : f’(x m )=0, f’’(x m )<0 Mediana: x 0.5 : P(x<x 0.5 )=0.5 Wartość średnia:
Mediana i kwantyle x 0.5 x 0.2 x F(x) mediana x 0.9
Rozkład dwóch zmiennych i kowariancja
Sposoby przedstawiania rozkładów zmiennych losowych: 1.Wykresy liniowe (rozkłady jednowymiarowe). 2.Wykresy „rozproszone” (scatter plots) (dwuwymiarowe) 3.Histogramy
Rozkład normalny U = zmienna stadardyzowana
Wielowymiarowy rozkład normalny
Centralne twierdzenie graniczne Jeżeli x jest zmienną losową o wartości średniej a i wariancji b 2, to zmienna Ma rozkład normalny o wartości średniej a i wariancji b 2 /n.