Promotor: prof. dr hab. Włodzisław Duch Radosław Rydzyński Promotor: prof. dr hab. Włodzisław Duch
Plan prezentacji Krótkie przypomnienie tematu Wykorzystanie Google API do pozyskania linków Konfiguracja niestandardowej wyszukiwarki Przetwarzanie otrzymanych wyników
Temat pracy Szukanie informacji w bazach tekstowych - wyszukiwanie stron zawierających maksymalnie dużo informacji.
Cel pracy Stworzenie aplikacji internetowej zawierającej spis odnalezionych stron posortowanych ze względu na ilość szczegółowych informacji zawartych w tekście. Ponadto aplikacja ma zawierać dodatkowe statystyki, takie jak: popularność artykułu, ilość odnośników do pracy, data pierwszej publikacji itp.
Jak uzyskać linki? Parsowanie strony google z wynikami wyszukiwania – ta opcja ma spore ograniczenia, Użycie API Google – opcja wybrana przeze mnie.
Co musimy zrobić? założyć konto Google (o ile takiego nie posiadamy), skonfigurować niestandardową wyszukiwarkę, aktywować Custom Search API w konsoli Google oraz uzyskać APIKey.
Konfiguracja niestandardowej wyszukiwarki
Modyfikacje W każdej chwili możemy: Dokonać zmiany nazwy, opisu, słów kluczowych oraz języka wyszukiwarki, Dodawać i usuwać witryny, z których wyszukujemy, Dodać doprecyzowanie wyszukiwania, synonimy, autouzupełnianie po rozpoczęciu pisania w polu wyszukiwania.
Uzyskiwanie APIKey oraz zaawansowane opcje wykorzystania Custom Search API
Jak uzyskać APIKey? Najpierw należy aktywować opcję „Custom Search API” w konsoli aplikacji, Następnie uzyskujemy nasz API Key z zakładki API Access również z konsoli aplikacji
Używanie JSON Custom Search API https://www.googleapis.com/customsearch/v1?parameters Link służy do wyświetlania informacji o szukanej frazie w formacie JSON lub XML. W miejscu parameters należy wstawić parametry oddzielone &
Parametry użytkownika key APIKey alt Format danych (JSON, ATOM) prettyPrint Bardziej przejrzyste formatowanie
Parametry zapytania q Zapytanie, czyli to co chcemy wyszukać cx ID wyszukiwarki, za pomocą której będą wyszukiwane wyniki cr Wyszukiwanie tylko w podanym kraju, np. countryPL num Liczba rezultatów
Identyfikuje frazę, którą każdy wynik wyszukiwania musi posiadać exactTerms Identyfikuje frazę, którą każdy wynik wyszukiwania musi posiadać excludeTerms Identyfikuje frazę, której wynik wyszukiwania nie może posiadać filetype Typ pliku (np. pdf, doc) rights Licencja
Przydatne linki Konfiguracja niestandardowej wyszukiwarki http://www.google.com/cse/ Panel wyszukiwarki niestandardowej http://www.google.com/cse/manage/all Konsola API https://code.google.com/apis/console/
Dziękuję za uwagę.