Wydarzenie
Patryk Hubar: Przetwarzanie języka naturalnego na potrzeby prac bibliograficznych. Przykład retrokonwersji PBL / z cyklu webinariów Pracowni Bibliografii Bieżącej Instytutu Badań Literackich PAN
Dane zawarte w bibliografiach, które pierwotnie ukazywały się w formie drukowanej, stanowią niezwykle istotne źródło informacji dziedzinowej, niezbędne z perspektywy prowadzenia wyczerpujących badań naukowych. Niestety, ich obecna forma dystrybucji (skany w formacie PDF) nie pozwala na efektywne wyszukiwanie i wydobywanie informacji dziedzinowej, dlatego też niezbędne jest przeprowadzenie prac nad automatyczną konwersją zapisów bibliograficznych do postaci w pełni przeszukiwalnej bazy danych.
Zastosowanie półautomatycznych metod przetwarzania tekstu opartych o reguły (wyrażenia regularne) oraz prac manualnych, ze względu na stopień skomplikowania oraz objętość bibliografii, jest niewystarczające i nie pozwala na ekstrakcję informacji w wysokiej jakości.
Rosnące nakłady pracy nad budowaniem kolejnych reguł orazich coraz większy stopień skomplikowania nie przynosiły spodziewanych efektów, a zmienny charakter zapisów bibliograficznych sprawiał, że poszczególne reguły kolidowały ze sobą. Wykorzystanie algorytmów uczenia maszynowego (Machine learning, ML) oraz przetwarzania języka naturalnego (Natural language processing, NLP) i dostosowanie ich do specyfiki konwersji danych bibliograficznych stanowiłowięc następny krokwpodjętym zadaniu. W ramach seminarium zaprezentowane zostaną dotychczasowe efekty prac nad retrokonwersją „Polskiej Bibliografii Literackiej” z wykorzystaniem algorytmów uczenia maszynowego oraz przetwarzania języka naturalnego. Uczestnicy zapoznają się z podstawowymi rozwiązaniami NLP dostosowanymi do specyfiki prac nad przetwarzaniem danych bibliograficznych, w szczególności takimi algorytmami, jak klasyfikacja orazrozpoznawanie jednostek nazewniczych (NER).
Webinaria będą nagrywane.
W celu zapisania się na webinaria, prosimy o wypełnienie krótkiego formularza: https://forms.gle/4yQ3uNHZYVne5iTV9.
Kilka godzin przed rozpoczęciem poszczególnych spotkań otrzymają Państwo wiadomość e-mail z linkiem i kodem do spotkania.
Informacje
Zobacz także
AI na pomoc bibliografiom dziedzinowym (i vice versa)
Bibliografie dziedzinowe poddawane są ciągłym przemianom, które mają na celu dostosowanie ich do zmieniający się potrzeb środowiska naukowego. Bibliografie dziedzinowe ciągle odgrywają istotną rolę w procesach badawczych, choć nie stanowią już jedynego źródła informacji. Drukowane tomy bibliografii dziedzinowych zostały zastąpione bibliograficznymi bazami danych, które zmuszone są konkurować z wielodziedzinowymi, prywatnymi bazami danych.
Karolina Przysiecka: Dane bibliograficzne w badaniach literackich / z cyklu webinariów Pracowni Bibliografii Bieżącej Instytutu Badań Literackich PAN
Dynamiczny rozwój rynku książki powoduje, że nikt nie jest w stanie przeczytać i przestudiować wszystkich książek. Z kolei analiza i interpretacja kanonu literackiego nie pozwala na scharakteryzowanie i zrozumienie systemu literackiego. Aby uzyskać jego pełny obraz, należy przeanalizować zarówno ważne dzieła badane przez literaturoznawców, jak i te, które nie są czytane, komentowane lub zostały zapomniane. To zadanie przekracza możliwości jednego naukowca lub nawet grupy naukowców. Z pomocą przychodzą nowe technologie dające możliwość prowadzenia analiz dużych zbiorów zróżnicowanych danych.
Konferencja naukowa HINC OMNIA. Niedoceniane bogactwo. Wykorzystanie danych bibliograficznych i katalogowych zbiorów specjalnych w badaniach naukowych
Biblioteka Uniwersytecka w Warszawie planuje zorganizowanie czwartej konferencji z cyklu „HINC OMNIA. Zbiory historyczne, artystyczne i specjalne w bibliotekach oraz innych instytucjach kultury”, tym razem poświęconej potencjałowi badawczemu danych bibliograficznych i katalogowych, przede wszystkim dotyczących zbiorów specjalnych.
Bibliografia jako narzędzie w humanistyce cyfrowej
Warsztaty "Bibliografia jako narzędzie w humanistyce cyfrowej" są organizowane przez Centrum Humanistyki Cyfrowej Instytutu Badań Literackich PAN w ramach prac Grupy Roboczej DARIAH-PL "Filologia cyfrowa". Warsztaty odbędą 29 lutego br. się w siedzibie Instytutu Badań Literackich PAN.