Event
Patryk Hubar: Przetwarzanie języka naturalnego na potrzeby prac bibliograficznych. Przykład retrokonwersji PBL / z cyklu webinariów Pracowni Bibliografii Bieżącej Instytutu Badań Literackich PAN
Dane zawarte w bibliografiach, które pierwotnie ukazywały się w formie drukowanej, stanowią niezwykle istotne źródło informacji dziedzinowej, niezbędne z perspektywy prowadzenia wyczerpujących badań naukowych. Niestety, ich obecna forma dystrybucji (skany w formacie PDF) nie pozwala na efektywne wyszukiwanie i wydobywanie informacji dziedzinowej, dlatego też niezbędne jest przeprowadzenie prac nad automatyczną konwersją zapisów bibliograficznych do postaci w pełni przeszukiwalnej bazy danych.
Zastosowanie półautomatycznych metod przetwarzania tekstu opartych o reguły (wyrażenia regularne) oraz prac manualnych, ze względu na stopień skomplikowania oraz objętość bibliografii, jest niewystarczające i nie pozwala na ekstrakcję informacji w wysokiej jakości.
Rosnące nakłady pracy nad budowaniem kolejnych reguł orazich coraz większy stopień skomplikowania nie przynosiły spodziewanych efektów, a zmienny charakter zapisów bibliograficznych sprawiał, że poszczególne reguły kolidowały ze sobą. Wykorzystanie algorytmów uczenia maszynowego (Machine learning, ML) oraz przetwarzania języka naturalnego (Natural language processing, NLP) i dostosowanie ich do specyfiki konwersji danych bibliograficznych stanowiłowięc następny krokwpodjętym zadaniu. W ramach seminarium zaprezentowane zostaną dotychczasowe efekty prac nad retrokonwersją „Polskiej Bibliografii Literackiej” z wykorzystaniem algorytmów uczenia maszynowego oraz przetwarzania języka naturalnego. Uczestnicy zapoznają się z podstawowymi rozwiązaniami NLP dostosowanymi do specyfiki prac nad przetwarzaniem danych bibliograficznych, w szczególności takimi algorytmami, jak klasyfikacja orazrozpoznawanie jednostek nazewniczych (NER).
Webinaria będą nagrywane.
W celu zapisania się na webinaria, prosimy o wypełnienie krótkiego formularza: https://forms.gle/4yQ3uNHZYVne5iTV9.
Kilka godzin przed rozpoczęciem poszczególnych spotkań otrzymają Państwo wiadomość e-mail z linkiem i kodem do spotkania.
Information
See also
Karolina Przysiecka: Dane bibliograficzne w badaniach literackich / z cyklu webinariów Pracowni Bibliografii Bieżącej Instytutu Badań Literackich PAN
Dynamiczny rozwój rynku książki powoduje, że nikt nie jest w stanie przeczytać i przestudiować wszystkich książek. Z kolei analiza i interpretacja kanonu literackiego nie pozwala na scharakteryzowanie i zrozumienie systemu literackiego. Aby uzyskać jego pełny obraz, należy przeanalizować zarówno ważne dzieła badane przez literaturoznawców, jak i te, które nie są czytane, komentowane lub zostały zapomniane. To zadanie przekracza możliwości jednego naukowca lub nawet grupy naukowców. Z pomocą przychodzą nowe technologie dające możliwość prowadzenia analiz dużych zbiorów zróżnicowanych danych.
Konferencja naukowa HINC OMNIA. Niedoceniane bogactwo. Wykorzystanie danych bibliograficznych i katalogowych zbiorów specjalnych w badaniach naukowych
Biblioteka Uniwersytecka w Warszawie planuje zorganizowanie czwartej konferencji z cyklu „HINC OMNIA. Zbiory historyczne, artystyczne i specjalne w bibliotekach oraz innych instytucjach kultury”, tym razem poświęconej potencjałowi badawczemu danych bibliograficznych i katalogowych, przede wszystkim dotyczących zbiorów specjalnych.
Bibliografia jako narzędzie w humanistyce cyfrowej
Warsztaty "Bibliografia jako narzędzie w humanistyce cyfrowej" są organizowane przez Centrum Humanistyki Cyfrowej Instytutu Badań Literackich PAN w ramach prac Grupy Roboczej DARIAH-PL "Filologia cyfrowa". Warsztaty odbędą 29 lutego br. się w siedzibie Instytutu Badań Literackich PAN.
Konferencja projektu "Dariah.lab – cyfrowa infrastruktura badawcza dla humanistyki i nauk o sztuce"
Dariah.lab jest infrastrukturą badawczą dla humanistyki i nauk o sztuce. Służy pozyskiwaniu, przechowywaniu i integracji danych badawczych, różnorodnych pod względem formy, treści i pochodzenia, oraz przetwarzaniu, wizualizacji i udostępnianiu zasobów cyfrowych. Konferencja wieńcząca projekt, w ramach którego powstała Dariah.lab, odbędzie się w Centrum Badawczym Polskiego Internetu Optycznego – siedzibie Poznańskiego Centrum Superkomputerowo-Sieciowego w Poznaniu, w dniach 18-19 października 2023 r. Zapraszamy!