Biuletyn Polonistyczny

Wydarzenie

Data wydarzenia: 15.06.2021 g.13:00 - 15.06.2021 g.14:30
Data dodania: 09.05.2021

Patryk Hubar: Przetwarzanie języka naturalnego na potrzeby prac bibliograficznych. Przykład retrokonwersji PBL / z cyklu webinariów Pracowni Bibliografii Bieżącej Instytutu Badań Literackich PAN

Typ wydarzenia:
Spotkanie

Dane zawarte w bibliografiach, które pierwotnie ukazywały się w formie drukowanej, stanowią niezwykle istotne źródło informacji dziedzinowej, niezbędne z perspektywy prowadzenia wyczerpujących badań naukowych. Niestety, ich obecna forma dystrybucji (skany w formacie PDF) nie pozwala na efektywne wyszukiwanie i wydobywanie informacji dziedzinowej, dlatego też niezbędne jest przeprowadzenie prac nad automatyczną konwersją zapisów bibliograficznych do postaci w pełni przeszukiwalnej bazy danych.

Zastosowanie półautomatycznych metod przetwarzania tekstu opartych o reguły (wyrażenia regularne) oraz prac manualnych, ze względu na stopień skomplikowania oraz objętość bibliografii, jest niewystarczające i nie pozwala na ekstrakcję informacji w wysokiej jakości.

Rosnące nakłady pracy nad budowaniem kolejnych reguł orazich coraz większy stopień skomplikowania nie przynosiły spodziewanych efektów, a zmienny charakter zapisów bibliograficznych sprawiał, że poszczególne reguły kolidowały ze sobą. Wykorzystanie algorytmów uczenia maszynowego (Machine learning, ML) oraz przetwarzania języka naturalnego (Natural language processing, NLP) i dostosowanie ich do specyfiki konwersji danych bibliograficznych stanowiłowięc następny krokwpodjętym zadaniu. W ramach seminarium zaprezentowane zostaną dotychczasowe efekty prac nad retrokonwersją „Polskiej Bibliografii Literackiej” z wykorzystaniem algorytmów uczenia maszynowego oraz przetwarzania języka naturalnego. Uczestnicy zapoznają się z podstawowymi rozwiązaniami NLP dostosowanymi do specyfiki prac nad przetwarzaniem danych bibliograficznych, w szczególności takimi algorytmami, jak klasyfikacja orazrozpoznawanie jednostek nazewniczych (NER).


Webinaria będą nagrywane.

W celu zapisania się na webinaria, prosimy o wypełnienie krótkiego formularza: https://forms.gle/4yQ3uNHZYVne5iTV9.

Kilka godzin przed rozpoczęciem poszczególnych spotkań otrzymają Państwo wiadomość e-mail z linkiem i kodem do spotkania. 

Informacje

Opłata:
bez opłat
Data dodania:
9 maja 2021; 13:37 (Mariola Wilczak)
Data edycji:
9 maja 2021; 13:39 (Mariola Wilczak)

Zobacz także

09.05.2021

Karolina Przysiecka: Dane bibliograficzne w badaniach literackich / z cyklu webinariów Pracowni Bibliografii Bieżącej Instytutu Badań Literackich PAN

Dynamiczny rozwój rynku książki powoduje, że nikt nie jest w stanie przeczytać i przestudiować wszystkich książek. Z kolei analiza i interpretacja kanonu literackiego nie pozwala na scharakteryzowanie i zrozumienie systemu literackiego. Aby uzyskać jego pełny obraz, należy przeanalizować zarówno ważne dzieła badane przez literaturoznawców, jak i te, które nie są czytane, komentowane lub zostały zapomniane. To zadanie przekracza możliwości jednego naukowca lub nawet grupy naukowców. Z pomocą przychodzą nowe technologie dające możliwość prowadzenia analiz dużych zbiorów zróżnicowanych danych.

01.06.2023

Konferencja naukowa HINC OMNIA. Niedoceniane bogactwo. Wykorzystanie danych bibliograficznych i katalogowych zbiorów specjalnych w badaniach naukowych

Biblioteka Uniwersytecka w Warszawie planuje zorganizowanie czwartej konferencji z cyklu „HINC OMNIA. Zbiory historyczne, artystyczne i specjalne w bibliotekach oraz innych instytucjach kultury”, tym razem poświęconej potencjałowi badawczemu danych bibliograficznych i katalogowych, przede wszystkim dotyczących zbiorów specjalnych.

12.12.2018

Osoby w "Polskiej Bibliografii Literackiej". Od czterech kartotek, przez rekoncyliacje, po Linked Open Data / Otwarte seminarium CHC

Centrum Humanistyki Cyfrowej serdecznie zaprasza na otwarte seminarium CHC, które odbędzie się w poniedziałek 17 grudnia o godzinie 13:00, w sali 144 (Pałac Staszica, Nowy Świat 72). Spotkanie poświęcone będzie dyskusji na temat „Osoby w Polskiej Bibliografii Literackiej. Od czterech kartotek, przez rekoncyliacje, po Linked Open Data”, opracowany przez Cezarego Rosińskiego i Jakuba Eichlera. Wyniki badań zaprezentuje Cezary Rosiński.

27.10.2020

Cykl webinariów Centrum Humanistyki Cyfrowej IBL PAN poświęconych danym badawczym w badaniach literackich

Serdecznie zapraszamy do udziału w listopadowym cyklu webinariów Centrum Humanistyki Cyfrowej IBL PAN poświęconym danym badawczym w badaniach literackich. Spotkania prowadzone będą metodą warsztatową, z nagrywaną częścią wykładową oraz z dyskusjami i pracą w mniejszych grupach. Na cykl składają się trzy webinaria w poniedziałki (9, 16, 23 listopada) w godz. 13.00-14.30. Osoby, które wezmą udział we  wszystkich 3 spotkaniach, otrzymają zaświadczenie o uczestnictwie.

Używamy plików cookies, by ułatwić korzystanie z naszych serwisów. Jeśli nie chcesz, by pliki cookies były zapisywanena Twoim dysku, zmień ustawienia swojej przeglądarki. Sprawdź informacje o plikach cookies.