Polish Studies Newsletter

Event

Date of the event: 15.06.2021 g.13:00 - 15.06.2021 g.14:30
Added on: 09.05.2021

Patryk Hubar: Przetwarzanie języka naturalnego na potrzeby prac bibliograficznych. Przykład retrokonwersji PBL / z cyklu webinariów Pracowni Bibliografii Bieżącej Instytutu Badań Literackich PAN

Type of the event:
Meeting

Dane zawarte w bibliografiach, które pierwotnie ukazywały się w formie drukowanej, stanowią niezwykle istotne źródło informacji dziedzinowej, niezbędne z perspektywy prowadzenia wyczerpujących badań naukowych. Niestety, ich obecna forma dystrybucji (skany w formacie PDF) nie pozwala na efektywne wyszukiwanie i wydobywanie informacji dziedzinowej, dlatego też niezbędne jest przeprowadzenie prac nad automatyczną konwersją zapisów bibliograficznych do postaci w pełni przeszukiwalnej bazy danych.

Zastosowanie półautomatycznych metod przetwarzania tekstu opartych o reguły (wyrażenia regularne) oraz prac manualnych, ze względu na stopień skomplikowania oraz objętość bibliografii, jest niewystarczające i nie pozwala na ekstrakcję informacji w wysokiej jakości.

Rosnące nakłady pracy nad budowaniem kolejnych reguł orazich coraz większy stopień skomplikowania nie przynosiły spodziewanych efektów, a zmienny charakter zapisów bibliograficznych sprawiał, że poszczególne reguły kolidowały ze sobą. Wykorzystanie algorytmów uczenia maszynowego (Machine learning, ML) oraz przetwarzania języka naturalnego (Natural language processing, NLP) i dostosowanie ich do specyfiki konwersji danych bibliograficznych stanowiłowięc następny krokwpodjętym zadaniu. W ramach seminarium zaprezentowane zostaną dotychczasowe efekty prac nad retrokonwersją „Polskiej Bibliografii Literackiej” z wykorzystaniem algorytmów uczenia maszynowego oraz przetwarzania języka naturalnego. Uczestnicy zapoznają się z podstawowymi rozwiązaniami NLP dostosowanymi do specyfiki prac nad przetwarzaniem danych bibliograficznych, w szczególności takimi algorytmami, jak klasyfikacja orazrozpoznawanie jednostek nazewniczych (NER).


Webinaria będą nagrywane.

W celu zapisania się na webinaria, prosimy o wypełnienie krótkiego formularza: https://forms.gle/4yQ3uNHZYVne5iTV9.

Kilka godzin przed rozpoczęciem poszczególnych spotkań otrzymają Państwo wiadomość e-mail z linkiem i kodem do spotkania. 

Information

Fee:
bez opłat
Added on:
9 May 2021; 13:37 (Mariola Wilczak)
Edited on:
9 May 2021; 13:39 (Mariola Wilczak)

See also

09.05.2021

Karolina Przysiecka: Dane bibliograficzne w badaniach literackich / z cyklu webinariów Pracowni Bibliografii Bieżącej Instytutu Badań Literackich PAN

Dynamiczny rozwój rynku książki powoduje, że nikt nie jest w stanie przeczytać i przestudiować wszystkich książek. Z kolei analiza i interpretacja kanonu literackiego nie pozwala na scharakteryzowanie i zrozumienie systemu literackiego. Aby uzyskać jego pełny obraz, należy przeanalizować zarówno ważne dzieła badane przez literaturoznawców, jak i te, które nie są czytane, komentowane lub zostały zapomniane. To zadanie przekracza możliwości jednego naukowca lub nawet grupy naukowców. Z pomocą przychodzą nowe technologie dające możliwość prowadzenia analiz dużych zbiorów zróżnicowanych danych.

01.06.2023

Konferencja naukowa HINC OMNIA. Niedoceniane bogactwo. Wykorzystanie danych bibliograficznych i katalogowych zbiorów specjalnych w badaniach naukowych

Biblioteka Uniwersytecka w Warszawie planuje zorganizowanie czwartej konferencji z cyklu „HINC OMNIA. Zbiory historyczne, artystyczne i specjalne w bibliotekach oraz innych instytucjach kultury”, tym razem poświęconej potencjałowi badawczemu danych bibliograficznych i katalogowych, przede wszystkim dotyczących zbiorów specjalnych.

12.12.2018

Osoby w "Polskiej Bibliografii Literackiej". Od czterech kartotek, przez rekoncyliacje, po Linked Open Data / Otwarte seminarium CHC

Centrum Humanistyki Cyfrowej serdecznie zaprasza na otwarte seminarium CHC, które odbędzie się w poniedziałek 17 grudnia o godzinie 13:00, w sali 144 (Pałac Staszica, Nowy Świat 72). Spotkanie poświęcone będzie dyskusji na temat „Osoby w Polskiej Bibliografii Literackiej. Od czterech kartotek, przez rekoncyliacje, po Linked Open Data”, opracowany przez Cezarego Rosińskiego i Jakuba Eichlera. Wyniki badań zaprezentuje Cezary Rosiński.

27.10.2020

Cykl webinariów Centrum Humanistyki Cyfrowej IBL PAN poświęconych danym badawczym w badaniach literackich

Serdecznie zapraszamy do udziału w listopadowym cyklu webinariów Centrum Humanistyki Cyfrowej IBL PAN poświęconym danym badawczym w badaniach literackich. Spotkania prowadzone będą metodą warsztatową, z nagrywaną częścią wykładową oraz z dyskusjami i pracą w mniejszych grupach. Na cykl składają się trzy webinaria w poniedziałki (9, 16, 23 listopada) w godz. 13.00-14.30. Osoby, które wezmą udział we  wszystkich 3 spotkaniach, otrzymają zaświadczenie o uczestnictwie.

We use cookie files to make the use of our website more convenient for our users. If you do not wish cookie files to be saved on your hard drive, please change the settings of your browser. Read about our cookie policy.