• česky
  • english

RIV/00216208:11320/08:10077973 - Victor: the Web-Page Cleaning Tool (2008)

Údaje o výsledku
Identifikační kódRIV/00216208:11320/08:10077973
Název v původním jazyceVictor: the Web-Page Cleaning Tool
DruhD - Článek ve sborníku
Jazykeng - angličtina
OborAI - Jazykověda
Rok uplatnění2008
Kód důvěrnosti údajůS - Úplné a pravdivé údaje nepodléhající ochraně podle zvláštních právních předpisů
Počet výskytů výsledku2
Tvůrci výsledku
Počet tvůrců celkem3
Počet domácích tvůrců3
TvůrceSpousta Miroslav (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; G - garant výsledku)
TvůrceMarek Michal (státní příslušnost: CZ - Česká republika; A - domácí tvůrce)
TvůrcePecina Pavel (státní příslušnost: CZ - Česká republika; A - domácí tvůrce)
Údaje blíže specifikující výsledek
Popis v původním jazyceIn this paper we present a complete solution for automatic cleaning of arbitrary HTML pages with a goal of using web data as a corpus in the area of natural language processing and computational linguistics. We employ a sequence-labeling approach based on Conditional Random Fields (CRF). Every block of text in analyzed web page is assigned a set of features extracted from the textual content and HTML structure of the page. The blocks are automatically labeled either as content segments containing main web page content, which should be preserved, or as noisy segments not suitable for further linguistic processing, which should be eliminated. Our solution is based on the tool introduced at the CLEANEVAL 2007 shared task workshop. In this paper, we present new CRF features, a handy annotation tool, and new evaluation metrics. Evaluation itself is performed on a random sample of web pages automatically downloaded from the Czech web domain.
Klíčová slovatool; cleaning; page; victor
Název sborníkuProceedings of the 4th Web as Corpus Workshop
ISBN2-9517408-4-0
Počet stran výsledku6
Název nakladateleACL SIGWAC
Místo vydáníMarrakech, Morocco
Místo konání akceMarrakech, Morocco
Datum zahájení akce1.6.2008
Typ akce podle státní příslušnoti účastníkůWRD - Světová
Údaje o tomto záznamu o výsledku
PředkladatelUniverzita Karlova v Praze / Matematicko-fyzikální fakulta
DodavatelGA0 - Grantová agentura České republiky (GA ČR)
Rok sběru2011
Systémové označení dodávky datRIV11-GA0-11320___/01:1
Datum dodání30.5.2011
SpecifikaceRIV/00216208:11320/08:10077973!RIV11-GA0-11320___
Kontrolní kód[381F01CF2CA4]
Další výskyty tohoto výsledku od stejného předkladatele
Dodáno MŠMT v roce 2011Záznam s identifikačním kódem RIV/00216208:11320/08:10077973 v dodávce dat RIV11-MSM-11320___/01:1
Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl
ProjektGD201/05/H014 - Collegium Informaticum (2005-2008, GA0/GD)
Výzkumný záměrMSM0021620838 - Moderní metody, struktury a systémy informatiky (2005-2011, MSM)