| | |
|---|
| Údaje o výsledku |
| Identifikační kód | RIV/00216208:11320/08:10077973 |
| Název v původním jazyce | Victor: the Web-Page Cleaning Tool |
| Druh | D - Článek ve sborníku |
| Jazyk | eng - angličtina |
| Obor | AI - Jazykověda |
| Rok uplatnění | 2008 |
| Kód důvěrnosti údajů | S - Úplné a pravdivé údaje nepodléhající ochraně podle zvláštních právních předpisů |
| Počet výskytů výsledku | 2 |
| Tvůrci výsledku |
| Počet tvůrců celkem | 3 |
| Počet domácích tvůrců | 3 |
| Tvůrce | Spousta Miroslav (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; G - garant výsledku) |
| Tvůrce | Marek Michal (státní příslušnost: CZ - Česká republika; A - domácí tvůrce) |
| Tvůrce | Pecina Pavel (státní příslušnost: CZ - Česká republika; A - domácí tvůrce) |
| Údaje blíže specifikující výsledek |
| Popis v původním jazyce | In this paper we present a complete solution for automatic cleaning of arbitrary HTML pages with a goal of using web data as a corpus in the area of natural language processing and computational linguistics. We employ a sequence-labeling approach based on Conditional Random Fields (CRF). Every block of text in analyzed web page is assigned a set of features extracted from the textual content and HTML structure of the page. The blocks are automatically labeled either as content segments containing main web page content, which should be preserved, or as noisy segments not suitable for further linguistic processing, which should be eliminated. Our solution is based on the tool introduced at the CLEANEVAL 2007 shared task workshop. In this paper, we present new CRF features, a handy annotation tool, and new evaluation metrics. Evaluation itself is performed on a random sample of web pages automatically downloaded from the Czech web domain. |
| Klíčová slova | tool; cleaning; page; victor |
| Název sborníku | Proceedings of the 4th Web as Corpus Workshop |
| ISBN | 2-9517408-4-0 |
| Počet stran výsledku | 6 |
| Název nakladatele | ACL SIGWAC |
| Místo vydání | Marrakech, Morocco |
| Místo konání akce | Marrakech, Morocco |
| Datum zahájení akce | 1.6.2008 |
| Typ akce podle státní příslušnoti účastníků | WRD - Světová |
| Údaje o tomto záznamu o výsledku |
| Předkladatel | Univerzita Karlova v Praze / Matematicko-fyzikální fakulta |
| Dodavatel | GA0 - Grantová agentura České republiky (GA ČR) |
| Rok sběru | 2011 |
| Systémové označení dodávky dat | RIV11-GA0-11320___/01:1 |
| Datum dodání | 30.5.2011 |
| Specifikace | RIV/00216208:11320/08:10077973!RIV11-GA0-11320___ |
| Kontrolní kód | [381F01CF2CA4] |
| Další výskyty tohoto výsledku od stejného předkladatele |
| Dodáno MŠMT v roce 2011 | Záznam s identifikačním kódem RIV/00216208:11320/08:10077973 v dodávce dat RIV11-MSM-11320___/01:1 |
| Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl |
| Projekt | GD201/05/H014 - Collegium Informaticum (2005-2008, GA0/GD) |
| Výzkumný záměr | MSM0021620838 - Moderní metody, struktury a systémy informatiky (2005-2011, MSM) |