Data a znalosti 2015

Odborná konference ze světa dat a znalostí

Program

První den (čtvrtek 1.10.)

Místnost: T9:155

Od Do Program Autor Zvané přednášky
09:00   registrace a káva    
09:25   zahájení odborné konference    
09:30   Big Data SQL Jakub Illner Prezentace
10:20   Spracovanie veľkých dát Peter Bednár Prezentace
11:10 11:30 káva    
11:30   Vizualizace velkých dat Jan Géryk
Lubomír Popelínsky
Prezentace
12:20   Ako zvládnuť DDOS, z ktorého máte radosť (keďže je od vašich zákazníkov) Michal Barla Prezentace
13:10 14:20 oběd    
14.20   Analýza nestrukturovaných dat s využitím Linked Data Martin Dostal Prezentace
15.10   Big Data Quality / Governance David Pejčoch Prezentace
16:00 16:20 káva    
16.20   Návratnost investic do BigData Ota Novotný Prezentace
17:10 17:20 oznámení posterů    
17:20 18:30 diskuse u posterů    
18:30 21:00 raut    

Druhý den (pátek 2.10.)

Místnost: T9:107

Od Do Program Autor Typ přednášky
09:00   Detekce zneužití online kanálů Petr Pascenko Prezentace
09:50   Řízení kvality dat s příhlednutím k otevřeným a propojitelným datům Dušan Chlapek
Jan Kučera
Prezentace
10:40 11:00 káva    
11:00   zahájení komunitního setkání    
11:00   Data Analytics v Cloud Computingu Rastislav Neczli Prezentace
11:50 12:45 Je PhD studium letadlo? panelová diskuse Vojtěch Svátek  
12:45 13:00 upoutávky na postery    
13:00 14:15 studený oběd, paralelní s diskusí posterů    
14:15 14:30 shrnutí, ukončení    

Postery odborné konference

Název Autoři
BioWes – Scientific Data Management Solution – From protocol design until data and metadata sharing Antonin Barta, Petr Cisar, Jan Urban, Dalibor Stys
Detection of phishing messages Tomáš Duda, Marcel Jiřina, Jakub Novák
Gephi – Nástroj na vizualizáciu a interpretáciu grafov Ján Genči
Utilization of Semantics for Industrial Big Data Processing Vaclav Jirkovsky, Marek Obitko
Predikcia konca sedenia vo výučbovom systéme Ondrej Kaššák, Michal Kompan, Maria Bielikova
Analýza vplyvu redukcie dimenzionality na zhlukovanie veľkých dátových množín Peter Laurinec, Mária Lucká
Predikcia spotreby elektrickej energie založená na kombinácii predikčných metód Marek Lóderer, Viera Rozinajová, Anna Bou Ezzeddine
Spracovanie negácie pre klasifikáciu názorov v slovenskom jazyku Martin Mikula, Kristína Machová
Extrakce vlastností z textu pro identifikaci poruch osobnosti Petr Saloun, Adam Ondrejka

Komunitní setkání – posterye

Název Autoři
Knowledge discovery in practice Frantisek Babic, Alexandra Lukacova, Jan Paralic
Vizualizácia výsledkov vyhľadávania vo forme konceptového zväzu Peter Butka
Moderné informetrické metódy hodnotenia vedeckého výskumu Dalibor Fiala, Martin Dostal, Jan Paralic, Gabriel Tutoky, Cecília Havrilová
Kombinácia informácií z používateľského profilu a kolaboratívneho filtrovania v rámci odporúčaní Cecília Havrilová, Jan Paralic, Dávid Baňas
Mapy bez bariér Petr Hazuza
Rozpoznání anomálních uživatelů na českém Twitteru Petr Jirásek, Lubomír Popelínský
Online Forum Summarization Peter Krejzl, Josef Steinberger, Tomáš Hercig, Tomáš Brychcín
Class-based outlier detection and interpretation Leona Nezvalová, Lubos Popelinsky, Karel Vaculik, Václav Blahut
The Visualization Tool for Visualization Important Properties and Statistics of Database System in 3D Environment Kristian Sestak, Zdenek Havlice
Modelovanie záujmov používateľa vo vektorovom priestore latentných čŕt Márius Šajgalík, Michal Barla, Maria Bielikova
Využití DBpedie ke tvorbě strategické znalostní hry Šárka Turečková, Vojtěch Svátek
Data Stream Mining in the Power Engineering Domain Petra Vrablecová, Viera Rozinajová, Anna Bou Ezzeddine
Multi-user preference learning for e-commerce recommendation Peter Vojtas, Michal Kopecký, Marta Vomlelova, Ladislav Peska
OWL Visualization in UML Jana Ahmad, Petr Křemen

Panelová diskuse

„Je PhD studium letadlo?“

Neboli: Lze v českých a slovenských podmínkách dosáhnout toho, aby doktorské studium informatiky nebylo pyramidovou hrou (letadlem), kdy profesoři a docenti doktorandy na jedné straně nezbytně potřebují, ale na druhé straně jim toho pro jejich dlouhodobé směřování nemohou mnoho nabídnout?

Příklady otázek, které budou diskutovány

  • Je doktorské studium užžitečné pro ty, kdo dlouhodobě směřují do praxe? V jakém ohledu?
  • Mùže zapojení doktoranda do řeššení problémů praxe přispět ke vzniku disertace kvalitní i podle akademických měřítek, nebo je v tomto směru vžždy jen „distraktorem“?
  • Zlepššují se u nás podmínky pro post-doky, kteří by po PhD rádi zůstali v akademické sféře?

Moderátor

doc. Ing. Vojtěch Svátek, Dr., VŠŠE Praha

Panelisté

  • prof. Ing. Mária Bieliková, PhD. - vedoucí výzkumné skupiny PeWe na FIT STU Bratislava, šškolitelka desítek doktorandù, dlouholetá organizátorka PhD sympozií na mezinárodních konferencích
  • prof. Ing. Václav Hlaváč, CSc. - zakladatel i současný vedoucí Centra strojového vnímání FEL ČVUT, školitel 16 doktorandů s obhájenou PhD prací, člen několika oborových rad DS, mj. „Umělá inteligence a biokybernetika“ a „Řídící technika a robotika“ na FEL
  • doc. RNDr. Ing. Marcel Jiřina, Ph.D. - proděkan pro vědu a výzkum FIT ČVUT, praha, působící i v Inovacentru ČVUT a dříve na FBMI ČVUT, vedoucí akademických výzkumných týmù a zakladatel spin-off firem
  • RNDr. Jiří Materna, Ph.D. - vedoucí výzkumu v Seznam.cz, soub쾞ně s touto pozicí absolvoval doktorské studium informatiky na MU Brno, obhájeno 2014
  • prof. Ing. František Plášil, DrSc. - předseda oborové rady oboru Softwarové systémy na MFF UK, zakladatel Katedry distribuovaných a spolehlivých systémů, školitel 20 doktorandů, kterí úspěšně obhájili PhD práci.

Anotace zvaných přednášek

Peter Bednár:

Spracovanie veľkých dát

Prednáška sa bude zaoberať problematikou spracovania veľkých dát. Na začiatku uvedieme charakteristiku veľkých dát a niektoré prípadové štúdie. Ďalej sa budeme zaoberať horizontálnym škálovaním aplikácií a postupne uvedieme problematiku paralelných a distribuovaných výpočtov, spracovania prúdových dát a distribuovaných databáz.

Prednáška je doplnená prehľadom technológií a podrobnejším popisom architektúry projektu *Urban Sensing pre spracovanie dát zo sociálnych sietí.

David Pejčoch:

Big Data Quality/ Governance

Cílem tohoto příspěvku je vymezit v rámci kontextu tzv. velkých dat (Big Data) problematiku řízení kvality těchto dat. Pojem velkých dat není přitom chápán ve smyslu původní definice odkazující se na efektivnost či nemožnost jejich zpracování v rámci “konvenčních” prostředků, ale spíše v duchu konceptu tzv. Universa dat, zahrnujícího všechny datové zdroje, se kterými daný subjekt přichází nebo potenciálně může přicházet do styku.

Na základě uvedené případové studie autor zdůrazňuje nutnost komplexního řízení kvality napříč takto definovaným universem. Autor však rovněž kriticky hodnotí možné alternativní pohledy, zejména možnosti využití technologických platforem často spojovaných s ekosystémem Hadoop pro účely vykonávání úloh typických pro tradiční řízení kvality dat.

Příspěvek poskytuje konkrétní návody pro odvození a integraci metadat s centrálním úložištěm. Dále popisuje konkrétní knihovnu napsanou v jazyce Java poskytující funkcionalitu pro synchronizaci s centrální znalostní bází pro podporu řízení kvality dat (QKB) a příklady jejího použití.

Ota Novotný:

Návratnost investic do BigData

Tématu Big Data se v současnosti věnuje řada odborníků a institucí jak na vědecké, tak na komerční úrovni. Většina příspěvků je však zaměřena na technologické aspekty implementace nástrojů podporující zpracování Big Dat (přestože si pod nimi vzhledem k terminologické neusazenosti můžeme představit prakticky cokoliv). Komerční prezentace obvykle končí konstatováním, že nasazení technologie pro Big Data sebou přináší rozsáhlé přínosy pro zákazníka. Tím bohužel bližší specifikace končí.

Cílem přednášky je proto představit BigData z ekonomického pohledu a prezentovat vybrané příklady či scénáře jejich komerčního nasazení z úhlu návratnosti vložené investice. Vybrané příklady budou v rámci přednášky detailněji diskutovány zejména ve vztahu k přípravě analýzy nákladů a přínosů pro projekty tohoto typu.

Dušan Chlapek,
Jan Kučera:

Řízení kvality dat s přihlédnutím k otevřeným a propojitelným datům

Otevřená data představují strojově čitelná data, která mohou jejich uživatelé využívat pro libovolné účely. Otevřená data jsou často diskutována v souvislosti s daty veřejné správy, jelikož orgány veřejné správy jsou držiteli značného množství dat, která mohou být využita inovativním způsobem pro tvorbu nových produktů a služeb. Aby byla otevřená data dobře využitelná, měla by mít odpovídající úroveň kvality. Zajištění kvality otevřených dat je ale komplikováno skutečností, že otevřená data jsou zpřístupněna na webu širokému okruhu potenciálních uživatelů, nicméně poskytovateli dat nemusí být uživatelé ani způsoby využití dat známy.

Příspěvek se věnuje specifickým problémům řízení datové kvality otevřených a propojitelných dat a diskutuje možné pohledy na tuto problematiku z hlediska jednotlivých zainteresovaných stran.

Michal Barla:

Ako zvládnuť DDOS, z ktorého máte radosť (keďže je od vašich zákazníkov)

V prednáške sa budeme venovať architektúram určeným na spracovanie veľkého množstva údajov. Na príklade luigisbox.com si ukážeme reálny scenár riešenia analytiky veľkého množstva udalostí generovaných návštevníkmi webového sídla a možností automatizovanej reakcie na tieto udalosti v reálnom čase.

Ukážeme si akým spôsobom sa dajú skombinovať viaceré technológie tak, aby sme dosiahli škálovateľnosť, odolnosť voči chybám a zároveň umožnili aj pohodlný vývoj a testovanie nových verzií.

Jakub Illner:

Big Data SQL

Popularita jazyka SQL nezaniká ani s nástupem Big Data a nástrojů založených na platformě Hadoop. Právě naopak – SQL je nejčastějším jazykem pro přístup k datům a jejich analýze, jak je vidět na oblibě technologií Hive, Spark SQL nebo Impala.

V mé přednášce bych rád představil produkt Oracle Big Data SQL, který umožnuje rychlou a škálovatelnou analýzu enterprise dat pomocí Oracle SQL – ať se nachází v databázi Oracle, v systému HDFS/Hive nebo v některé NoSQL databázi.

Martin Dostal:

Analýza nestrukturovaných dat s využitím Linked Data

Cílem přednášky je stručné představení Linked Data a jejich využití pro analýzu nestrukturovaných textových dat. Budeme se věnovat volbě vlastností, extrakci pojmenovaných entit a jejich evaluaci, řešení disambiguace a problému s různou úrovní popisu a dostaneme se až k aplikaci na klasifikaci a shlukování.

Petr Pascenko:

Detekce zneužití online kanálů

Přednáška v hrubých rysech popisuje princip zabezpečení online kanálů realizované v prostředí významné české finanční instituce. Cílem řešení je identifikovat podvodné jednání útočníka, který překoná standardní bezpečnostní opatření (autentizaci heslem, autorizaci platby pomocí sms). Zvolená metoda vychází z masivního vytěžování obvyklých vzorců chování uživatelů služby, což spolu s požadavkem na real-time vyhodnocení přináší značné nároky na výkonovou optimalizaci celého řešení.

Jan Géryk,
Lubomír Popelínský:

Vizualizace velkých dat

Zatímco pro manipulaci s velkými objemy dat již existuje řada přístupů, transformace velkých dat, jejich čištění, předzpracování a následné analytické zpracování zůstává stále výzvou. Jednu z přirozených cest usnadňujících další zpracování představuje jejich vizualizace (visual data mining) a také vývoj uživatelských rozhraní usnadňujících manipulaci s daty. Zajímavé znalosti neodhalíme jen zkoumáním detailů, ale lépe z nadhledu v podobě různých vztahů a skrytých souvislostí. Nové přístupy, často založené na pokročilých statistických a vizualizačních metodách, dovolují výsledky prezentovat v jednoduché a přehledné formě.

V této přednášce podáme přehled metod visual data mining. Poté budeme demonstrovat použití vizualizačních metod při analýze reálných dat. Na závěr uvedeme zda a do jaké míry metody a nástroje pro dobývání znalostí z dat reagují nebo by měly reagovat na heslo “Big data”.

Rastislav Neczli:

Data Analytics v Cloud Computingu

Organizácie majú v súčasnosti pomerne dlhú skúsenosť s vyuźitím dátových analýz pre potreby stanovenia stratégie ako maximalizovať zisk. Dátová analýza umožnuje skrátiť čas a prácu na príprave takýchti stratégii.

Obsahom mojej predášky bude predstavenie vyuźitia Cloud computingu na využitie dátovýh analýz ako aj dopad na zmenu kultúry v rýchlo sa meniacom IT svete. A posun v kultúre využívania v rámci organizácie.

Nahoru

© 2016, Všechna práva vyhrazena