Célok
Az egész napos szeminárium gyakorlatilag egy adatbányászati gyorstalpaló. Az adatok mennyisége és minősége számos elemzési lehetőséget rejt a cégek számára, azonban ezeket csak ritkán aknázzák ki. Pedig az adatbányászati elemzések régóta nem számítanak elérhetlennek. A különböző Open Source megoldások (pl. R, RapidMiner) segítségével viszonylag rövid időn belül lehet látványos eredményeket elérni.
A szeminárium célja, hogy néhány tipikus adatbányászati alkalmazást mutassunk be különböző platformokon. Ennek részeként bemutatásra kerül, hogy
Tematika
A következő témákat érintjük
Kinek szól?
Gyakorlatilag mindenkinek, akiben ott motoszkál egy kis elemzői véna.
Előfeltétel: Alapvető informatikai és Microsoft Excel ismeretek valamint saját laptop az önálló gyakorláshoz.
Innováció a BI-ban workshop
Az egész napos workshop az üzleti intelligencia aktuális trendjeiről, eszközökről és megoldásokról ad körképet, és bemutatja a BI piac meghatáozóró szereplőinek stratégiáját és szoftverkínálatát.
Délelőtt
BI Trendek
Adatvizualizáció és adatfelderítés
Storytelling
Önkiszolgáló üzleti intelligencia
Memóriaalapú BI
Nyílt forráskódú BI
Mobil BI
Cloud BI megoldások
Big Data analitika és Data Science
Vállalati BI alkalmazási területei
standard riportok
Ad-hoc elemzések
Interaktív dashboardk
Riasztások
Adatalapú stratégiák
Adatalapú termékfejlesztés
Adatalapú szolgáltatások
Adat mint termék
Amit a nagyvilág gondol
A 2014-es BI Trek és BI Survey felmérésekről
BI eszközök vásárlása
Implementáció
Használati kérdések
Részvételi feltételek: Általános informatikai ismeretek
Az R statisztikai programnyelv a "data science" egyik legnépszerűbb és legerőteljesebb eszköze. Az egész napos kurzuson az R alapvető struktúrájának és objektumainak megismertetését követően - egy-egy rövid esettanulmány gyakorlatorientált feldolgozásán keresztül - az adatelemzés és -vizualizáció valamennyi lényegi lépését érintjük.
Tematika:
1) Az R mint statisztikai szoftverkörnyezet bemutatása
- GNU R, CRAN
- R és RStudio telepítése
2) R alapok
- alapvető objektumok, függvények, ábrázolási lehetőségek
- hogyan segítsünk magunkon
3) Az adatelemzés lépései esettanulmányokon keresztül
- adatok beolvasása külső forrásból
- adatfeldolgozás és -tisztítás
- exploratív ábrázolás
- modellezés
- riport készítése
Előfeltétel: Felhasználói szintű számítógépes ismeretek. Önálló gyakorláshoz saját laptop ajánlott. Legyen a gépeken R (https://cran.r-project.org/), RStudio (https://www.rstudio.com/) és ha Windows-os gépekről van szó, Rtools (https://cran.r-project.org/bin/windows/Rtools/). Az egyes R-csomagokat már rendszergazdai jogosultság nélkül, a képzésen tudják majd telepíteni.
The tools from the R language have recently been expanded to allow statisticians and researchers to deploy small web apps. During this workshop I'll quickly demonstrate Shiny (a tool to make your analysis into an interactive dashboard) and plumber (a tool to make your analysis available through a web API). It helps if you have a little bit of web experience but it is not required. It is expected that you are familiar with basic analysis in R.
Requirements: be able to write an analysis in R, I will assume prior (but modest) experience, and have the most recent version of Rstudio installed. (own computer)
Célok
Az egész napos szeminárium gyakorlatilag egy adatbányászati gyors talpaló. Az adatok mennyisége és minősége számos elemzési lehetőséget rejt a cégek számára, azonban ezeket csak ritkán aknázzák ki. Pedig az adatbányászati elemzések régóta nem számítanak elérhetlennek. A különböző Open Source megoldások (pl. R, RapidMiner) segítségével viszonylag rövid időn belül lehet látványos eredményeket elérni.
A szeminárium célja, hogy néhány tipikus adatbányászati alkalmazást mutassunk be különböző platformokon. Ennek részeként bemutatásra kerül, hogy
Tematika
A következő témákat érintjük
Kinek szól?
Gyakorlatilag mindenkinek, akiben ott motoszkál egy kis elemzői véna.
Előfeltétel: Alapvető informatikai és Microsoft Excel ismeretek valamint saját laptop az önálló gyakorláshoz.
Innováció a BI-ban workshop
Az egész napos workshop az üzleti intelligencia aktuális trendjeiről, eszközökről és megoldásokról ad körképet, és bemutatja a BI piac meghatáozóró szereplőinek stratégiáját és szoftverkínálatát.
Délután
Szállítói körkép
A BI piac mérete és szegmensei
A négy óriás (IBM-Cognos, Microsoft, Oracle, SAP- BusinessObjects)
A specialisták (MicroStrategy, Qlik, SAS, Tableau)
Feltörekvő cégek, akikre érdemes figyelni
Eszközválasztás
Mire érdemes figyelni BI szoftverek kiválasztásánál
Néhány ingyenesen elérhető BI szoftver
Részvételi feltételek: Általános informatikai ismeretek
This meetup will let you meet and greet our speakers and listen to a variety of quick talks.
Participating partner meetups: Budapest BI meetup, Budapest Users of R Network (BURN) meetup, Budapest.Py meetup.
List of talks:
Pokemon and Starcraft
In this short talk I'll demo two quick analyses that allowed me to make better decisions in video games. I'll demonstrate how to calculate an optimal portfolio of Pokemon as well as a defence selector for StarCraft 2: nexus wars.
Vincent Warmerdam, GoDataDriven
Python's High Performance Landscape
A short review of Python's high-performance-computing landscape by the author of O'Reilly's High Performance Python book focusing on CPU-bound and RAM-bound processing problems
Ian Ozsvald,ModelInsight.io
Intro to NumPy
The numpy package takes a central role in Python data science code for numerical processing.This is mainly because numpy code has been designed with high performance in mind. This short talk will highlight the most essential features of numpy by discussing some concrete examples where numpy takes a central role.
Valerio Maggio, University of Salerno
Rango - Databases made easy
Rango is a package that makes it easy to use relational databases directly from R and without a line of SQL (an Object Relational Mapper in tech-speak).Rango creates joins automatically and optimizes where possible, the same code works on multiple database back-ends.
Willem Ligtenberg, Open Analytics
In-memory analytics on JSON-like data
This talk gives an overview of techniques for data structures for efficient analysis of semi-structured (e.g. JSON) data.
Wes McKinney, Cloudera
Planned schedule:
18:30 Doors Open
19:00 Talks
19:45 Break
20:00 Talks
21:00 Meetup finishes
The step from "it works in R&D!" to "hey, its deployed and we trust it!" takes a lot of work. I've been deploying working data science products from conception through to production for 17 years. I'll boil down the main steps you need to focus on to deal effectively with bad data, complicated data and algorithm dependencies, debugging, reporting and APIs and robust deployments. This talk focuses on Python but the main lessons and horror stories will apply to all languages.
If you're fresh out of academia and want to do data science then this will open your eyes to how 'stuff works in industry'. If you're in a growing data science team then you can learn from my mistakes! Be more effective, stop fighting fires and burning time.
While Python is a de-facto language for modern data engineering and data science, Python development has been confined to local data processing—thereby limiting its users to smaller data sets. Historically, to address bigger data workloads, Python developers have had to extract samples or aggregates, forcing compromises in data fidelity, adding ETL costs, and ultimately leading to a loss of productivity and addressable use cases.
Ibis, a new open source data analytics framework for Python developers, has the goal of enabling the Python data ecosystem (NumPy, pandas, etc.) to operate efficiently at Hadoop scale. To enable high performance Python at scale without the age-old JVM interoperability problems, we are exploiting unique synergies between Python and Impala, the leading open source MPP analytical query engine. In this talk, Ibis creator Wes McKinney, who was also the creator of pandas, will give an overview of Ibis and the upcoming project roadmap.
Luigi is a Python module for building complex pipelines of batch jobs. It handles dependency resolution, workflow management, visualization and more. I've picked three topics covering the framework itself, the open source aspect of Luigi and the fact that we use Luigi at a Spotify scale:
* Declarative Python Programming in Luigi
* Building an open source community
* Anecdotes of operating Luigi in Spotify
Luigi has a very vibrant community with many pull requests per day and hundreds of contributors. You can check it out at https://github.com/spotify/luigi
One point usually underestimated or omitted when dealing with machine learning algorithms is how to write *good quality* code. The obvious way to face this issue is to apply automated testing, which aims at implementing (likely) less-buggy and higher quality code.
However, testing machine learning code introduces additional concerns that has to be considered. On the one hand, some constraints are imposed by the domain, and the risks intrinsically related to machine learning methods, such as handling unstable data, or avoid under/overfitting. On the other hand, testing scientific code requires additional testing tools (e.g., `numpy.testing`), specifically suited to handle numerical data.
In this talk, some of the most famous machine learning techniques will be discudded and analysed from the `testing` point of view, emphasizing that testing would also allow for a better understanding of how the whole learning model works under the hood.
The talk is intended for an *intermediate* audience. The content of the talk is intended to be mostly practical, and code oriented. Thus a good proficiency with the Python language is **required**. Conversely, **no prior knowledge** about testing nor Machine LearningFinding a good structure for number-crunching code can be a problem, this especially applies to routines preceding the core algorithms: transformations such as data processing and cleanup, as well as feature construction. With such code, the programmer faces the problem, that their code easily turns into a sequence of highly interdependent operations, which are hard to separate. It can be challenging to test, maintain and reuse such “Data Science Spaghetti code”.
Data scientists are faced with these problems on a day-to-day basis when writing machine learning pipelines. This is even more important if the models should be used in a production environment. Scikit-Learn offers a simple yet powerful interface for data science algorithms: the estimator and composite classes (called meta-estimators). By example, I show how clever usage of meta-estimators can encapsulate elaborate machine Looking at examples, I will show how this approach simplifies model development, testing and validation and how to brings together best practices from software engineering as well as data science.learning models into a maintainable tree of objects that is both handy to use and simple to test.
While mainstream data scientists use Python and R as their primary tools there are many other languages that provide additional benefits compared to these traditional tools. The session tries to showcase three examples: how Haskell, Clojure and Julia can help you to write scalable, error-free, well-performing algorithms.
It is an undeniable fact that there is an increasing level of awareness of the benefits of adopting a more analytical approach and a recognition that analytics play a major role in better decision making. A new analytics culture is emerging on the foundation of access to lots of data, an unconventional spirit towards exploring information and new techniques & scalable computing power. Like every change in the world and progress towards adoption of innovative cultures, there are challenges and approaches. This session enlists some of these challenges & approaches and discusses how newer technologies in the space of data visualization and analytical modelling converge the capabilities to provide approachable analytics helping organizations put analytics in action.
How to deliver an on-time, on-spec, and on-budget near real-time BI solution for multi-user environment and overcome technical and project managerial challenges of iterative development in a traditional heavy industry.
A SAS újgenerációs BI eszköze egy nagy teljesítményű, memória alapú megoldás, mellyel a felhasználók adatelemzéseket, interaktív jelentéseket és mélyebb analitikai felismeréseket végezhetnek, minden eddiginél gyorsabban, tetszőleges méretű adaton. Az adatok vizuális és interaktív feltárásával valamint az analitikai elemzések révén a felhasználók széles köre számára biztosított az önálló adatfeltárás lehetősége új készségek elsajátítása vagy az IT bevonása nélkül.
Az előadásban az eszköz tulajdonságainak áttekintése mellett röviden bemutatjuk a SAS Visual Analytics elemző és riportkészítő képességeit.
Dashboards and scorecards can be the most effective tools for performance management – only if they are designed by the appropriate method. The perfect dashboard includes the right set of key performance indicators and all the necessary dimensions. It is simple and easy to use but provide the answer for all the strategic business questions. The logical structure and beautiful design must hide the complexity of the huge amount of data behind and give inspiration for business actions by impressive visualizations. I will talk about the art of designing a powerful dashboard for driving performance management:
– How to understand and collect the business requirements
– Some best practises and methodologies about dashboard design
– What other key issues must be handled for a successful dashboard implementation