středa 7. listopadu 2012

Gephi Tutorial - Layouts

Tutoriál linkovaný ze stránky Gephi.org. Představení různých layoutů zobrazení sítí, výhody a specifika.

Společné zájmy na Facebooku

Cvičení z analýzy sociální sítě, popsané na ouseful.info (Social Interest Positioning – Visualising Facebook Friends’ Likes With Data Grabbed Using Google Refine). Původní tutoriál končí v místě, kde si autor k očistění JSONu pomůže skriptem v jazyce Python. Protože programovat tady neumíme, hledám způsob, jak se pohnout z místa. Po vyčerpávajícím googlení až na samé hranici možností to mám!

Magická formule, která v Google Refine vyextrahuje z JSONu pouze názvy likes:

forEach(value.parseJson().data,v,v.name).join(",")

V Google Refine vyberte Edit Column / Add column based on this column a do pole Expression vložte výraz. Vznikne nový sloupec a bude obsahovat čistě jen názvy likes. Potom pomocí Edit Cells / Split multi-valued cells dostaneme každý like na jeden řádek.

Tabulku uložíme do excelu.

Teď půjde o to upravit soubor tak, aby byl čitelný v Gephi. Potřebujeme .csv se dvěma sloupci: Source a Target. Likes je víc než jmen uživatelů, proto potřebujeme jména doplnit do prázdných políček (blanks).
Funkční návod jsem našel na jednom fóru:


Highlight that column, then press F5 (GoTo), click on Special and then on Blanks - this should now highlight only the blanks, with the active cell being the first blank cell under the first data value. then begin to type a formula by typing =, then click on the cell above, then CTRL- Enter.


V Gephi otevřeme Data Laboratory a klikneme na import spreadsheet. Zvolíme import Edges a potvrdíme.

Následně objevíme problém s kódováním češtiny. Existuje nějaké elegantní řešení jak u CSV nastavit kódování? Protože o žádném nevím, po(s)tupně (omezení max. 50000 záznamů v jednom Ctrl+v) jsem vložil všechny řádky do Google Docs a znovu stáhnul. Kódování bylo v pořádku.

A jaký je výsledek? Zatím pouze chaos:



Ještě na tom zapracuju ;)

neděle 4. listopadu 2012

Míra nezaměstnanosti v Evropě



Interaktivní Super chaotickej graf!

Nejnižší míra nezaměstnanosti je dlouhodobě v Norsku (3 %), následuje Rakousko a Lucembursko.
Extrémní situace vzhledem k Evropskému průměru je naopak ve Španělsku a Řecku, kde je bez práce čtvrtina obyvatel.

Stálo by za to vypočítat korelace a předpovídat nezaměstnanost na základě vývoje v jiných zemích?

sobota 3. listopadu 2012

Vyplatí se nám tankovat u sousedů?

Ceny benzinu natural 95 v ČR a sousedních zemích:


Ceny nafty v ČR a sousedních zemích:


Zdroj dat: http://www.google.com/publicdata/

Ceny celkem nepřekvapivě v celé střední Evropě poměrně vyrovnaně stoupají. Obě komodity jsou k dostání výhodněji pouze v Polsku. Na Slovensku je levnější nafta, dražší benzin. Ceny v ČR jsou nejpodobnější cenám v Rakousku. Nejvíc zaplatíme v Německu.

Hurá do Polska! ;)

Analýza Twitteru

Narazil jsem na obsáhlý seznam analytických nástrojů pro statistiky aktivit Twitteru.
Z nich mě zaujaly dva:

Twitonomy nabízí vyčerpávající analytiku tweetů, RT, zmínek, hashtagů, odpovědí a aktivitu účtu. Informace podává přehledně pomocí grafů a tabulek - stačí jen uložit a použít do prezentace ;)


Mentionmap naproti tomu analyzuje zmínky a hashtagy a zobrazuje je je ve formě sítě vztahů. Na první pohled vidíme influencery, přes které se sdělení šíří nejdál, ale i okruh témat, která jsou v nějakém spojení. Klikáním na jednotlivé uzly se odhaluje další část mapy sítě a nová témata.

Projev M. Ahmadinejada v OSN 2012: Příklad vizualizace textu jako sítě

Most influential keywords in this text

world    nation    human    order

Most influential contexts in this text

#0:   world    order    current    power
#1:   nation    member    great    discrimination
#2:   human    people    justice    love
#3:   happiness    peace    life    security





Zdroj: http://textexture.com

čtvrtek 1. listopadu 2012

Vizualizace sítě přátel na Facebooku


(Velikost 1920x1200 po kliknutí)

Gephi layout: Radial axis

  • Group nodes by: Modularity class
  • Order nodes: Degree

Zobrazení hlavních skupin uvnitř sítě jsem docílil pomocí statistiky Modularity. Každá skupina je zobrazena jako jedna větev. Uzly  a jména jsou řazeny podle stupně provázanosti (Degree). Největší propojenost mají uzly ve středu grafu.

Tutorial:

nebo

Aplikace pro sběr dat z Facebooku

https://apps.facebook.com/netvizz

Aplikace pro vizualizaci dat

https://gephi.org
http://noduslabs.com

Více o SNA (Social Network Analysis)

Introduction to social network methods - http://faculty.ucr.edu/~hanneman/nettext/index.html
Jan Schmid, Analýza sociálních sítí v praxi - http://www.nodeandtie.cz/