Tutoriál linkovaný ze stránky Gephi.org. Představení různých layoutů zobrazení sítí, výhody a specifika.
Baví mě data, grafy a estetika vizuálních informací :: Visual Sociology :: Data Journalism :: Analýza sociálních sítí
středa 7. listopadu 2012
Společné zájmy na Facebooku
Cvičení z analýzy sociální sítě, popsané na ouseful.info (Social Interest Positioning – Visualising Facebook Friends’ Likes With Data Grabbed Using Google Refine). Původní tutoriál končí v místě, kde si autor k očistění JSONu pomůže skriptem v jazyce Python. Protože programovat tady neumíme, hledám způsob, jak se pohnout z místa. Po vyčerpávajícím googlení až na samé hranici možností to mám!
Magická formule, která v Google Refine vyextrahuje z JSONu pouze názvy likes:
forEach(value.parseJson().data,v,v.name).join(",")
V Google Refine vyberte Edit Column / Add column based on this column a do pole Expression vložte výraz. Vznikne nový sloupec a bude obsahovat čistě jen názvy likes. Potom pomocí Edit Cells / Split multi-valued cells dostaneme každý like na jeden řádek.
Tabulku uložíme do excelu.
Teď půjde o to upravit soubor tak, aby byl čitelný v Gephi. Potřebujeme .csv se dvěma sloupci: Source a Target. Likes je víc než jmen uživatelů, proto potřebujeme jména doplnit do prázdných políček (blanks).
Funkční návod jsem našel na jednom fóru:
Highlight that column, then press F5 (GoTo), click on Special and then on Blanks - this should now highlight only the blanks, with the active cell being the first blank cell under the first data value. then begin to type a formula by typing =, then click on the cell above, then CTRL- Enter.
V Gephi otevřeme Data Laboratory a klikneme na import spreadsheet. Zvolíme import Edges a potvrdíme.
Následně objevíme problém s kódováním češtiny. Existuje nějaké elegantní řešení jak u CSV nastavit kódování? Protože o žádném nevím, po(s)tupně (omezení max. 50000 záznamů v jednom Ctrl+v) jsem vložil všechny řádky do Google Docs a znovu stáhnul. Kódování bylo v pořádku.
A jaký je výsledek? Zatím pouze chaos:
Ještě na tom zapracuju ;)
Magická formule, která v Google Refine vyextrahuje z JSONu pouze názvy likes:
forEach(value.parseJson().data,v,v.name).join(",")
V Google Refine vyberte Edit Column / Add column based on this column a do pole Expression vložte výraz. Vznikne nový sloupec a bude obsahovat čistě jen názvy likes. Potom pomocí Edit Cells / Split multi-valued cells dostaneme každý like na jeden řádek.
Tabulku uložíme do excelu.
Teď půjde o to upravit soubor tak, aby byl čitelný v Gephi. Potřebujeme .csv se dvěma sloupci: Source a Target. Likes je víc než jmen uživatelů, proto potřebujeme jména doplnit do prázdných políček (blanks).
Funkční návod jsem našel na jednom fóru:
Highlight that column, then press F5 (GoTo), click on Special and then on Blanks - this should now highlight only the blanks, with the active cell being the first blank cell under the first data value. then begin to type a formula by typing =, then click on the cell above, then CTRL- Enter.
V Gephi otevřeme Data Laboratory a klikneme na import spreadsheet. Zvolíme import Edges a potvrdíme.
Následně objevíme problém s kódováním češtiny. Existuje nějaké elegantní řešení jak u CSV nastavit kódování? Protože o žádném nevím, po(s)tupně (omezení max. 50000 záznamů v jednom Ctrl+v) jsem vložil všechny řádky do Google Docs a znovu stáhnul. Kódování bylo v pořádku.
Ještě na tom zapracuju ;)
neděle 4. listopadu 2012
Míra nezaměstnanosti v Evropě
Interaktivní Super chaotickej graf!
Nejnižší míra nezaměstnanosti je dlouhodobě v Norsku (3 %), následuje Rakousko a Lucembursko.
Extrémní situace vzhledem k Evropskému průměru je naopak ve Španělsku a Řecku, kde je bez práce čtvrtina obyvatel.
Stálo by za to vypočítat korelace a předpovídat nezaměstnanost na základě vývoje v jiných zemích?
sobota 3. listopadu 2012
Vyplatí se nám tankovat u sousedů?
Ceny benzinu natural 95 v ČR a sousedních zemích:
Ceny nafty v ČR a sousedních zemích:
Zdroj dat: http://www.google.com/publicdata/
Ceny celkem nepřekvapivě v celé střední Evropě poměrně vyrovnaně stoupají. Obě komodity jsou k dostání výhodněji pouze v Polsku. Na Slovensku je levnější nafta, dražší benzin. Ceny v ČR jsou nejpodobnější cenám v Rakousku. Nejvíc zaplatíme v Německu.
Hurá do Polska! ;)
Ceny nafty v ČR a sousedních zemích:
Zdroj dat: http://www.google.com/publicdata/
Ceny celkem nepřekvapivě v celé střední Evropě poměrně vyrovnaně stoupají. Obě komodity jsou k dostání výhodněji pouze v Polsku. Na Slovensku je levnější nafta, dražší benzin. Ceny v ČR jsou nejpodobnější cenám v Rakousku. Nejvíc zaplatíme v Německu.
Hurá do Polska! ;)
Analýza Twitteru
Narazil jsem na obsáhlý seznam analytických nástrojů pro statistiky aktivit Twitteru.
Z nich mě zaujaly dva:
Twitonomy nabízí vyčerpávající analytiku tweetů, RT, zmínek, hashtagů, odpovědí a aktivitu účtu. Informace podává přehledně pomocí grafů a tabulek - stačí jen uložit a použít do prezentace ;)
Mentionmap naproti tomu analyzuje zmínky a hashtagy a zobrazuje je je ve formě sítě vztahů. Na první pohled vidíme influencery, přes které se sdělení šíří nejdál, ale i okruh témat, která jsou v nějakém spojení. Klikáním na jednotlivé uzly se odhaluje další část mapy sítě a nová témata.
Z nich mě zaujaly dva:
Twitonomy nabízí vyčerpávající analytiku tweetů, RT, zmínek, hashtagů, odpovědí a aktivitu účtu. Informace podává přehledně pomocí grafů a tabulek - stačí jen uložit a použít do prezentace ;)
Mentionmap naproti tomu analyzuje zmínky a hashtagy a zobrazuje je je ve formě sítě vztahů. Na první pohled vidíme influencery, přes které se sdělení šíří nejdál, ale i okruh témat, která jsou v nějakém spojení. Klikáním na jednotlivé uzly se odhaluje další část mapy sítě a nová témata.
Projev M. Ahmadinejada v OSN 2012: Příklad vizualizace textu jako sítě
Most influential keywords in this text
world nation human orderMost influential contexts in this text
#0: world order current power#1: nation member great discrimination
#2: human people justice love
#3: happiness peace life security
Zdroj: http://textexture.com
čtvrtek 1. listopadu 2012
Vizualizace sítě přátel na Facebooku
|
(Velikost 1920x1200 po kliknutí)Gephi layout: Radial axis
Zobrazení hlavních skupin uvnitř sítě jsem docílil pomocí statistiky Modularity. Každá skupina je zobrazena jako jedna větev. Uzly a jména jsou řazeny podle stupně provázanosti (Degree). Největší propojenost mají uzly ve středu grafu.Tutorial:
nebo
Aplikace pro sběr dat z Facebooku
https://apps.facebook.com/netvizz
Aplikace pro vizualizaci dathttps://gephi.orghttp://noduslabs.com Více o SNA (Social Network Analysis)
Introduction to social network methods - http://faculty.ucr.edu/~hanneman/nettext/index.html
Jan Schmid, Analýza sociálních sítí v praxi - http://www.nodeandtie.cz/
Josef Šlerka - http://pointu.blog.cz/1102/uvod-do-analyzy-socialnich-siti
|
Přihlásit se k odběru:
Příspěvky (Atom)