Graeme Noseworthy munkakörét nehéz pontosan meghatározni. A strategic messaging director túl papírízű, a gyakorlatban viszont érthető: technológiai evangelistaként Noseworthy a big data (nagy adat) előnyeiről tart előadásokat és készít olyan előrejelzési modelleket, amikkel az internetezők és médiafogyasztók viselkedési szokásait elemzik. Vele beszélgettünk a big datáról, a mozifilmek várható sikereiről, hogy miért utálják a Twitteren az Alvin és a mókusokat, és hogy miként épül fel a múlt és a jelen adataiból a jövő.

A big data mostanában legalább olyan gyakran visszatérő kifejezés – sőt buzzword –, mint az internet of things, a gamification vagy a startup. Van még egy közös vonásuk: ezek már létező dolgok, csak a modern technikával újraértelmezik őket. Big data analízis = rengeteg információ + ezekben megfigyelhető minták, trendek és ismétlődések vizsgálata.

Graeme Noseworthy, az IBM szakértője ezeket a mintákat keresi – és meg is találja őket.

A big data analízis éppúgy használható az üzleti elemzés, mint a marketing területén: segíthet a cégeknek, hogy jobban megismerjék a vásárlóikat önálló személyként, így személyre szabott ajánlatokat tehetnek nekik, magyarázza Noseworthy.

Bár ez pont úgy hangzik, mint a szokásos vállalati bullshit, abban igaza van, hogy a marketing korábban inkább az új vásárlók megnyeréséről, a márka ismertségének terjesztéséről szólt. A big data elemzések ezzel szemben személyre szabott ajánlattételt, illetve a vásárlói csoportok jobb elkülönítését szolgálják, így növelve a reklám és az értékesítés hatékonyságát.

És hogy mire jó még? Például egy nagyobb viszonteladóláncnál sokat segíthet a raktárkészlet-felügyeletben, a lopások és visszaélések számának csökkentésében, vagy a folyamatok optimalizálásában - sorolja Noseworthy. Az analitika gyakorlatilag minden cégnél javíthatja az egyes folyamatok minőségét.

Nem kell találgatni, ha tudhatjuk is.

– összegzi Noseworthy a módszertan lényegét.

Filmekkel bizonyítottan működik

Noseworthy egyik legismertebb eredménye a big data elemzésben egy filmipari előrejelzési modell; ezzel megjósolható, hogy egy mozifilm hogy fog teljesíteni a nyitó hétvégén a pénztáraknál. Ebben több nagy, az Egyesült Államokban működő filmes cég is támogatta.

Egy mozifilm esetén csak általában találgatni lehet, hogy milyen eredménye lesz jegyeladásban. Egy sikervárományos filmre gyakran több százmillió, a reklámozására több tízmillió dollárt is költhetnek; az Avatarnál a gyártási költség állítólag több mint félmilliárd volt, és a reklámköltségek is túllépték a 350 millió dollárt. És egyszerűen nem lehetett előre tudni, hogy milyen lesz a film fogadtatása.

A big data analízis ebben segít: a fogyasztói szokások elemzésével például hamar kideríthető, hogy az Avatarnak Kaliforniában sok nézője lesz, míg New Englandben vagy Floridában kevesebb. Már ennek a felismerése is segíthet a marketingköltség optimalizálásában. De hogy épül föl egy ilyen modell? Noseworthy szerint az elemzésnél először is meg kell határozni, hogy

pontosan mit szeretnénk megismerni (ebben az esetben: a film várható bevételeit a nyitó hétvégén);
milyen kulcsfontosságú teljesítménymutatók (key performance indicator) határozzák meg a film népszerűségét, és hogy lehet ezeket mérni;
milyen adatforrásokból szeretnénk dolgozni; ezek lehetnek külső, máshonnan elérhető adatok, vagy olyanok, amiket maga a megbízó cég adott.

A mozibevételes előrejelzési modellhez több mint 200, korábban megjelent film fogadtatását elemezték.

Minél több adatot gyűjtünk be, annál jobban megerősíthetjük a modellt.

– magyarázza Noseworthy.

A külső forrásokat nyilvános adatbázisokból szerezték, például az IMDB, a Moviereview vagy a Los Angeles Times filmes értékeléseiből. Ehhez hozzáadták a közösségi médiából érkező reakciókat és nézettségi adatokat: ilyen például a youtube-os trailermegtekintések száma, az előzetesek alá érkezett kommentek, vagy a filmmel kapcsolatos Twitter-bejegyzések. A mozik hirdetési modelljének és marketingstruktúrájának felismerése viszonylag egyszerű volt. Noseworthy szerint ezek mindig ugyanazt az ütemtervet követik:

12 héttel a film moziba kerülése előtt beindul a film reklámkampánya, jönnek az első kedvcsináló (teaser) videók.
8 héttel a megjelenés előtt sajtótájékoztatókat tartanak, a filmmel kapcsolatos információk feltűnnek a mainstream médiában.
6 héttel a debüt előtt jön a film hivatalos trailere.
2 héttel a megjelenés előtt a film szereplői tévéinterjúkat adnak.
1 héttel a bemutató előtt indul a visszaszámlálás a premierig.

Az IBM-es kutatók mindezt visszafejtették, és megállapították, hogy ezzel a módszerrel viszonylag könnyen és pontosan elkülöníthetők az egyes filmtípusok; a blockbuster sikerfilmek, a családi filmek és a romantikus filmek. Viszont, ha van elég adat, akár az is visszafejthető, hogy régiók és filmtípusok alapján melyik film milyen fogadtatásra számíthat.

A hiba előnnyé formálható

De vajon mindenre alkalmazható a modell? Noseworthy elismeri: van, ahol ez a modell megbicsaklik; példaként a live action kid movies (élőszereplős gyerekfilm) műfaját említi.

Míg az Avengersnél a közösségi médiában feltűnő reakciók, a területenként változó médiafogyasztási szokások és a hasonló filmek értékelései alapján lehet sejteni, hogy jól fog teljesíteni a kasszáknál, az Alvin és a mókusok már más eredményt fog hozni. Ennek is mérték a várható teljesítményét, de a Facebookon és a Twitteren negatív volt a fogadtatása – annak ellenére, hogy maga a film üzletileg sikeres volt. Hogy miért?

Azért, mert a gyerekek nem twittereznek, így az ő véleményük nem jelentkezett a közösségi médiában. Csak a szülőké, akik a gyerekekkel nézték a filmet. Amit egyébként ki nem állhattak.

Az ilyen esetek viszont Noseworthy szerint nem gyengítik a modellt, hanem erősítik. Ha ismerik ezt a változót a képletben, a következő mérésnél ezt is figyelembe vehetik, így a hátrányból előnyt kovácsolhatnak. A mérések legalábbis ezt igazolják: minél több adatot használtak a modellhez, annál pontosabb lett a nyitó hétvégére vonatkozó becslés.

Ilyenkor persze felmerül a kérdés: honnan lehet tudni, hogy a hatalmas mennyiségű adatban nem csak véletlen mintákat ismernek föl, hanem olyan összefüggéseket, amiket az üzleti életben is hasznosítani lehet? Noseworthy szerint ezt csak a modellek tesztelése bizonyíthatja, de legalább ilyen fontos, hogy a megfelelő adatokat válogassuk ki. Megemlíti a GIGO (garbage in, garbage out) elvét is; a kifejezés azt jelenti, hogy használhatatlan adatokból csak értelmezhetetlen végeredmény születik. A tesztek az ilyet kiszűrik, és egyre közelebb kerülhet a kitűzött cél, ahogy

a használható adatokra épülő modell idővel igazolja a saját működőképességét.

De ha az elérhető adatok mennyisége javítja az előrejelzés pontosságát, ez nem azt jelzi, hogy a big data elemzések legnagyobb nyertesei azok lesznek, akik a legtöbb adathoz férnek hozzá? Például a Google és a Facebook, akik csillió gigabájtnyi adat tetején üldögélnek. Mi lesz a kisebb cégekkel, akik nem férnek hozzá ennyi adathoz?

Az információt nemcsak alapegységekben, terabájtokban és petabájtokban lehet mérni; a big data részét képező információnak más tulajdonságai is vannak. A 3V (néha 4V) néven ismert definícióra hivatkozik, amik más és más tulajdonságaik szerint csoportosítják az adatot:

Volume: az elérhető információ mennyisége.
Velocity: ezek a nagy sebességgel mozgó adatok, például a megosztások a közösségi médiában, a facebookos-twitteres állapotfrissítések.
Variety: ez az adattípusok sokféleségét mutatja. Értékes információt több forrásból lehet szerezni; például strukturált, szervezetlen, közösségi hálózatokról vagy médiaügynökségektől származó adatokból.

Noseworthy ekkor árulja el, hogy tulajdonképpen mi tekinthető big datának:

Amikor a munkához használt adat mennyisége akkorára nő, hogy az meghaladja a rendszerünk számítási teljesítményét.

Ennek nem kell feltétlenül nagy mennyiségű adatnak lennie; egy áruházlánc adatforgalma például egy sima laptoppal is kezelhető. A Google-nek rengeteg adata van, de nem ez a lényeg, hanem az, hogy milyen kérdésre keresünk választ, és ehhez milyen típusú adatokat tudunk szerezni. A nyers adatmennyiséget nézve a Google előnyben van, de lehet, hogy egy kisebb kereskedőláncnak már annyi adat is sok, ami egy óriáscégnek gyakorlatilag semmi.

Éppen ezért fontos az adatok minőségének biztosítása. Nincs olyan architektúra, ami erre megoldást kínálna: az adatbányász (data scientist) feladata, hogy kiválogassa a szükséges információkat, amikhez hozzáférhet, és meghatározza, mi a mozgó és mi a nyugvó adat. Ahhoz például, hogy egy film sikerességét meg lehessen jósolni, nem kell mindent tudnunk a filmről, ami a közösségi médiában elhangzott róla, csak a releváns adatokat kell elkülöníteni.

Az adatok elemzése viszont szakértőt igényel. Egy szórakoztatóipari cégnek rengeteg adata lehet, de ők nem adatbányászok, így nem tudnak mit kezdeni ezekkel az információkkal. Noseworthy szerint az a legjobb, ha a laikusoknak adatvizualizációval mutatják be, hogy milyen fogadtatása lehet egy-egy terméknek. A szakértők többször bizonyított modelleket használnak, és olyan összefüggéseket is felismerhetnek, amit nyers formában szinte senki, de feldolgozott adatként már a kreatívok vagy a marketingesek is felhasználhatják.

Már holnap van

Hogy a big data nem vadonatúj dolog, azt Noseworthy is elismeri. A Mad Men tévésorozatot hozza föl példának, ahol a legújabb évad egyik epizódjában Ginsberg, a reklámügynökségi kreatív frászt kap attól, hogy az ügynökség számítógépet vásárol, és attól tart, hogy ez ki fogja szorítani a kreatívokat. Az az epizód 1969-ben játszódott, és akkor tényleg riasztó perspektívának tűnhetett az elgépesedés. Ehhez képest ma már minden irodában vagy tucatnyi számítógép van.

Ez nem a jövő; a marketinget és a reklámot már régóta próbálják közös platformra hozni az informatikával, csak most már sokkal gyorsabban csinálhatjuk. Ami akkor órákig, napokig tartott, azt ma már töredékmásodpercek alatt elvégezhetjük. Nagyon izgalmas időket élünk.

Forrás