Analýza sentimentu v aplikaci Excel! K dispozici je bezplatný doplněk z Microsoft Labs, který vám umožní provádět analýzu sentimentu v aplikaci Excel. Co když musíte projít stovkami komentářů průzkumu, abyste zjistili, co si lidé o vaší společnosti myslí? Excel může přiřadit pravděpodobnost, která ukazuje, jak pozitivní nebo negativní je každý komentář.
Sledovat video
- Je snadné kvantifikovat údaje z průzkumu, pokud mají výběr z více možností
- Pomocí kontingenční tabulky můžete zjistit, jaké procento má každá odpověď
- Ale co volné odpovědi na text? Je těžké je zpracovat, pokud jich máte stovky nebo tisíce.
- Analýza sentimentu je strojová metoda pro predikci, zda je odpověď pozitivní nebo negativní.
- Microsoft nabízí nástroj, který provádí analýzu sentimentu v aplikaci Excel - Azure Machine Learning.
- Tradiční analýza sentimentu vyžaduje, aby člověk analyzoval a kategorizoval 5% výroků.
- Tradiční analýza sentimentu není flexibilní - znovu vytvoříte slovník pro každé odvětví.
- Excel používá MPQA Subjectivity Lexicon (o tom si přečtěte na http: // bit. Ly / 1SRNevt)
- Tento obecný slovník obsahuje 5 097 negativních a 2 533 pozitivních slov
- Každému slovu je přiřazena silná nebo slabá polarita
- To funguje skvěle pro krátké věty, jako jsou tweety nebo příspěvky na Facebooku
- Může se nechat zmást dvojitými negativy
- Chcete-li nainstalovat, přejděte do Vložit, Excel Store, vyhledejte Azure Machine Learning
- Zadejte vstupní rozsah a dva prázdné sloupce pro výstupní rozsah.
- Nadpis vstupního rozsahu musí odpovídat schématu: tweet_text
- Doprovodný článek na adrese: http://sfmagazine.com/post-entry/may-2016-excel-sentiment-analysis/
Přepis videa
Naučte se Excel z Podcastu, epizoda 2062: Analýza sentimentu v aplikaci Excel
Ahoj, byla to noc díkůvzdání a my jsme seděli kolem dýňového koláče a Jes, náš přítel, začal mluvit o tom, že dělá analýzu sentimentu na datech z Twitteru. A já jsem řekl: „Hej, víš, že Excel má způsob, jak provádět analýzu sentimentu.“ A uvědomil jsem si, že k tomu nemám dobré video ani k tomu žádné video, takže toto video je o analýze sentimentu v Excelu.
První otázka nyní zní, co je sakra analýza sentimentu? A pokud provedete průzkum mezi svými zákazníky, kteří mají výběr z více možností, kde si mohou vybrat od 1 do 5, je to opravdu, opravdu snadné analyzovat. Stačí vytvořit malou kontingenční tabulku: Vložit kontingenční tabulku, existující list přímo sem, kliknout na OK. Chceme znát otázku tam nebo odpověď na otázku a poté, kolik odpovědí na každou z nich bylo, a to nám dává absolutní počet. Můžete dokonce přijít sem a změnit to z Nastavení pole na Zobrazit hodnoty jako% z celkového počtu sloupců.
Dobře, takže u každé odpovědi vidíte, jaké procento lidí dostane odpověď. Dobře, ale analýza sentimentu je, když máte opravdu dlouhou odpověď, kde říkáte: „Hej, dobře, víš, řekni nám, proč jsi nám dal tu odpověď?“ A oni, jak víte, používají věty nebo odstavce. Pokud jich máte stovky nebo tisíce, je pro někoho velmi těžké projít si je, přečíst je všechny a zjistit, o co jde, dobře?
Existují tedy dva různé druhy analýzy sentimentu. Obvykle jste v minulosti používali algoritmus učení pod dohledem člověka. Takže pokud jste měli 5 000 odpovědí, projděte si, víte, 200 z nich a vyberte pozitivní a negativní slova a fráze. V podstatě budujete slovník pozitivních a negativních slov; ale víte, bylo to velmi omezující. Pokud jste to udělali pro místo, které opravovalo auto, a pak jste měli jiného zákazníka, víte, kdo čistil koberce, jsou tyto dva slovníky úplně jiné. Musíte dělat strojové učení nebo učení pod dohledem člověka znovu a znovu a znovu. Excel tedy používá tuto věc nazvanou MPQA Subjectivity Lexicon a vy můžete jít na Google. Má informace o tom - 5 097 negativních slov, 2533 pozitivních slov. A tak,funguje to skvěle pro krátké věty nebo tweety nebo příspěvky na Facebooku. Ale jednu věc jsem si všiml, že pokud někdo píše dvojité negativy, nemohu říci, že tuto funkci nesnáším, no, strojové učení tam selže. A sakra, já selhal. Nevím, jestli jsou šťastní nebo ne.
Dobře, takže tady je to, co děláme. V aplikaci Excel 2013 nebo Excel 2016 přejděte na kartu Vložit, přejděte do obchodu, když se objeví vyhledávací pole, vyhledejte Azure Machine a přímo tam získáte Azure Machine Learning. Klikneme na Přidat. Dobře, a dva různé nástroje: Titanic Survivor Predictor, což je zábava; a doplněk Excel pro analýzu textového sentimentu. Použijme tenhle. Dobře, tady je pár věcí, které vás podrazí. Váš nadpis: Vyjměte odstavec a vysvětlete svou odpověď. Musí odpovídat schématu a schéma říká, že nadpis musí říkat tweet_text. Takže tady nahoře: tweet_text, samozřejmě, záleží na velikosti písmen, dobře. A poté zavřete schéma a poté Predikce, Vstup: A1 až 100, Moje data mají záhlaví, Výstup: DataB1, Zahrnout záhlaví. Dají nám 2 sloupce.Ujistěte se, že tam máte 2 prázdné sloupce; jinak to přepíše data. Máte 2 možnosti: Několik řádků najednou nebo Jako dávku. To je jen sto, takže na tom opravdu nezáleží. Vyberu Predict a BAM! Jen tak rychle.
Dobře, teď máme 2 sloupce: dostaneme sentiment a skóre, dobře. Představujme zde tedy skóre jako procenta se spoustou desetinných míst. Dobře, takže 47 496, to jde z 0 na 100%. Blízko 100 je extrémně pozitivní, blízko 0 je extrémně negativní, dobře? Takže tady máme jeden, kde je menší problém, který mě přivádí k šílenství. Nelze najít řešení, takže vidíte, proč je to hodnoceno jako extrémně negativní. Podívejme se na ten, který přijde extrémně pozitivní. Dobře, takže víte, takže zde máme několik šťastných slov: prosím a děkuji, vykřičníky atd. To by mohlo přispívat k vysokému skóre. Dobře, je to perfektní? Ne, ale dá vám rychlý a rychlý způsob, jak vám říct, kolik lidí je z těchto odpovědí nesmírně šťastných nebo extrémně negativních.
A samozřejmě, opět to můžeme udělat s kontingenční tabulkou: Vložit, Kontingenční tabulka, přejít na existující list právě tady, kliknout na OK, a zajímá nás sentiment, a pak možná s průměrným skóre je pro každý z nich. Změníme to v části Nastavení pole na Průměr, klikněte na OK. A tak, nebo možná dokonce hrabě. Myslím, že bychom chtěli vědět hraběte, kolik lidí. Vezmeme tedy nějaké jiné pole, a tak víme, kolik lidí bylo negativních. Ooh, kolik lidí bylo neutrálních, kolik lidí bylo pozitivních a jaké bylo průměrné skóre každého z nich.
Dobře, takže pokud máte data z průzkumu a je jich více, můžete snadno pomocí kontingenční tabulky zjistit, jaké procento má každá odpověď. Ale pokud jde o textové odpovědi ve volné formě, je těžké je zpracovat. Pokud jich máte stovky nebo tisíce, je analýza sentimentu strojovou metodou pro predikci kladné nebo záporné odpovědi. Microsoft k tomu nabízí bezplatný nástroj. Funguje v aplikaci Excel 2013 nebo Excel 2016 s názvem Azure Machine Learning. Obvykle je nutné projít a ručně kategorizovat 5% výpisů. Není to flexibilní, musíte znovu kategorizovat pro každou novou sadu dat, ale Excel používá tento lexikon MPQA Subjectivity Lexicon. Je to obecný slovník. Bude to fungovat pro krátké věty, tweety, příspěvky na Facebooku. Můžu se nechat zmást dvojitými negativy. Jděte tedy do obchodu Excel,vyhledejte Azure Machine Learning. Zadejte vstupní a dva sloupce pro výstupní rozsah. Nezapomeňte v tomto konkrétním případě změnit nadpis tak, aby odpovídal schématu tweet_text.
Dobře, tak jdeme na to. Až příště budete mít velké množství dat k analýze, vyzkoušejte pomocí Azure Machine Learning, bezplatného doplňku pro Excel 2013. Děkujeme, že jste se zastavili, uvidíme se příště pro další netcast z.
Stáhnout soubor
Stáhněte si ukázkový soubor zde: Podcast2062.xlsm