In de vorige aflevering heb ik mijn eerste, voorzichtige, text mining stapjes gezet met open source data mining tool RapidMiner. En nu doe ik hetzelfde kunstje met een ander gratis te downloaden data mining tool: KNIME. En daar houden de overeenkomsten niet op, de interface van beide tools lijken verdraaid veel op elkaar. Beide tools zijn ontwikkeld aan een Duitse universiteit, hemelsbreed pakweg 500 km van elkaar.
Deze aflevering dus hetzelfde kunstje als vorige keer, namelijk het analyseren van recensies over de Nokia N97 (in de eerste aflevering kon je zien hoe je met Mozenda snel informatie van het het web kan scrapen).
Ik heb met het maken van deze filmpjes een aardig inzicht gekregen wat deze gratis tools te bieden hebben en ik moet zeggen dat dat niet tegen valt! Goed nieuws dus, voor organisaties met een wat krapper budget.
Op de Vancouver Data Blog van Neil McGuigan kwam ik een interessante reeks van video’s tegen over text mining met RapidMiner. Hieronder de laatste video in een reeks van vijf, links naar de overige video’s vind je hier, of op het youtube kanaal van Vancouver Data.
In de vorige aflevering hebben we met Mozenda data verzameld op het internet, oftewel webscraping. Uiteindelijk verkregen we zo een bestand met reviews van een groot aantal mobiele telefoons. Veel leuke tekstdata dus om mee te stoeien.
Onze eerste, voorzichtige, text mining stapjes zetten we met de open-source tool RapidMiner. Bij deze dus DBM Café video nummer 2: Textmining met RapidMiner. Zelfs met geluid. 15 minuten lang mijn monotoon stemgeluid, ik moet er niet aan denken. Maar hé, het geluid kan ook uit!
Heb je nog goede RapidMiner tips? Zet ze als reactie onder dit artikel!
Volgende aflevering ga ik hetzelfde kunstje doen, maar dan met KNIME.
Je zal er misschien niet dagelijks mee bezig zijn, maar soms vraag je je misschien wel eens bij een tabel of view af van welke andere objecten (tabellen, views, stored procedures) deze afhankelijk zijn. In SQL server kan je dit in principe zien door op het object te klikken en de dependencies te bekijken. Of via de sys.sysdepends tabel.
Ik zeg in principe, want waanzinnig betrouwbaar blijken deze methodes (iig in SQL Server 2005) niet te zijn. Daarom ben ik aan het knutselen gegaan en heb ik een script gemaakt dat in een database van alle stored procedures en views onderzoekt welke tabellen en views worden aangeroepen, gemaakt, gevuld, gewijzigd, verwijderd, etc. Je vindt het script, sp_ObjectDependencies_v0_2_beta, in de download sectie . Script is nog in onwikkeling, maar toch al erg bruikbaar.
Maar ik ben ook een mooie tool tegengekomen van redgate. Deze tool visualiseert alle afhankelijkheden. Zie de video hieronder. Een ander tool van dit bedrijf, geeft je zelfs de mogelijkheid op kolomniveau te zien wat de afhankelijkheden zijn (SQL Prompt). Veel hoeft het allemaal niet te kosten, SQL Dependencies is 240 euro. Je kan een gratis trial versie (14 dagen) downloaden om er eens mee te spelen.
De komende weken trek ik de stoute schoenen aan en zet ik mijn eerste kleine stapjes op het vlak van Text Mining. Vandaag de eerste aflevering in een, naar ik hoop, lange en interessante reeks in dit voor vele database marketeers onontgonnen terrein. Heb je tips & tricks voor me? Ik hoor het graag!
In de aflevering van vandaag ga ik data verzamelen. Het leek me leuk om reviews te gebruiken van mobiele telefoons. Reviews bevatten vaak grote stukken tekst in combinatie met gestructureerde data zoals een rapportcijfer. We gaan deze data natuurlijk niet zelf copy-pasten, we gebruiken daarvoor de webscraping tool Mozenda (we hebben hier eerder over deze tool geschreven).
In onderstaande video (de eerste DBM Cafe video!), laat ik Mozenda alle reviews en rapportcijfers van alle HTC smartphones verzamelen op de site kieskeurig.nl. In amper zes minuten tijd krijg je zo een goed beeld wat je met deze tool kan! De video heeft geen geluid, ik heb een toelichting als ondertiteling toegevoegd. Je kan de video dus rustig kijken zonder je omgeving te storen.
Een database marketeer zou er geen omkijken naar moeten hebben, maar sommigen zullen toch wel eens confronteerd worden met databases of logfiles die te groot worden, dat je zware queries alleen op bepaalde tijdstippen mag afvuren of er achter moet komen dat een database toch niet wordt gebackupt. Of testen van migraties naar andere servers, upgrades, etc.
Nu is er een verscheidenheid aan cloud diensten (zo verkoopt Amazon niet alleen boeken, maar ook serverruimte, zie Amazon Elastic Compute Cloud), zullen we in de toekomst allemaal aan “database marketing in the cloud” doen? Of aan “Cloud mining”?
Hieronder een leuk reclamefilmpje van database.com (van SalesForce):
database.com
Maar kan je het label “cloud” niet overal op plakken, zo vraagt Oracle’s CEO Larry Ellison – en blijkbaar parttime komiek – zich af:
Why Larry Ellison hates Cloud computing
En ten slotte een wat conceptueler filmpje van Salesforce’s Peter Coffee aan het MIT Enterprise Forum:
Er is veel moois in open source land. We schreven eerder over datamining tool RapidMiner. Maar er is meer, kijk eens naar onderstaand introductiefilmpje over KNIME (Konstanz Information Miner), wederom een open source data mining tool. Ook met text mining functionaliteit (beta versie). Zo op het oog lijken beide tools elkaar weinig te ontlopen. Iemand van jullie ervaring met deze tool?
Helaas wel een erg kort filmpje (nog geen drie minuten) en geen geluid. Niet aan je baas laten zien, anders denkt ie nog dat het in het echt ook allemaal zo snel gaat. Wil je wat meer achtergrond over deze tool, zie dan de video op videolectures.net.
Eerder lieten we een filmpje zien over datamining met SQL Server omdat veel bedrijven die SQL Server hebben alleen de database server gebruiken en niet de analysis tools.
Leuk is ook om de integratie te zien met Excel 2007. Zonder dat je Excel hoeft te verlaten, kan je toch gebruik maken van de algoritmes in SQL Server. Zie hieronder een drietal filmpjes. De add-ins kan je hier downloaden. Zie ook de SQL Server data mining site.
Ik ben wat aan het spelen met text mining en kwam daardoor in aanraking met het open source programma RapidMiner. RapidMiner (toen nog YALE geheten, Yet Another Learning Environment) is oorspronkelijk ontwikkeld aan de universiteit van Dortmund. Inmiddels zijn we aanbeland bij versie 5 en ik sta verbaasd over de uitgebreide mogelijkheden, de gebruiksvriendelijkheid en de gelikte interface. Want open source, dus gratis om mee te spelen! Ik ben nog maar kort met RapidMiner bezig en alleen nog op kleine bestandjes, heeft iemand van jullie meer ervaring met dit programma? Zo ja, plaats even een reactie bij dit artikel.
Ook is er veel trainingsmateriaal beschikbaar. Op de RapidMiner site staan video’s, ze hebben een actief gebruikersforum en in RapidMiner zelf staan al een paar dummy datasets om mee te spelen.
Aanrader is ook zeker de site Neural Market Trends van consultant en zelfbenoemd “RapidMiner evangelist” Thomas Ott.
Op zijn site vind je zeer nuttige en met veel enthousiasme gemaakte video tutorials, waarvan ik je hieronder één laat zien over het maken van decision tree’s. Kijk op Neural Market Trends zeker ook eens naar de tutorial over de Pattern Recognition & Landmarking Plugin. Deze RapidMiner plugin analyseert je dataset en geeft aan welk type model je het beste kan gebruiken.
Veel bedrijven die werken met SQL Server gebruiken alleen de database terwijl ze de beschikking hebben over de volledige Business Intelligence Development Studio. Zonde, want met bijvoorbeeld SSIS (Integration Services) kan je veel ETL taken automatiseren. En met SSAS (Analysis Services) heb je de beschikking over diverse data mining algoritmes. Zie onderstaand filmpje: How Do I: Get Started with Data Mining.