Archief voor categorie “Datamining”

Vorige week heb ik een video van mijn eerste textmining stapjes met RapidMiner gepubliceerd op DBM Café.

Op de Vancouver Data Blog van Neil McGuigan kwam ik een interessante reeks van video’s tegen over text mining met RapidMiner. Hieronder de laatste video in een reeks van vijf, links naar de overige video’s vind je hier, of op het youtube kanaal van Vancouver Data.

Comments 5 Reacties »

In de vorige aflevering hebben we met Mozenda data verzameld op het internet, oftewel webscraping. Uiteindelijk verkregen we zo een bestand met reviews van een groot aantal mobiele telefoons. Veel leuke tekstdata dus om mee te stoeien.

Onze eerste, voorzichtige, text mining stapjes zetten we met de open-source tool RapidMiner. Bij deze dus DBM Café video nummer 2: Textmining met RapidMiner. Zelfs met geluid. 15 minuten lang mijn monotoon stemgeluid, ik moet er niet aan denken. Maar hé, het geluid kan ook uit!

Heb je nog goede RapidMiner tips? Zet ze als reactie onder dit artikel!
Volgende aflevering ga ik hetzelfde kunstje doen, maar dan met KNIME.

Comments 19 Reacties »

Er is veel moois in open source land. We schreven eerder over datamining tool RapidMiner. Maar er is meer, kijk eens naar onderstaand introductiefilmpje over KNIME (Konstanz Information Miner), wederom een open source data mining tool. Ook met text mining functionaliteit (beta versie). Zo op het oog lijken beide tools elkaar weinig te ontlopen. Iemand van jullie ervaring met deze tool?

Helaas wel een erg kort filmpje (nog geen drie minuten) en geen geluid. Niet aan je baas laten zien, anders denkt ie nog dat het in het echt ook allemaal zo snel gaat. Wil je wat meer achtergrond over deze tool, zie dan de video op videolectures.net.

Comments Geen reacties, reageer! »

Eerder lieten we een filmpje zien over datamining met SQL Server omdat veel bedrijven die SQL Server hebben alleen de database server gebruiken en niet de analysis tools.

Leuk is ook om de integratie te zien met Excel 2007. Zonder dat je Excel hoeft te verlaten, kan je toch gebruik maken van de algoritmes in SQL Server. Zie hieronder een drietal filmpjes. De add-ins kan je hier downloaden. Zie ook de SQL Server data mining site.

Shopping Basket Analysis

Analyze Key Influencers

Detect Categories

Comments 5 Reacties »

Ik ben wat aan het spelen met text mining en kwam daardoor in aanraking met het open source programma RapidMiner. RapidMiner (toen nog YALE geheten, Yet Another Learning Environment) is oorspronkelijk ontwikkeld aan de universiteit van Dortmund. Inmiddels zijn we aanbeland bij versie 5 en ik sta verbaasd over de uitgebreide mogelijkheden, de gebruiksvriendelijkheid en de gelikte interface. Want open source, dus gratis om mee te spelen! Ik ben nog maar kort met RapidMiner bezig en alleen nog op kleine bestandjes, heeft iemand van jullie meer ervaring met dit programma? Zo ja, plaats even een reactie bij dit artikel.

Ook is er veel trainingsmateriaal beschikbaar. Op de RapidMiner site staan video’s, ze hebben een actief gebruikersforum en in RapidMiner zelf staan al een paar dummy datasets om mee te spelen.

Aanrader is ook zeker de site Neural Market Trends van consultant en zelfbenoemd “RapidMiner evangelist” Thomas Ott.

Op zijn site vind je zeer nuttige en met veel enthousiasme gemaakte video tutorials, waarvan ik je hieronder één laat zien over het maken van decision tree’s. Kijk op Neural Market Trends zeker ook eens naar de tutorial over de Pattern Recognition & Landmarking Plugin. Deze RapidMiner plugin analyseert je dataset en geeft aan welk type model je het beste kan gebruiken.

Veel kijkplezier!

Creating Decision Trees for Market Segmentation

Comments 3 Reacties »

Veel bedrijven die werken met SQL Server gebruiken alleen de database terwijl ze de beschikking hebben over de volledige Business Intelligence Development Studio. Zonde, want met bijvoorbeeld SSIS (Integration Services) kan je veel ETL taken automatiseren. En met SSAS (Analysis Services) heb je de beschikking over diverse data mining algoritmes. Zie onderstaand filmpje: How Do I: Get Started with Data Mining.

Comments 3 Reacties »

UPS truck Altijd leuk om te lezen over datamining toepassingen buiten je eigen werkveld.
Men neme een mooie bruine UPS bestelbus, of eigenlijk 10.000 van de 100.000(!) bussen. Stop deze vervolgens vol met sensors en, voilà!, men heeft een flinke vracht aan data. Maar dan begint het pas.

Deze pagina is alleen toegankelijk voor leden.
Login. Heeft u nog geen account? Registreer nu!

Comments Geen reacties, reageer! »

KDD Cup 2010Goed en slecht nieuws voor de dataminers onder ons. Vooruit, eerst het goede nieuws: 1 april begint de KDD Cup 2010. Iedereen mag meedoen, het doel is om vorderingen van studenten te voorspellen aan de hand van een vijftal ter beschikking gestelde datasets met interacties tussen studenten en een soort e-learning systeem waar de studenten allerlei problemen moeten oplossen. Wat je kan winnen is mij niet helemaal duidelijk, het gaat hier meer om de eer en de vooruitgang van de soort zullen we maar zeggen.
Lees verder »

Comments Geen reacties, reageer! »

kaggle
NetFlix is een mooi voorbeeld van hoe een bedrijf innovatie kan stimuleren door zijn data aan de gemeenschap ter beschikking te stellen en daar een wedstrijd omheen te organiseren. We schreven meermaals over deze competitie, in het kort kwam het hier op neer: Netflix, een online videotheek, schreef een wedstrijd uit waarmee je 1 miljoen dollar kon winnen als je de bestaande recommendation engine kon kloppen met een 10% nauwkeurigere voorspelling (+ een jaarlijkse voorgangsprijs van 50k dollar!). Uiteindelijk is een team er na drie jaar in geslaagd de prijs te verzilveren. Hou die drie jaar even in gedachte, want……

Deze pagina is alleen toegankelijk voor leden.
Login. Heeft u nog geen account? Registreer nu!



Geef je mening over dit artikel:
1 Ster2 Sterren3 Sterren4 Sterren5 Sterren
1 stem(men)

Loading ... Loading ...

Comments 1 Reactie »

Netflix prizeLast van een Bore Out of gesmolten spaartegoeden op een IJslandse bank? Dan is dit misschien wat voor jou…

Netflix is een online videotheek en maakt gebruik van een recommendation engine (Cinematch), die op basis van eerdere reviews (1 tot en met 5 sterren) probeert te voorspellen of iemand een bepaalde film zal waarderen.

Daar hangt blijkbaar veel van af, want in 2006 (we schreven er hier al eerder over) schreven zij een wedstrijd uit waarmee je 1 miljoen dollar kan winnen als je Cinematch klopt met een 10% nauwkeurigere voorspelling. En daar bovenop nog een jaarlijkse voortgangsprijs van 50 duizend dollar, zolang de hoofdprijs nog niet vergeven is…. en die is nog niet vergeven!

Een mooie wedstrijd met daarachter mooie verhalen.

Deze pagina is alleen toegankelijk voor leden.
Login. Heeft u nog geen account? Registreer nu!

Comments 1 Reactie »

Disclaimer | Privacy Policy

Switch to our mobile site