Discuter:Exploration de données
Un article de Wikipédia, l'encyclopédie libre.
Dans l'anecdote, l'exemple célébre cité est bien la corrélation entre l'achat de couches et de bières le samedi aprés-midi (et pas les autres jours) dans les supers-marchés américains et pas la corrélation couches - petits pots. Le correction est utile dans le sens où l'exemple exprime bien la puissance de découverte de ces algorithmes : pas besoin d'un ordinateur pour savoir que des gens qui achètent des couches acheterons trés probablement des petits pots... Par contre, il est difficile d'imaginer à l'avance que le Samedi les jeunes couples vont faire les courses ensemble ce qui permet au mari d'acheter la bière qu'il boira devant son match le dimanche aprés-midi. Glm 16 fev 2005 à 19:48 (CET)
Sommaire |
[modifier] Fouille de données
Personnellement j'ai eu des cours de fouille de données quand j'étais à l'école. D'ailleurs une recherche dans Google renvoit 15200 pages avec fouille de données, et seulement 1470 avec exploration de données. Je ne change pas le titre, mais je pense qu'il faudrait le changer.--Greguar 18 mar 2005 à 10:45 (CET)
- Selon le Grand dictionnaire terminologique, fouille, exploration, forage et prospection de données sont des synonymes acceptables. Donc, je ne crois pas que ce soit nécessaire de changer le titre. Pfv2 3 octobre 2005 à 18:39 (CEST)
- Les mots cités sont peut-être synonymes dans un dictionnaire cela n'empêche pas qu'ils ont en fait un sens très différent. Le terme utilisé dans le milieu de la recherche est définitivement Fouille de données. Je peux citer en source deux conférences renommées dans le domaine, regardez les thématiques : http://afia2007.imag.fr/ic/ et http://www.info.fundp.ac.be/egc2007/appel.php . Il y a ensuite une grande confusion dans l'article entre l'Extraction de Connaissances à partir des Données (ECD), qui est un processus global composé de différentes phases, et l'exploration des données et la fouille des données qui en sont 2 de des phases. Pour cela on peut se référer au guide CRISP-DM qui est un standard reconnu : http://www.crisp-dm.org/CRISPWP-0800.pdf --Laurent 20 mar à 14:21 (CET)
[modifier] Rendons l'article bien indigeste
"On peut relever parmi les utilisations du datamining :
- l'analyse comportementale des consommateurs (...)
- la prédiction de réponse à un mailing (...)
- la prédiction de l'attrition (...)
- la détection de comportements anormaux ou frauduleux (...))
- la recherche des critères qui permettront d'établir ensuite (...)"
Qu'est-ce que c'est que ce langage administratif ampoulé ? Ne peut-on pas parler directement d'utiliser, d'analyser, de prédire, de rechercher et de détecter ? Ca vous fait peur, les verbes, ou bien vous craignez que l'article en devienne plus vivant et trop agréable à lire ? 81.65.27.14 22 septembre 2005 à 16:36 (CEST) (pas content du tout)
[modifier] Lien externe publicitaire
A mon avis, la présence de ce lien dans l'article est très discutable ; je le met ici si je suis le seul à être de cet avis.
- site de la société française Soft Computing (avec un livre blanc sur le datamining) qui propose notamment du "traitement à façon" (avec ses propres statisticiens) à partir des données fournies par ses clients
- j'avais inscrit ce "lien externe" parce qu'il donnait des infos utiles (dont le livre blanc) mais je n'ai aucun lien, ni de près ni de loin, avec la sté citée !!! BMR 26 mars 2006 à 19:48 (CEST)
- OK, c'est déja une information utile. Disons que ça me gène de mettre le site d'une société comme référence sur un sujet qui a dû connaitre des dizaines de travaux universitaires, etc. Rien de nous oblige à mettre des liens externes... Arnaudus 26 mars 2006 à 20:54 (CEST)
[modifier] interrogation...
je cite, du paragraphe Principe et spécificité : Le data mining a une approche très différente de la méthode statistique ?? sachant que pas mal de méthode de data mining sont statistiques je m'interroge sur cette phrase. et je m'interroge encore plus lorsque je lis la suite: "cette dernière exige en effet qu'on se fixe une hypothèse, que les données vont confirmer ou non." ?? ah bon ?? je pense que cela nécesite une reformulation soigneuse ou alors un grand coup de balai ;-) Sylenius 11 juillet 2006 à 22:07 (CEST)
- je crois que le principe de cette encyclopédie est de partager le savoir de chacun... Je vous incite donc à proposer les modifications qui vous paraissent nécessaires... Pour information, meme si la formulation précédente reste approximatiev, sachez que je suis ok avec le principe selon lequel le datamining déborde largement le cadre de la statistique, et propose une méthjodologie axée sur la performance pratique (et non théorique) des analyses, ce qui n'est pas le cas des méthodes statistiques, en tout cas si l'on se réfère au monde de la stat paramétrique... Franck1974 9 septmebre 2006 à 12:10
[modifier] Références vers logiciels payants
Voici les raisons pour lesquelles cet article contient des références vers des logiciels professionnels payants : 1. Le Datamining est une technologie née du rapprochement de plusieurs disciplines - statistiques, intelligence artificielle, base de données, linguistique, ... - pour répondre à des besoins pratiques de traitement de données, doublés de contraintes de temps fortes. En d'autres termes, le DataMining est né en entreprise, pour aider à générer de la valeur (économique) (c'est dit, autrement je te l'accorde, dans l'article dont il est ici question). Il me paraît donc normal de proposer des liens vers des logiciels que ces entreprises pourront choisir d'acquérir pour leurs besoins propres. 2. La liste proposée est quasi exhaustive, considérant la réalité du marché français du DataMining. L'idée est de ne favoriser aucun intérêt profesionnel spécifique. Mais il se peut bien sur que certains logiciels professionnels ait été oubliés dans la liste... (au passage sache que j'ai bataillé pour que la liste soit la plus complète possible, certains utilisateurs "s'amusant" à ne laisser qu'un lien professionnel vers un logiciel, ou encore à mettre en évidence un logiciel payant en particulier...) Tu noteras également que des liens vers des ressources libres existent, et qu'ils sont même individualisés... Il me semble ainsi que cela serait passer à côté de la réalité du Datamining que de ne pas faire ce type de renvois vers des logiciels professionnels.
Cela étant, il serait peut-être intéressant d'insister de clarifier ces aspects dans l'article... J'essaye de m'y coller !