Data Mining

Uploaded by

Muhammad Fadzreen

0% found this document useful (0 votes)

57 views35 pages

agent

Copyright

Available Formats

PPTX, PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

agent

Copyright:

Available Formats

Download as PPTX, PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

57 views35 pages

Data Mining

Uploaded by

Muhammad Fadzreen

agent

Copyright:

Available Formats

Download as PPTX, PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 35

Search inside document

Data mining

Clustering
Dress Attribute Sales Data Set
Introduction

This dataset contain Attributes of dresses and

their recommendations according to their sales.
Sales are monitor on the basis of alternate days.
The data characteristics is using text.
The number of attributes is 13.
The number of instances is 501
The dataset contains missing values.
It is suitable for classification and clustering
Attribute Information
Style: Bohemia, brief, casual,cute,fashion,flare,novelty,OL,party,sexy,vintage,work.
Price:Low,Average,Medium,High,Very-High
Rating:1-5
Size:S,M,L,XL,Free
Season:Autumn,winter,Spring,Summer
NeckLine:O-neck,backless,board-neck,Bowneck,halter,mandarin-collor,open,peterpan-
collor,ruffled,scoop,slash-neck,square-collar,sweetheart,turndowncollar,V-neck.
SleeveLength:full,half,halfsleeves,butterfly,sleveless,short,threequarter,turndown,null
waiseline:dropped,empire,natural,princess,null.
Material:wool,cotton,mix etc
FabricType:shafoon,dobby,popline,satin,knitted,jersey,flannel,corduroy etc
Decoration:applique,beading,bow,button,cascading,crystal,draped,embroridary,feathers,
flowers etc
Pattern type: solid,animal,dot,leapard etc
Recommendation:0,1
A2. DATA Searching Data
Rating
attribute is
numerical.
The
maximum
value is 5.
The
minimum
value is 0.
The mean is
3.529.
The stdDev
is 2.005
Actual data
Remove Missing values
Missing values with filter and why
Finding the outliner
List Outlier detection- WEKA-> FILTER-
>UNSUPERVISED->ATTRIBUTE->INTERQUATILE
RANGE

Before I used
to have 14
attribute but
after
applying the
outlier, I had
two new
attributes
which are
outlier and
extreme
value.
It shows thats I have 121 instance having
outliner and 379 do not have outliner. The
extreme values does not have the outliner.
Thus it is good, since the less the better.
Remove the outliner
How to remove the outliner :-

Weka -> Filters-> unsupervised -> instance - > remove with values -
> click on filter field to adjust.
After adjusting the yes instance outliner is removed.
First I specify the index of the attribute of the outliner which is 15.
Then choose the nominal indices as last since the last value of the
outliner instances is yes.
No Extreme values
Noisy data
A3- Data preparation
Attribute construction
After Attribute construction
Adding new attribute
Normalization
A4- Data reduction
Resampling
SRSWithoutR
SRSwithR with
sample size percent = 50
Evaluate 3 different number of clusters by
investigating the errors(says, k = {3,4,5}).

Number of cluster = 3
Number of cluster = 4
Number of cluster =5
Visualize the several number of results
based on different number of clusters.

K=3
k=4
k=5

C# Mastery: A Comprehensive Guide to Advanced C# Features and Applications
From Everand
C# Mastery: A Comprehensive Guide to Advanced C# Features and Applications
Lena Neill
No ratings yet
Data Structures and Algorithms in Swift: Implement Stacks, Queues, Dictionaries, and Lists in Your Apps
From Everand
Data Structures and Algorithms in Swift: Implement Stacks, Queues, Dictionaries, and Lists in Your Apps
Elshad Karimov
No ratings yet
Predicting Breast Cancer Using Logistic Regression - by Mo Kaiser - The Startup - Medium
Document15 pages
Predicting Breast Cancer Using Logistic Regression - by Mo Kaiser - The Startup - Medium
Ghifari Raka
No ratings yet
Sampling Distributions Coursera
Document8 pages
Sampling Distributions Coursera
rrutayisire
No ratings yet
Detecting and Treating Outliers - Treating The Odd One Out!: Data Science Blogathon
Document6 pages
Detecting and Treating Outliers - Treating The Odd One Out!: Data Science Blogathon
Narendra Singh
No ratings yet
R Essentials - Lists
Document16 pages
R Essentials - Lists
anon_293526473
No ratings yet
Random Sample Consensus
Document10 pages
Random Sample Consensus
sophia787
No ratings yet
Logistic Regression
Document10 pages
Logistic Regression
Parth Mehta
No ratings yet
House Price Prediction Using Machine Learning in Python
Document13 pages
House Price Prediction Using Machine Learning in Python
Mayank Vasisth Gandhi
No ratings yet
Experiment-7: Implementation of K-Means Clustering Algorithm
Document3 pages
Experiment-7: Implementation of K-Means Clustering Algorithm
19-361 Sai Prathik
No ratings yet
10 Techniques To Deal With Class Imbalance in Machine Learning
Document10 pages
10 Techniques To Deal With Class Imbalance in Machine Learning
CHLIAH HANANE
No ratings yet
Unit II Arrays and Strings in c
Document31 pages
Unit II Arrays and Strings in c
Savitha Raja
No ratings yet
Jeffrey Williams (20221013) 4
Document27 pages
Jeffrey Williams (20221013) 4
JEFFREY WILLIAMS P M 20221013
No ratings yet
201501035_dsr8,9
Document6 pages
201501035_dsr8,9
poorvaja.r
No ratings yet
Data Mining - Project
Document25 pages
Data Mining - Project
Abhishek Arya
100% (1)
Scikit Learn
Document17 pages
Scikit Learn
RR
No ratings yet
11 Different Ways For Outlier Detection in Python
Document11 pages
11 Different Ways For Outlier Detection in Python
Neethu Merlin Alan
No ratings yet
CLUSTERING ANALYSIS FOR CUSTOMER SEGMENTATION
Document16 pages
CLUSTERING ANALYSIS FOR CUSTOMER SEGMENTATION
rakesh sandhyapogu
No ratings yet
Pps Using C r20 - Unit-3
Document20 pages
Pps Using C r20 - Unit-3
Raj Aryan
No ratings yet
C Programming (Bca-203)
Document219 pages
C Programming (Bca-203)
thetinytassel3
No ratings yet
New Microsoft Word Document
Document10 pages
New Microsoft Word Document
asss lll
No ratings yet
Rahulsharma - 03 12 23
Document26 pages
Rahulsharma - 03 12 23
Rahul Gautam
No ratings yet
Rapid Miner Tutorial
Document15 pages
Rapid Miner Tutorial
Deepika Vaidhyanathan
100% (1)
Programming For Problem Solving Using C Unit-Iii: Arrays
Document20 pages
Programming For Problem Solving Using C Unit-Iii: Arrays
Naresh Babu
No ratings yet
Description: Hint: Perform Steps As Mentioned Below
Document11 pages
Description: Hint: Perform Steps As Mentioned Below
Anish Kumar
100% (1)
Module - 3 C Programming
Document37 pages
Module - 3 C Programming
Simran
No ratings yet
Python Codes
Document13 pages
Python Codes
618Vishwajit Pawar
No ratings yet
Machine Learning Lab Overview
Document129 pages
Machine Learning Lab Overview
Jayant Deshmukh
No ratings yet
Load Data The Easy Way
Document6 pages
Load Data The Easy Way
Sakshi
No ratings yet
Tutorial 4
Document8 pages
Tutorial 4
POEASO
No ratings yet
Weka Exercise - Introduction To Algorithms
Document3 pages
Weka Exercise - Introduction To Algorithms
Katlo Kay
No ratings yet
Data Mining - Business Report: Clustering Clean - Ads
Document24 pages
Data Mining - Business Report: Clustering Clean - Ads
Ketan Sawalkar
100% (4)
Employees Don't Leave The Company They Leave Their Managers
Document1 page
Employees Don't Leave The Company They Leave Their Managers
Bulti Mitra
No ratings yet
Tobit Analysis - Stata Data Analysis Examples
Document10 pages
Tobit Analysis - Stata Data Analysis Examples
Angger Wiji Rahayu
No ratings yet
Fdspracticals - Ipynb - Colaboratory
Document21 pages
Fdspracticals - Ipynb - Colaboratory
cc76747321
No ratings yet
Factor, Correltaion and Regression
Document4 pages
Factor, Correltaion and Regression
Jiten_Pujara_823
No ratings yet
Exploring Car Data to Predict Prices
Document16 pages
Exploring Car Data to Predict Prices
Joker Jr
No ratings yet
Clustering Analysis: Reading The Data
Document15 pages
Clustering Analysis: Reading The Data
KATHIRVEL S
100% (1)
Advanced Statistics-Project
Document16 pages
Advanced Statistics-Project
vivek r
No ratings yet
Isolationforest4 Python
Document10 pages
Isolationforest4 Python
juan antonio garcia
No ratings yet
Python ML Algorithm
Document30 pages
Python ML Algorithm
janhavi
No ratings yet
ML Lab Programs (1-13)
Document44 pages
ML Lab Programs (1-13)
7amazon.970
No ratings yet
Capital Gains
Document8 pages
Capital Gains
hariprasanna951
No ratings yet
Module 3.4 Classification Models, Case Study
Document12 pages
Module 3.4 Classification Models, Case Study
Duane Eugenio Ani
No ratings yet
2.1 Exploratory Data Analysis Using Python
Document12 pages
2.1 Exploratory Data Analysis Using Python
Kakashi Hatake
No ratings yet
Detect credit card fraud with machine learning models
Document20 pages
Detect credit card fraud with machine learning models
Vishal Sharma
100% (1)
Package Amelia': February 19, 2015
Document23 pages
Package Amelia': February 19, 2015
Marco Alberto Benjumeda Barquita
No ratings yet
DS and A Chapt-1
Document23 pages
DS and A Chapt-1
Chala Geta
No ratings yet
Week1 Code Corrected
Document2 pages
Week1 Code Corrected
aravindsv368
No ratings yet
Project Submission Clustering
Document20 pages
Project Submission Clustering
ankitbhagat
No ratings yet
DATA MINING Project Report
Document28 pages
DATA MINING Project Report
Abhishek Abhi
No ratings yet
Notes 3
Document19 pages
Notes 3
ANKIT ANIL
No ratings yet
00 Lab Notes
Document8 pages
00 Lab Notes
reddykavya2111
No ratings yet
Advanced C Concepts and Programming: First Edition
From Everand
Advanced C Concepts and Programming: First Edition
Gayatri
Rating: 3 out of 5 stars
3/5 (1)
Schaum's Easy Outline of Precalculus
From Everand
Schaum's Easy Outline of Precalculus
Fred Safier
No ratings yet
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet
Matrices with MATLAB (Taken from "MATLAB for Beginners: A Gentle Approach")
From Everand
Matrices with MATLAB (Taken from "MATLAB for Beginners: A Gentle Approach")
Peter Kattan
Rating: 3 out of 5 stars
3/5 (4)
Excel Techniques
From Everand
Excel Techniques
Online Trainees
Rating: 2 out of 5 stars
2/5 (1)
Introduction to PHP, Part 2, Second Edition
From Everand
Introduction to PHP, Part 2, Second Edition
Adam Majczak
No ratings yet
Simulation for Data Science with R
From Everand
Simulation for Data Science with R
Matthias Templ
No ratings yet
Code Children Learning
Document13 pages
Code Children Learning
Muhammad Fadzreen
No ratings yet
D
Document25 pages
D
Muhammad Fadzreen
No ratings yet
CH 02
Document31 pages
CH 02
Muhammad Fadzreen
No ratings yet
ITS665dm Topic2-DataUnderstanding
Document53 pages
ITS665dm Topic2-DataUnderstanding
Muhammad Fadzreen
No ratings yet
CH 07
Document37 pages
CH 07
Muhammad Fadzreen
No ratings yet
Genetic Algorithm Solution of The TSP Avoiding Special Crossover and Mutation
Document6 pages
Genetic Algorithm Solution of The TSP Avoiding Special Crossover and Mutation
Muhammad Fadzreen
No ratings yet
Information Technology Project Management - Fifth Edition: by Jack T. Marchewka Northern Illinois University
Document25 pages
Information Technology Project Management - Fifth Edition: by Jack T. Marchewka Northern Illinois University
Muhammad Fadzreen
No ratings yet
Information Technology Project Management - Fifth Edition: by Jack T. Marchewka Northern Illinois University
Document25 pages
Information Technology Project Management - Fifth Edition: by Jack T. Marchewka Northern Illinois University
Muhammad Fadzreen
No ratings yet
CH 03
Document33 pages
CH 03
Muhammad Fadzreen
No ratings yet
CH 01
Document12 pages
CH 01
Muhammad Fadzreen
No ratings yet
Find efficient routes with the Traveling Salesman Problem (TSP
Document8 pages
Find efficient routes with the Traveling Salesman Problem (TSP
Muhammad Fadzreen
No ratings yet
Lect2 Intelligent Agent
Document71 pages
Lect2 Intelligent Agent
Muhammad Fadzreen
No ratings yet
Kbs Cancer Breast (Stage2 N 3)
Document4 pages
Kbs Cancer Breast (Stage2 N 3)
Muhammad Fadzreen
No ratings yet
Week 4
Document2 pages
Week 4
Muhammad Fadzreen
No ratings yet
Reasoning Under Uncertainty: ITS661: Knowlegde-Based Systems
Document67 pages
Reasoning Under Uncertainty: ITS661: Knowlegde-Based Systems
Muhammad Fadzreen
No ratings yet
ITS666 - Lecture Note 7
Document34 pages
ITS666 - Lecture Note 7
Muhammad Fadzreen
No ratings yet
GeneticAlghoritm (ENG) S
Document58 pages
GeneticAlghoritm (ENG) S
Muhammad Fadzreen
No ratings yet
Week 3
Document4 pages
Week 3
Muhammad Fadzreen
No ratings yet
Grammar - Latest
Document35 pages
Grammar - Latest
Muhammad Fadzreen
No ratings yet
DDDD
Document1 page
DDDD
Muhammad Fadzreen
No ratings yet
Class 15 (Relation Prop)
Document21 pages
Class 15 (Relation Prop)
Muhammad Fadzreen
No ratings yet
Kamus Dewan
Document1 page
Kamus Dewan
wasabi43
No ratings yet
Combining and Composing Relations in Discrete Structures
Document18 pages
Combining and Composing Relations in Discrete Structures
Muhammad Fadzreen
No ratings yet
Similarity Network Fusion
Document8 pages
Similarity Network Fusion
donsuni
No ratings yet
ICS 2408 Lecture 1 Introduction
Document32 pages
ICS 2408 Lecture 1 Introduction
petergitagia9781
No ratings yet
Tableau Desktop 10.3
Document2,519 pages
Tableau Desktop 10.3
Nishantha Ekanayake
100% (1)
How To Choose A Machine Learning Algorithm
Document12 pages
How To Choose A Machine Learning Algorithm
tanvir anwar
No ratings yet
Extracting Useful Information from Massive Data Sets
Document157 pages
Extracting Useful Information from Massive Data Sets
Uday
No ratings yet
Coincent - Data Science With Python Assignment
Document23 pages
Coincent - Data Science With Python Assignment
Sai Nikhil Nellore
100% (2)
Blockchain Sharding Strategy For Collaborative Computing Internet of Things Combining Dynamic Clustering and Deep Reinforcement Learning
Document6 pages
Blockchain Sharding Strategy For Collaborative Computing Internet of Things Combining Dynamic Clustering and Deep Reinforcement Learning
Venkat Iyer
No ratings yet
Avishek Nag - Pragmatic Machine Learning With Python-BPB Publications (2020) - Pages-248-260
Document13 pages
Avishek Nag - Pragmatic Machine Learning With Python-BPB Publications (2020) - Pages-248-260
Cyan Cat Miner
No ratings yet
Topic 4
Document32 pages
Topic 4
hmood966
No ratings yet
Data Mining: Dosen: Dr. Vitri Tundjungsari
Document64 pages
Data Mining: Dosen: Dr. Vitri Tundjungsari
Arif Prayogi
No ratings yet
CV Lecture 7
Document119 pages
CV Lecture 7
Lovely doll
No ratings yet
Trinh Processes 2021 PDF
Document44 pages
Trinh Processes 2021 PDF
minh le
No ratings yet
Topology and Data: Gunnar Carlsson
Document54 pages
Topology and Data: Gunnar Carlsson
Maria Hernández
No ratings yet
Tactical Performance Analysis Using Position Data
Document10 pages
Tactical Performance Analysis Using Position Data
Masood Golshany
No ratings yet
Computer Networks and Information Security
Document35 pages
Computer Networks and Information Security
srinivas
No ratings yet
Semester I: Discipline: Electronics and Communication Stream: EC3
Document99 pages
Semester I: Discipline: Electronics and Communication Stream: EC3
Jerrin Thomas Panachakel
No ratings yet
Couple Stady - David H. Olson
Document22 pages
Couple Stady - David H. Olson
Olesea Caraion
No ratings yet
NLP-based Course Clustering and Recommendation: Kentaro Suzuki, Hyunwoo Park December 10, 2009
Document21 pages
NLP-based Course Clustering and Recommendation: Kentaro Suzuki, Hyunwoo Park December 10, 2009
Shreyas Bhatt
No ratings yet
SPE-197932-MS Decline Curve Analysis Using Artificial Intelligence
Document13 pages
SPE-197932-MS Decline Curve Analysis Using Artificial Intelligence
GHIFFARI PARAMANTA ELBEES
No ratings yet
Extended Isolation Forest
Document11 pages
Extended Isolation Forest
EdyFoot TV
No ratings yet
Oracle Machine Learning SQL Guide
Document123 pages
Oracle Machine Learning SQL Guide
HONDALD
No ratings yet
Weka Clustering
Document15 pages
Weka Clustering
VyankteshKshirsagar
No ratings yet
Machine Learning Overview
Document11 pages
Machine Learning Overview
Jasmine Delos santos
No ratings yet
SAP HANA Predictive Analysis Library PAL en
Document672 pages
SAP HANA Predictive Analysis Library PAL en
Misael Hernando Ariño Suarez
No ratings yet
ML Lab Manual AIML Final
Document61 pages
ML Lab Manual AIML Final
sushankreddy0712
No ratings yet
Age Prediction and Performance Comparison by Adaptive Network Based Fuzzy Inference System Using Subtractive Clustering
Document5 pages
Age Prediction and Performance Comparison by Adaptive Network Based Fuzzy Inference System Using Subtractive Clustering
thesij
No ratings yet
PG Certificate in Machine Learning & NLP Earns Industry Skills
Document7 pages
PG Certificate in Machine Learning & NLP Earns Industry Skills
Sanjeev Kumar Malik
100% (1)
Business Analytics and Decision Making V3.0
Document3 pages
Business Analytics and Decision Making V3.0
piracha104502
No ratings yet
Unsupervised Learning - Clustering
Document19 pages
Unsupervised Learning - Clustering
Spandan Rout ms17a058
No ratings yet
EastWestAirlines Cluster
Document6 pages
EastWestAirlines Cluster
Niranjana Menon
No ratings yet