สรุปข้อสอบ คลังข้อมูล เหมืองข้อมูล

Data Warehouse
คลังข้อมูล คือ ระบบการจัดเก็บ รวบรวมข้อมูล ที่มีอยููในระบบปฏิบัติ

การตูางๆขององค์กร โดยรวบรวมข้อมูลที่กระจัดกระจายให้มารวมไว้เป็ น
ศูนย์กลางข้อมูลขององค์กร และสามารถเก็บข้อมูลย้อนหลังได้หลายๆปี
เพื่อใช้เป็ นข้อมูลในการตัดสินใจหรือใช้ในการวิเคราะห์ข้อมูลที่ถูกต้องและ
มีประสิทธิภาพ โดยการวิเคราะห์ต้องทำาได้แบบหลายมิติ
(Multidimensional Analysis)
นิ ยามคลังข้อมูล ของ Bill Inmon บิดาแห่งคลังข้อมูล หมายถึง

แหลูงข้อมูลที่ใช้ในการตัดสินใจของผู้บริหาร โดยข้อมูลมีการเก็บใน
ลักษณะที่รวบรวม (Integrated) ถูกจัดเก็บไว้เป็ นเรื่องๆ (Subject
-Oriented) แปรผันตามมิติเวลา (Time Variant) และข้อมูลเหลูานี้ไมูมี
การเปลี่ยนแปลง (Nonvolatile)
คุณลักษณะของคลังข้อมูล
1. Subject oriented การแบูงโครงสร้างตามเนื้ อหา (ลูกค้า สินค้า ยอดขาย) (การ
ควบคุมคลังสินค้า การออกใบกำากับภาษี)
2. Integration การรวมเป็ นหนึ่ ง

3. Timevariancy ความสัมพันธ์กับเวลา
4. Nonvolatile ความเสถียรของข้อมูล
คุณสมบัติของคลังข้อมูล
1. Consolidated and Consistant
Consolidated หมายถึง การรวบรวมข้อมูลที่เกิดขึ้นในระดับปฏิบัติการมาไว้ที่
ศูนย์กลางเดียวกัน (คลังข้อมูล)
Consistant หมายถึง ข้อมูลจากแหลูงตูางๆที่รวบรวมมาไว้ในคลังข้อมูล จะ
ต้องมีคุณสมบัติที่เหมือนกัน รูปแบบเดียวกันและสอดคล้องกัน
2. Subject-Oriented Data หมายถึง เก็บข้อมูลในระดับปฏิบัติการเฉพาะสูวนที่นำา
มาใช้เชิงวิเคราะห์หรือเชิงตัดสินใจมากกวูาการเก็บข้อมูลเพื่อตอบคำาถาม
3. Historical Data หมายถึง จะเก็บย้อนหลังเป็ นเวลาหลายๆปี เพื่อจะได้นำาไป
วิเคราะห์เปรียบเทียบหาแนวโน้ มของข้อมูลเปรียบกับปี ที่ผูานมา
4. Read – Only Data หมายถึง ข้อมูลในฐานข้อมูลไมูควรมีการแก้ไขหลังจากที่นำา
ข้อมูลเข้าสููฐานข้อมูลของคลังข้อมูลแล้วไมูมีการ Insert update or delete ข้อมูล
ภายในคลังข้อมูลนอกจากการเพิ่มข้อมูลเข้าอยูางเดียว
Central Data Warehouse หรือ คลังข้อมูลแบบศูนย์กลาง คือ คลัง

ข้อมูลที่รวบรวมข้อมูลที่ใช้ในการดำาเนินการขององค์กร มาจัดเก็บไว้ใน
ฐานข้อมูลแบบศูนย์กลางขององค์กร ไมูวูาจะเป็ นข้อมูลในระดับหนูวย
งาน, สาขา หรือทัง้ องค์กร
Active Data Warehouse หรือ คลังข้อมูลพร้อมใช้งาน คือ คลังข้อมูล

ที่รวบรวมข้อมูลไว้สำาหรับใช้งานในวัตถุประสงค์ของการค้นหาแนวทาง
และแบบอยูางที่จะนำ ามาประกอบการตัดสินใจ ซึ่ง Bill Inmon ได้ให้นิยาม
วูา เป็ นเรื่องของเชิงวัตถุ, เวลาที่ตูางกัน, ไมูมีการลบเลือนและการ
รวบรวม
Enterprise Data Warehouse หรือ คลังข้อมูลสถานประกอบการ

หมายถึง คลังข้อมูลแบบรวมศูนย์ที่เตรียมข้อมูลไว้สำาหรับให้บริการ โดย
เป็ นคลังข้อมูลที่เก็บรายละเอียดทัง้ ในอดีตถึงปั จจุบันขององค์กรไว้ใน
Enterprise Data Warehouse
ประโยชน์ ของ Data Warehouse

1. ชูวยเสริมสร้างความรู้ของบุคลากรในองค์กร
2. ชูวยสนับสนุนการตัดสินใจให้เกิดประสิทธิภาพ
3. สามารถเข้าถึงข้อมูลที่สำาคัญได้อยูางสะดวกและรวดเร็ว
4. แยกฐานข้อมูลที่ใช้ปฏิบัติงานออกจากฐานข้อมูลที่ใช้วิเคราะห์
5. ให้ข้อมูลสรุปในมุมมองระดับสูง
6. สามารถเจาะลึกลงไปได้
7. สร้างความได้เปรียบในการแขูงขัน
8. ยกระดับการบริการลูกค้าที่ดีข้ ึน สร้างความพึงพอใจให้กับลูกค้า
9. มีความยืดหยูุนในการปรับใช้ข้อมูลกับการตัดสินใจ
10. ชูวยปรับปรุงกระบวนการทางธุรกิจให้มีความรวดเร็ว
สถาปั ตยกรรมของคลังข้อมูล
1. Data Acquisition System รับข้อมูลจากภายนอก
2. Data Staging Area
- Data Cleansing ลดความซำ้าซ้อนของข้อมูล
- Filtering เลือกเฉพาะข้อมูลที่มีประโยชน์
3. Data Warehouse Database /Data Store
- Data Model การออกแบบจำาลองข้อมูล
- การจัดเก็บข้อมูล
4. Data Provisioning Area /Data Mart การรายงานผลลัพธ์ตูางๆที่จำาเป็ น
สำาหรับการวิเคราะห์ข้อมูล
5. End User Terminal
- Simple Report Tool
- Multi Dimensional Tools
- Data Mining Tools
6. Metadata Repository ใช้เก็บข้อมูลที่ใช้ควบคุมการทำางานในคลัง
ข้อมูล
สถาปั ตยกรรมของ Data Warehouse มีการเชื่อมตูอกันในรูปของ

เลเยอร์ ดังนี้
1. Operational database หรือ external database layer ทำาหน้ าที่
จัดการกับข้อมูลในระบบงานปฏิบัติการหรือแหลูงข้อมูลภายนอกองค์กร
2. Information access layer เป็ นสูวนที่ผู้ใช้ปลายทางติดตูอผูาน
โดยตรง ประกอบด้วยฮาร์ดแวร์และซอฟต์แวร์ ที่ใช้ในการแสดงผลเพื่อ
วิเคราะห์ โดยมีเครื่องมือชูวย เป็ นตัวกลางที่ผู้ใช้ใช้ติดตูอกับคลังข้อมูล
3. Data access layer เป็ นสูวนตูอประสานระหวูาง Information access
layer กับ operational layer
4. Metadata layer เพื่อให้เข้าใจถึงข้อมูลได้งูายขึ้น และเป็ นการเพิ่ม
ความเร็วในการเรียกและดึงข้อมูลของคลังข้อมูล
5. Process management layer ทำาหน้ าที่จัดการกระบวนการทำางาน

ทัง้ หมด
6. Application messaging layer เป็ นมิดเดิลแวร์ ทำาหน้ าที่ในการสูง

ข้อมูลภายในองค์กรผูานทางเครือขูาย
7. Data warehouse (physical) layer เป็ นแหลูงเก็บข้อมูลของทาง

information data และ external data ในรูปแบบที่งูายแกูการเข้าถึงและ
ยืดหยูุนได้
8. Data staging layer เป็ นกระบวนการการแก้ไข และดึงข้อมูลจาก

external database
Design Data Warehouse
1. Star schema เป็ นเทคนิ คที่ใช้ multidimensional model โดย
data warehouse จะมีตัง้ แตู 1 star schema ขึ้นไป star schema จะ

มีลักษณะที่มี fact table อยููตรงกลางล้อมรอบด้วยหลาย ๆ
dimension table ที่เก็บรายละเอียดของ fact ทีไ่ มูใชู normalized
center
Star Schema วิธีนี้จะชูวยเพิ่มความสามารถในการ query โดยลด

ประมาณ data ที่ อูานจาก disk การวิเคราะห์การ queries ข้อมูลใน
dimension table ที่เล็กจะใช้ dimension key จาก index ใน central
fact table เป็ นการลดจำานวนข้อมูลที่ต้องตรวจสอบ ซึ่งมีข้อดีคือ มี
จำานวนของตารางน้ อย ,สร้าง query งูาย และเร็ว
2. Snowflake schema มีความแตกตูางจาก Star schema ตรงที่

dimension table จะเก็บข้อมูลจะเก็บข้อมูลที่อยููในรูป normal form
จาก star schema เราอาจจะเกิดปั ญหาในการ design ได้ snowflake
จึงเกิดขึ้นมาเนื่องจากปั จจัยดังนี้
• สภาวะทางธุรกิจ
• การ design ไมูสามารถ implement โดยใช้
star schema
Snowflake Schema จะใช้ในทางธุรกิจ แตูจะไมูแนะนำ าให้เลือกวิธีนี้

เนื่องจากวิธี นี้มค
ี วามยูุงยากในการดูแล การเก็บข้อมูลผู้ใช้ระบบไมู
สามารถรู้ได้วูาข้อมูลอยููที่ ไหน อีกทัง้ การเข้าถึงข้อมูลยังช้าอีกด้วย
การวิเคราะห์ข้อมูลในคลังข้อมูล
1. Query and Report Generator
2. Multidimensional Data Analysis
3. Online Analysis Processing (OLAP)
กระบวนการประมวลผลข้อมูลทางคอมพิวเตอร์ ที่ชูวยให้วิเคราะห์ข้อมูลในมิติ
ตูางๆ (Multidimensional Data Analysis)
การดำาเนินการกับ OLAP
1. Roll up / Consolidation การปรับระดับความละเอียดของข้อมูล จาก
ระดับที่ละเอียดขึ้น...มาสููท.ี่ .หยาบขึ้น
2. Drill Down การปรับระดับความละเอียดของข้อมูล จากระดับที่
หยาบ...ไปสููท.ี่ . ละเอียดมากขึ้น
3. Slice การเลือกพิจารณาผลลัพธ์บางสูวนที่เราสนใจ โดยเลือก
เฉพาะคูาที่ถูกกำากับด้วยข้อมูลบาง
คูาของแตูละมิติเทูานั น
้
4. Dice กระบวนการพลิกแกนหรือมิติของข้อมูล ให้ตรงตามความ
ต้องการของผู้ใช้งาน
4. Data Mining Tools
ข้อเสียคลังข้อมูล
1. ขัน
้ ตอนการกลัน
่ กรองและโหลดข้อมูลเข้าสููคลังข้อมูลใช้เวลานาน และ
ต้องอาศัยผู้ที่มีความชำานาญ
2. แนวโน้ มความต้องการข้อมูลมีมากขึ้นเรื่อย ๆ
3. ใช้เวลานานในการพัฒนาคลังข้อมูล
4. ระบบคลังข้อมูลมีความซับซ้อนสูง
Data Warehouse Service โดย Service ของ Data Warehouse จะมี

ความสามารถในการสร้างและจัดสูงคูาหรือข้อมูล เพื่อทำาให้ได้มาซึ่งข้อมูล
หรือรายงานสำาหรับสนับสนุนการตัดสินใจ
Service แบูงออกเป็ น 2 ประเภท คือ
1. Service ที่ทำาหน้ าที่จัดเก็บข้อมูลหรือดูแลเนื้ อที่ในการจัดเก็บ
(Data staging service)

2. Service ที่ทำาหน้ าที่ในการเข้าถึงข้อมูล (Query service)
การ Service มีดังนี ้

1. Service Oriented Architecture (SOA) จะชูวยเพิ่มประสิทธิภาพ
ในการแก้ไขปั ญหาที่เกิดขึ้นจากระบบหรือ application โดยมีการ

จัดสูง Service ไปยังผู้ใช้ application และ Service อื่นๆ ซึ่ง SOA
เป็ นแนวทางมาตรฐานในการนำ าเสนอและโต้ตอบระหวูางผู้ใช้กับ
software โดยใช้ Service เป็ นตัวขับเคลื่อน ซึ่ง SOA จะต้องมีการ
ลงทะเบียนของ Service สำาหรับการเข้าถึงข้อมูลในแตูละชุด
2. Information as a Service เป็ นองค์ประกอบที่สำาคัญและเป็ นตัวขับ
เคลื่อน SOA ให้มูุงสููเป้าหมายที่วางไว้ การสูงผูานข้อมูลจาก

application โดยใช้ Service สามารถควบคุมการรับ-สูงข้อมูล และ
สามารถ Service ข้อมูลข้ามระบบได้ แตูต้องคำานึงถึง Mapping,
Business, Rule, Security Information และลักษณะของข้อมูล
ด้วย
3. BI Service Contracts เป็ นพื้นฐานของ Service สำาหรับรองรับการ
เพิ่มขึ้นของข้อมูลจากแหลูงข้อมูลที่ได้รับอนุญาตหรือมีความนูาเชื่อ
ถือ รองรับการประมวลผลข้อมูลที่มีปริมาณมากๆ โดย Service จะ
ทำาหน้ าที่ในการจัดเตรียมข้อมูลตามที่ผู้ใช้ร้องขอ แตูปัญหาของการ
Service นี้ คือ ปั ญหาด้าน Net Work Brandwidth
Data Warehouse Object

การประยุกต์ใช้ Data Warehouse แล้วมัน Failed
เหตุผลที่ทำาให้คลังข้อมูลเกิดข้อผิดพลาดสูวนวิธีแก้ก็ใช้แนวทางตรงข้าม
กัน
- ผู้จัดการระดับสูงไมูมีเวลาทูุมเทให้โครงการ
- การไมูใสูใจหรือวางแผนไมูเพียงพอ
- การไมูมีความชำานาญภายในหรือผูานผู้ให้บริการ
- การตีราคาของทรัพยากรที่ต้องการสำาหรับเครื่องมือตำ่าไป
- การเพิกเฉยเพื่อกระทำาการวิเคราะห์ราคารวมของกรรมสิทธิ ์
- เทคโนโลยีผิดพลาด
- ความสนใจข้อมูลที่ไมูเพียงพอ
- ความสามารถตำ่า
Data Mining
Data Mining หรือ เหมืองข้อมูล คือ เป็ นกระบวนการแยกข้อมูล

(Extract Data) จากฐานข้อมูลขนาดใหญูเพื่อให้ได้ข้อมูลที่เกิดประโยชน์
ออกมาโดยเป็ นข้อมูลที่มีเหตุผลและหลักฐานที่เชื่อถือได้
Data Mining สามารถทำาอะไรได้บ้าง สามารถนำ าไปประยุกต์ใช้

ด้านการแพทย์ : ใช้ Data Mining ค้นหาผลข้างเคียงของการใช้ยา โดย
อาศัยข้อมูลจากประวัติผู้ปูวย ใช้ในการวิเคราะห์หาความสัมพันธ์ของสาร
พันธุกรรม
ด้านการเงินการธนาคาร : ใช้ Data Mining ตัดสินวูาควรจะอนุมัติเครดิต
ให้ลูกค้ารายใดบ้าง ใช้ในการคาดการณ์วูาธุรกิจจะมีโอกาสล้มละลายหรือ
ไมู
ด้านการเกษตร : ใช้จำาแนกประเภทของโรคพืชที่เกิดกับถัว
่ เหลืองและ
มะเขือเทศ
ด้านวิศวกรรม : ใช้วิเคราะห์และวินิจฉัยสาเหตุการทำางานผิดพลาดของ
เครื่องจักรกล
ด้านอาชญวิทยา : ใช้วิเคราะห์หาเจ้าของลายนิ้วมือ
การวิเคราะห์ผลิตภัณฑ์ : ใช้วิเคราะห์ข้อมูลผลิตภัณฑ์ทัง้ หมดไมูวูาจะเป็ น
ลักษณะ ราคา การทำานายราคาของผลิตภัณฑ์ตัวอื่นๆ
ด้านการขาย : ใช้วิเคราะห์ในการขายสินค้าให้ได้มากขึ้น
การวิเคราะห์ลูกค้า : ชูวยทำานายวูาลูกค้าคนใดจะเลิกใช้บริการภายใน 6
เดือนหน้ า แบูงกลูุมเป้าหมายลูกค้า
กิจการโทรคมนาคม : ตรวจสอบคาบเวลาที่ใช้ จุดหมายปลายทาง ความถี่
ที่ใช้ และคาดการณ์ข้อบกพรูองที่เป็ นไปได้ในการชำาระเงิน
ธุรกิจค้าปลีก : ใช้วิเคราะห์กลยุทธ์ให้เป็ นที่สนใจของผู้บริโภคในรูปแบบ
ตูางๆ
การทำางานของ Data Mining

1. การจัดหมวดหมูู/แบูงชัน
้ (Classification)
2. การประเมินคูา (Estimation)
3. การทำานายลูวงหน้ า (Prediction)
4. การจัดกลูุมโดยอาศัยความใกล้ชิด (Affinity Group)
5. การรวมตัว (Clustering)
6. การบรรยาย (Description)
การทำา Database Segmentation อาจใช้ K-Mean Algorithms หรือ
อาจใช้ Unsupervised Learning Neural Network เชูน โมเดล
Kohonen Neural Net ถ้าเป็ นการทำา Predictive Modeling อาจใช้
cart (Classification and Regression tree) หรืออาจใช้ Supervised
Learning Neural Network เชูน Backpropagation Neural Net ถ้า
เป็ นการทำา Link Analysis มีการทำาอยูู 2 ลักษณะคือ Assosication
Rule Discovery และ Sequential Pattern Discovery อาจใช้ Apriori
Algorithms
องค์ประกอบการทำางานของ Data Mining

????????
เทคนิ คการทำาเหมืองข้อมูล
1. Classification & Prediction : เทคนิคในการจำาแนกกลูุมข้อมูล
ด้วยคุณลักษณะตูางๆที่ได้มีการกำาหนดไว้แล้ว สร้างแบบจำาลองเพื่อการ
พยากรณ์คูาข้อมูล (Predictive Model) ในอนาคต เรียกวูา
......Supervised Learning มี 2 รูปแบบ
• Classification เป็ นกระบวนการสร้างโมเดลจัดการ
ข้อมูลให้อยููในกลูุมที่กำาหนดไ เชูน จัดกลูุมนักเรียนวูา
ดีมาก ดี ปานกลาง ไมูดี กะบวนการ Classification
แบูงออกเป็ น 3 ขัน
้ ตอน
1. Model Construction (Learning) เป็ นขัน
้ การสร้าง
โมเดลโดยการเรียนรู้จากข้อมูลที่ได้กำาหนดไว้
เรียบร้อย (Training data) ซึ่งโมเดลที่ได้จะแสดงใน
รูปของ
1.1 Decistion Tree เป็ นวิธีการหนึ่ งที่สำาคัญใน
เทคนิคนี้ ซึ่งจะมีลักษณะเป็ น Flow Chart เหมือนโครงสร้างต้นไม้
ที่แตูละโหนดแสดงคุณลักษณะ(attribute) ที่ใช้ทดสอบข้อมูลแตูละ
กิ่งแสดงผลในการทดสอบและลีฟโหนด (leaf node) แสดงกลูุม
หรือ class ที่กำาหนดไว้ ซึ่ง decision tree นี้งูายตูอการเปลี่ยน
เป็ น Classification Rules
1.2 Neural Network ใช้ในการคำานวณคูาฟั งชัน
่ จาก
กลูุมข้อมูล เป็ นวิธีการเรียนรู้จากตัวอยูางต้นแบบ
แล้วฝึ กให้ระบบได้รู้จักที่จะคิดแก้ปัญหาที่กว้างขึ้น
ประกอบด้วยโหนด input output และการ
ประมวลผลผูานโหนดตูางๆใน input layer,
output layer, hidden layer
2. Model Evaluation เป็ นขัน
้ ประมาณความถูกต้อง
โดยอาศัยข้อมูลที่ใช้ทดสอบ(Testing data)
3. Model Usage เป็ นโมเดลสำาหรับใช้ข้อมูลที่ไมูเคย
เห็นมากูอน (unseen data) โดยจะกำานดคลาสให้กับ
ออบเจคใหมูที่ได้มาหรือทำานายคูาออกมาตามที่
ต้องการ
• Prediction การทำานายหาคูาที่ต้องการจากข้อมูลที่มีอยูู
เชูน หายอดขายของเดือนถัดไปจากข้อมูลที่มีอยูู
2. Database Clustering or Segmentation : เทคนิคในการจำาแนก
กลูุมข้อมูลใหมูที่มีลักษณะคล้ายกันไว้กลูุมเดียวกัน โดยไมูมีการจัด
กลูุมข้อมูลตัวอยูางไว้ลูวงหน้ า เรียกวูา .......Unsupervised Learning
เชูน บริษท
ั จำาหนูายรถยนต์ได้แยกข้อมูลกลูุมลูกค้าออกเป็ น 3 กลูุม
คือ กลูุมผู้มีรายได้สูง (80,000) กลูุมผู้มีรายได้ปานกลาง (25,000-
80,000) กลูุมผู้มีรายได้ต่ำา (น้ อยกวูา 25,000)
3. Association rule Discovery : เทคนิคในการค้นพบองค์ความรู้ใหมู
ด้วยการเชื่อมโยงกลูุมของข้อมูลที่เกิดขึ้นในเหตุการณ์เดียวกันไว้ด้วย
กัน การค้นหาความสัมพันธ์ของข้อมูลจากข้อมูลขนาดใหญูที่มี เพื่อนำ า
ไปวิเคราะห์ หรือ ทำานาย เชูน การวิเคราะห์การซื้อสินค้าของลูกค้า
4. Deviation Detection : เทคนิคที่ใช้ในการหาคูาความแตกตูางไป
จากมาตรฐาน หรือคูาที่คาดคิดไว้วูาตูางไปมากน้ อยเพียงใด โดยทัว
่ ไป
มักใช้วิธีทางสถิติหรือการแสดงให้เห็นภาพ (Visualization) เชูน การ
ตรวจสอบลายเซ็นปลอม การตรวจบัตรเครดิตปลอม การหาจุด
บกพรูองของชิ้นงานในโรงงานอุตสาหกรรม
5. Link Analysis : จุดมูุงหมายของ Link Analysis ก็คือ การสร้าง
Link ที่เรียกวูา “associations” ระหวูาง Record เดียว หรือกลูุมของ
Record ในฐานข้อมูล Link Analysis สามารถแบูงได้ 3 ชนิด
- associations Discovery
- sequential pattern discovery
- similar time sequence discovery
ประโยชน์ ของเหมืองข้อมูล
1. ค้นหาข้อมูลโดยอาศัยเทคโนโลยีของเหมืองข้อมูล
2. ใช้สถาปั ตยกรรมแบบ Client/Server
3. ผู้ใช้ระบบไมูจำาเป็ นต้องทักษะในการเขียนโปรแกรม
4. ผู้ใช้ต้องกำาหนดขอบเขตและเป้าหมายของระบบให้ชัดเจน เพื่อความ
รวดเร็วและถูกต้องตามความต้องการ
5. การประมวลผลแบบขนานจะชูวยเพิ่มประสิทธิภาพและความเร็วใน
การค้นหาข้อมูล
การประยุกต์ web mining เพื่อการบริการ web
1. การรวมข้อมูลตัวอักษรเข้ากับข้อมูล links บน web เพื่อสรุปหา
web page ที่จำาเป็ นจะต้องได้รับอนุญาตจึงจะเข้าใช้ได้ภายในหัวข้อ

ที่กำาหนด
2. การผสมข้อมูลที่เกี่ยวกับลักษณะการใช้ ชูวงระยะเวลาและ link ที่มี
ผู้เข้าใช้บริการ web เพื่อนำ ามาพิจารณาปรับปรุงการให้บริการ

3. การนำ าข้อมูลชนิ ดตัวอักษร และข้อมูลของรูปภาพ มาผสมผสานกัน
เพื่อประโยชน์ในการค้นหาของ search engines ในกรณีที่ต้องการ

ค้นหาข้อมูลที่เป็ นรูปภาพ
(web mining กับการทำาธุรกิจ e-commerce web mining กับการ
ตลาดบนอินเทอร์เน็ต)
OLAP ยูอมาจาก Online Analytical Processing คือ เทคโนโลยีที่ใชู

ข้อมูลจากคลังข้อมูลเพื่อใช้ในการวิเคราะห์และตัดสินใจทางธุรกิจอยูางมี
ประสิทธิภาพ แก้ปัญหาที่มีความซับซ้อนโดยใช้เวลาระยะสัน
้ ระบบจะต้อง
ทำางานได้รวดเร็ว สามารถค้นหาข้อมูลจากฐานข้อมูลขนาดใหญูมาคำานวณ
ได้อยูางครบถ้วนไมูตกหลูน
Data Mining และ Data Warehouse

สิ่งสำาคัญที่จะต้องทำาในการทำา Data Mining ก็คือ การกำาหนดข้อมูลที่
เหมาะสมในการ mining ดังนั น
้ Data mining จึงต้องการแหลูงข้อมูลที่มีการจัด
เก็บและรวบรวมข้อมูลไว้อยูางดีและมีความมัน
่ คง
เหตุผลที่ต้องมี Data warehouse ที่มีการจัดเก็บข้อมูลที่ดีสำาหรับเตรียม
ข้อมูลเพื่อทำาการ mining ก็คือ
- Data warehouse จะทำาการจัดเก็บข้อมูลที่มีความมัน
่ คง
และข้อมูลที่ได้ทำาความสะอาดแล้ว ซึ่งการจัดเตรียมและ
รวบรวมข้อมูลเป็ นสิ่งที่จำาเป็ นสำาหรับการ mining ที่ต้องการ
ความแนูใจในความแมูนยำาของ predictive models
- Data warehouse จะเป็ นประโยชน์สำาหรับการ mining
ข้อมูลจากแหลูงข้อมูลหลายๆแหลูงที่ค้นพบมากมายเทูาที่
จะเป็ นไปได้ ซึ่ง Data warehouse จะบรรจุข้อมูลจากแหลูง
ข้อมูลเหลูานัน
้
- ในการเลือกสูวนยูอยๆของ record และ fields ที่ตรง
ประเด็น Data mining จะต้องการความสามรถในการ
query ข้อมูลของ Data warehouse
- การศึกษาผลที่ได้จากการทำา Data mining จะเป็ นประโยชน์
อยูางมาก ถ้าหากมีการสืบค้นข้อมูลอยูางมีแบบแผนตูอไป
ในอนาคต ซึ่ง Data warehouse จะเป็ นแหลูงจัดเก็บข้อมูล
ภายหลังไว้ให้
ปกติแล้ว Data mining และ Data warehouse จะเป็ นสิ่งคููกัน ผู้
ขายจำานวนมากจึงหาวิธีที่จะนำ าเทคโนโลยี Data mining และ Data
warehouse มารวมกัน
Difference Analysis Data Mining

????????

สรุปข้อสอบ คลังข้อมูล เหมืองข้อมูล

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

สรุปข้อสอบ คลังข้อมูล เหมืองข้อมูล

Uploaded by

Copyright:

Available Formats

Data Warehouse

คลังข้อมูล คือ ระบบการจัดเก็บ รวบรวมข้อมูล ที่มีอยููในระบบปฏิบัติ

นิ ยามคลังข้อมูล ของ Bill Inmon บิดาแห่งคลังข้อมูล หมายถึง

2. Integration การรวมเป็ นหนึ่ ง

Central Data Warehouse หรือ คลังข้อมูลแบบศูนย์กลาง คือ คลัง

Active Data Warehouse หรือ คลังข้อมูลพร้อมใช้งาน คือ คลังข้อมูล

Enterprise Data Warehouse หรือ คลังข้อมูลสถานประกอบการ

ประโยชน์ ของ Data Warehouse

สถาปั ตยกรรมของ Data Warehouse มีการเชื่อมตูอกันในรูปของ

5. Process management layer ทำาหน้ าที่จัดการกระบวนการทำางาน

6. Application messaging layer เป็ นมิดเดิลแวร์ ทำาหน้ าที่ในการสูง

7. Data warehouse (physical) layer เป็ นแหลูงเก็บข้อมูลของทาง

8. Data staging layer เป็ นกระบวนการการแก้ไข และดึงข้อมูลจาก

1. Star schema เป็ นเทคนิ คที่ใช้ multidimensional model โดย

data warehouse จะมีตัง้ แตู 1 star schema ขึ้นไป star schema จะ

Star Schema วิธีนี้จะชูวยเพิ่มความสามารถในการ query โดยลด

2. Snowflake schema มีความแตกตูางจาก Star schema ตรงที่

Snowflake Schema จะใช้ในทางธุรกิจ แตูจะไมูแนะนำ าให้เลือกวิธีนี้

Data Warehouse Service โดย Service ของ Data Warehouse จะมี

(Data staging service)

การ Service มีดังนี ้

ในการแก้ไขปั ญหาที่เกิดขึ้นจากระบบหรือ application โดยมีการ

เคลื่อน SOA ให้มูุงสููเป้าหมายที่วางไว้ การสูงผูานข้อมูลจาก

Data Warehouse Object

Data Mining หรือ เหมืองข้อมูล คือ เป็ นกระบวนการแยกข้อมูล

Data Mining สามารถทำาอะไรได้บ้าง สามารถนำ าไปประยุกต์ใช้

การทำางานของ Data Mining

4. การจัดกลูุมโดยอาศัยความใกล้ชิด (Affinity Group)

องค์ประกอบการทำางานของ Data Mining

web page ที่จำาเป็ นจะต้องได้รับอนุญาตจึงจะเข้าใช้ได้ภายในหัวข้อ

ผู้เข้าใช้บริการ web เพื่อนำ ามาพิจารณาปรับปรุงการให้บริการ

เพื่อประโยชน์ในการค้นหาของ search engines ในกรณีที่ต้องการ

OLAP ยูอมาจาก Online Analytical Processing คือ เทคโนโลยีที่ใชู

Data Mining และ Data Warehouse

Difference Analysis Data Mining

You might also like