Professional Documents
Culture Documents
สถาปั ตยกรรมของคลังข้อมูล
1. Data Acquisition System รับข้อมูลจากภายนอก
2. Data Staging Area
- Data Cleansing ลดความซำ้าซ้อนของข้อมูล
- Filtering เลือกเฉพาะข้อมูลที่มีประโยชน์
3. Data Warehouse Database /Data Store
- Data Model การออกแบบจำาลองข้อมูล
- การจัดเก็บข้อมูล
4. Data Provisioning Area /Data Mart การรายงานผลลัพธ์ตูางๆที่จำาเป็ น
สำาหรับการวิเคราะห์ข้อมูล
5. End User Terminal
- Simple Report Tool
- Multi Dimensional Tools
- Data Mining Tools
6. Metadata Repository ใช้เก็บข้อมูลที่ใช้ควบคุมการทำางานในคลัง
ข้อมูล
• สภาวะทางธุรกิจ
• การ design ไมูสามารถ implement โดยใช้
star schema
การวิเคราะห์ข้อมูลในคลังข้อมูล
1. Query and Report Generator
2. Multidimensional Data Analysis
3. Online Analysis Processing (OLAP)
กระบวนการประมวลผลข้อมูลทางคอมพิวเตอร์ ที่ชูวยให้วิเคราะห์ข้อมูลในมิติ
ตูางๆ (Multidimensional Data Analysis)
การดำาเนินการกับ OLAP
1. Roll up / Consolidation การปรับระดับความละเอียดของข้อมูล จาก
ระดับที่ละเอียดขึ้น...มาสููท.ี่ .หยาบขึ้น
2. Drill Down การปรับระดับความละเอียดของข้อมูล จากระดับที่
หยาบ...ไปสููท.ี่ . ละเอียดมากขึ้น
3. Slice การเลือกพิจารณาผลลัพธ์บางสูวนที่เราสนใจ โดยเลือก
เฉพาะคูาที่ถูกกำากับด้วยข้อมูลบาง
คูาของแตูละมิติเทูานั น
้
4. Dice กระบวนการพลิกแกนหรือมิติของข้อมูล ให้ตรงตามความ
ต้องการของผู้ใช้งาน
4. Data Mining Tools
ข้อเสียคลังข้อมูล
1. ขัน
้ ตอนการกลัน
่ กรองและโหลดข้อมูลเข้าสููคลังข้อมูลใช้เวลานาน และ
ต้องอาศัยผู้ที่มีความชำานาญ
2. แนวโน้ มความต้องการข้อมูลมีมากขึ้นเรื่อย ๆ
3. ใช้เวลานานในการพัฒนาคลังข้อมูล
4. ระบบคลังข้อมูลมีความซับซ้อนสูง
เพิ่มขึ้นของข้อมูลจากแหลูงข้อมูลที่ได้รับอนุญาตหรือมีความนูาเชื่อ
ถือ รองรับการประมวลผลข้อมูลที่มีปริมาณมากๆ โดย Service จะ
ทำาหน้ าที่ในการจัดเตรียมข้อมูลตามที่ผู้ใช้ร้องขอ แตูปัญหาของการ
Service นี้ คือ ปั ญหาด้าน Net Work Brandwidth
Data Mining
3. การทำานายลูวงหน้ า (Prediction)
5. การรวมตัว (Clustering)
6. การบรรยาย (Description)
การทำา Database Segmentation อาจใช้ K-Mean Algorithms หรือ
อาจใช้ Unsupervised Learning Neural Network เชูน โมเดล
Kohonen Neural Net ถ้าเป็ นการทำา Predictive Modeling อาจใช้
cart (Classification and Regression tree) หรืออาจใช้ Supervised
Learning Neural Network เชูน Backpropagation Neural Net ถ้า
เป็ นการทำา Link Analysis มีการทำาอยูู 2 ลักษณะคือ Assosication
Rule Discovery และ Sequential Pattern Discovery อาจใช้ Apriori
Algorithms
เทคนิ คการทำาเหมืองข้อมูล
1. Classification & Prediction : เทคนิคในการจำาแนกกลูุมข้อมูล
ด้วยคุณลักษณะตูางๆที่ได้มีการกำาหนดไว้แล้ว สร้างแบบจำาลองเพื่อการ
พยากรณ์คูาข้อมูล (Predictive Model) ในอนาคต เรียกวูา
......Supervised Learning มี 2 รูปแบบ
• Classification เป็ นกระบวนการสร้างโมเดลจัดการ
ข้อมูลให้อยููในกลูุมที่กำาหนดไ เชูน จัดกลูุมนักเรียนวูา
ดีมาก ดี ปานกลาง ไมูดี กะบวนการ Classification
แบูงออกเป็ น 3 ขัน
้ ตอน
1. Model Construction (Learning) เป็ นขัน
้ การสร้าง
โมเดลโดยการเรียนรู้จากข้อมูลที่ได้กำาหนดไว้
เรียบร้อย (Training data) ซึ่งโมเดลที่ได้จะแสดงใน
รูปของ
1.1 Decistion Tree เป็ นวิธีการหนึ่ งที่สำาคัญใน
เทคนิคนี้ ซึ่งจะมีลักษณะเป็ น Flow Chart เหมือนโครงสร้างต้นไม้
ที่แตูละโหนดแสดงคุณลักษณะ(attribute) ที่ใช้ทดสอบข้อมูลแตูละ
กิ่งแสดงผลในการทดสอบและลีฟโหนด (leaf node) แสดงกลูุม
หรือ class ที่กำาหนดไว้ ซึ่ง decision tree นี้งูายตูอการเปลี่ยน
เป็ น Classification Rules
1.2 Neural Network ใช้ในการคำานวณคูาฟั งชัน
่ จาก
กลูุมข้อมูล เป็ นวิธีการเรียนรู้จากตัวอยูางต้นแบบ
แล้วฝึ กให้ระบบได้รู้จักที่จะคิดแก้ปัญหาที่กว้างขึ้น
ประกอบด้วยโหนด input output และการ
ประมวลผลผูานโหนดตูางๆใน input layer,
output layer, hidden layer
2. Model Evaluation เป็ นขัน
้ ประมาณความถูกต้อง
โดยอาศัยข้อมูลที่ใช้ทดสอบ(Testing data)
3. Model Usage เป็ นโมเดลสำาหรับใช้ข้อมูลที่ไมูเคย
เห็นมากูอน (unseen data) โดยจะกำานดคลาสให้กับ
ออบเจคใหมูที่ได้มาหรือทำานายคูาออกมาตามที่
ต้องการ
• Prediction การทำานายหาคูาที่ต้องการจากข้อมูลที่มีอยูู
เชูน หายอดขายของเดือนถัดไปจากข้อมูลที่มีอยูู
2. Database Clustering or Segmentation : เทคนิคในการจำาแนก
กลูุมข้อมูลใหมูที่มีลักษณะคล้ายกันไว้กลูุมเดียวกัน โดยไมูมีการจัด
กลูุมข้อมูลตัวอยูางไว้ลูวงหน้ า เรียกวูา .......Unsupervised Learning
เชูน บริษท
ั จำาหนูายรถยนต์ได้แยกข้อมูลกลูุมลูกค้าออกเป็ น 3 กลูุม
คือ กลูุมผู้มีรายได้สูง (80,000) กลูุมผู้มีรายได้ปานกลาง (25,000-
80,000) กลูุมผู้มีรายได้ต่ำา (น้ อยกวูา 25,000)
3. Association rule Discovery : เทคนิคในการค้นพบองค์ความรู้ใหมู
ด้วยการเชื่อมโยงกลูุมของข้อมูลที่เกิดขึ้นในเหตุการณ์เดียวกันไว้ด้วย
กัน การค้นหาความสัมพันธ์ของข้อมูลจากข้อมูลขนาดใหญูที่มี เพื่อนำ า
ไปวิเคราะห์ หรือ ทำานาย เชูน การวิเคราะห์การซื้อสินค้าของลูกค้า
4. Deviation Detection : เทคนิคที่ใช้ในการหาคูาความแตกตูางไป
จากมาตรฐาน หรือคูาที่คาดคิดไว้วูาตูางไปมากน้ อยเพียงใด โดยทัว
่ ไป
มักใช้วิธีทางสถิติหรือการแสดงให้เห็นภาพ (Visualization) เชูน การ
ตรวจสอบลายเซ็นปลอม การตรวจบัตรเครดิตปลอม การหาจุด
บกพรูองของชิ้นงานในโรงงานอุตสาหกรรม
5. Link Analysis : จุดมูุงหมายของ Link Analysis ก็คือ การสร้าง
Link ที่เรียกวูา “associations” ระหวูาง Record เดียว หรือกลูุมของ
Record ในฐานข้อมูล Link Analysis สามารถแบูงได้ 3 ชนิด
- associations Discovery
- sequential pattern discovery
- similar time sequence discovery
ประโยชน์ ของเหมืองข้อมูล
1. ค้นหาข้อมูลโดยอาศัยเทคโนโลยีของเหมืองข้อมูล
2. ใช้สถาปั ตยกรรมแบบ Client/Server
3. ผู้ใช้ระบบไมูจำาเป็ นต้องทักษะในการเขียนโปรแกรม
4. ผู้ใช้ต้องกำาหนดขอบเขตและเป้าหมายของระบบให้ชัดเจน เพื่อความ
รวดเร็วและถูกต้องตามความต้องการ
5. การประมวลผลแบบขนานจะชูวยเพิ่มประสิทธิภาพและความเร็วใน
การค้นหาข้อมูล
การประยุกต์ web mining เพื่อการบริการ web
1. การรวมข้อมูลตัวอักษรเข้ากับข้อมูล links บน web เพื่อสรุปหา