Professional Documents
Culture Documents
บทคัดยอ
ดาตาแวรเฮาส หรือคลังขอมูล คือฐานขอมูลขนาดใหญทรี่ วบรวมขอมูลทั้งจากแหลงขอมูล
ภายในและภายนอกองคกร โดยมีรูปแบบและวัตถุประสงค ของการจัดเก็บขอมูลแตกตางจากฐานขอมูล
ปฏิบัตการทั่วไป การพัฒนาระบบคลังขอมูลเริ่มจากการออกแบบฐานขอมูล ซึ่งวิธีการหนึ่งเรียกวา ระเบียบ
วิธี 9 ชั้นของ Kimball จะเนนทีก ่ ารออกแบบจากระบบงานยอยหรือดาตามารทของแตละระบบงานใน
องคกรกอนจึงนําสวนยอยๆ นั้นมารวมเปนระบบคลังขอมูลขององคกรตอไป ทั้งนี้กระบวนการหนึ่งที่สําคัญ
มากในการพัฒนาระบบคลังขอมูล คือการนําขอมูลจากแหลงขอมูลเขาสูดาตามารทของแตละระบบ หรือ
เรียกวาการแปลงขอมูล โดยจะตองกําหนดการสงขอมูล รวบรวมหรือสรางขอมูลภายนอก วางแผนและ
สรางรูทน ี การแปลงขอมูล จึงตรวจสอบความถูกตองของขอมูลที่ไดกอนนําเขาสูคลังขอมูลเพื่อใหเปน
ขอมูลที่เหมาะสมที่จะนําไปวิเคราะหตอไป
1. บทนํา
เนื่องจากสภาพเศรษฐกิจปจจุบันที่ยังไมจด ั วาพนภาระวิกฤตธุรกิจหลายประเภท จึงยังตองการ
การวิเคราะห วางแผน และตัดสินใจอยางถูกตอง รวดเร็วเพือ ่ ชวยใหธุรกิจสามารถดําเนินไปได ดังนั้น
ขอมูลจึงเปนปจจัยสําคัญยิ่งยวดตอการดําเนินการนั้น การใชขอมูลเปนเครือ ่ งมือสําคัญในการตัดสินใจการ
ลงทุนทางธุรกิจและวางแผนกลยุทธทางการตลาดเพื่อแขงขันกับคูแขงทางการคา ฉะนั้นก็อาจกลาวไดวา
การมีขอมูลมากทําใหมีโอกาสและมีชย ั เหนือคูแขงในระดับหนึ่ง แตทวาหากมองในทางกลับกัน การมี
ขอมูลจํานวนมากแตขาดการจัดเรียงใหเปนระบบยุงยากในการเขาถึงและคนคืน ธุรกิจอาจตองเสีย
คาใชจายจํานวนมหาศาลในการเก็บรักษาขอมูลเหลานั้นไวโดยไมจําเปน เพราะไมไดรับประโยชนจาก
ขอมูลที่มี นอกจากนี้หากมีการนําขอมูลมาวิเคราะหอยางผิดพลาดอาจจะกอใหเกิดผลเสียหายได ซึ่งเปน
การสูญเสียโอกาสทางธุรกิจไป เพราะฉะนั้นในยุคที่ผูบริหารมีความตองการใชขอมูล เพื่อการตัดสินใจมาก
ขึ้น การจัดระบบระเบียบขอมูล เพื่อนําเสนอขอมูลที่มค ี ุณคาและผานการกลัน ่ กรองแลวแกผูบริหารเพื่อใช
ในการตัดสินใจใหทันตอเหตุการณจึงเปนสิ่งที่จําเปนอยางยิง่
แนวความคิดของการสรางคลังขอมูลจึงเกิดขึ้นเพื่อเปนที่เก็บรวบรวมขอมูลสําคัญและจําเปนจากแหลง
ตางๆ ซึ่งเปนประโยชนตอการตัดสินใจของผูบ ริหาร เพื่อใหผูบริหารสามารถเรียกใชขอมูลที่ตองการได
อยางรวดเร็วและมีประสิทธิภาพมากขึ้น ขอมูลเชิงบริหารนี้จะสามารถชวยลดปญหาที่เกิดจากการใชขอมูล
จากฐานปฏิบต ั ก
ิ าร (operational database) ซึง่ เปนการเก็บขอมูลในรูปแบบ transaction system ได ซึ่ง
โดยทั่วไปปญหาที่พบเมื่อตองการขอมูลทีช ่ ว ยในการตัดสินใจไดแก
- การเรียงขอมูลจากฐานขอมูลปฏิบัตก ิ าร ซึ่งมีขนาดใหญ ทําใหประสิทธิภาพของระบบลดลง
และทํางานไดชาลง
- ขอมูลที่นําเสนอมีรูปแบบเดียว ไมสามารถเปลี่ยนแปลงไดตามความตองการของผูบริหาร
- ไมสามารถหาคําตอบในเชิงพยากรณได
- ไมตอบสนองการทําคิวรีท ่ ซ
ี่ บ ั ซอนไดดีเทาที่ควร
- ขอมูลถูกจัดเก็บอยูตามฐานขอมูลของระบบงานตางๆ ซึ่งยากแกการเรียกใชและขาด
ความสัมพันธทางธุรกิจ
2. สิ่งทีค
่ วรพิจารณากอนสรางคลังขอมูล
เนื่องจากการลงทุนสรางคลังขอมูลขึ้นมาใชเพื่อสนับสนุนการทํางานขององคกรนั้นจําเปนตองมีคาใชจาย
ในการลงทุนมหาศาล ทั้งทีส ่ ามารถวัดออกมาเปนตัวเงินได เชนคาใชจา ยดานฮารดแวร ซอฟตแวร และ
infrastructure อื่นๆ ที่จําเปนตองใช สวนคาใชจายที่ไมเปนตัวเงิน แตมีความสําคัญอยางมากไดแก กําลัง
แรงงานที่เสียไปของทรัพยากรบุคคลขององคกรและเวลาทีใ่ ชในการพัฒนา ดังนั้น เมื่อองคกรตัดสินใจ
สรางคลังขอมูลขึ้นแลว ควรจะประสบความสําเร็จดวย ทั้งนี้ Poe ไดเสนอ The Big Eight หรือ 8 ประการที่
ควรใหความสนใจ โดยมีรายละเอียดดังนี้
1. ควรมีเปาหมายที่ชด
ั เจนรวมของการสรางระบบนี้ของคนในองคกร เหมือนการตอบคําถามวา
ทําไมคุณถึงคิดจะสรางคลังขอมูล? ซึ่งคําตอบขององคกร ทีจ ่ ะไดคือเปาหมายทีต
่ องการ โดย
ควรจะเขียนเปาหมายนี้ออกมาเปนลายลักษณอักษรที่ชด ั เจน เพื่อใหทีมพัฒนาไดเขาใจ
เปาหมายรวมกัน
2. ทําความเขาใจสถาปตยกรรมของระบบ เพื่อใหทมี พัฒนาเขาใจตรงกัน ในที่นี้หมายถึง blueprint
ที่แสดง E-R model รวมของระบบความเขาใจที่ตรงกันทําใหงานเดินไปไดเร็วขึ้น
3. เทคโนโลยี่ทใี่ ชควรอยูในวิสยั ที่เหมาะสม ทั้งดานของตัวเงินและความยากงายในการเรียนรู ทั้งนี้
หมายรวมทั้งฮารดแวร ซอฟตแวร และเครือขาย อาจตองมีการทดสอบและฝกอบรมกอนการใช
งานจริง
4. ทีมงานตองมีวส
ิ ัยทัศนเชิงบวกในการทํางาน เนื่องจากทีมพัฒนามักมาจากสวนงานดาน
เทคโนโลยีสารสรเทศ แตในเนื้องานจริงๆ แลวผูใ ชขั้นปลายเปนสวนงานอืน ่ ๆ ขององคกร ดังนั้น
จึงจําเปนอยางยิ่งที่จะใหผใู ชขั้นปลายที่เปนเจาของงานเขามารวมทํางานดวยตั่งแตตนโครงการ
5. ตองมั่นใจไดวา ทีมพัฒนาเขาใจเปนอยางดีถงึ ความแตกตางกันระหวางฐานขอมูลปฏิบัติการและ
ฐานขอมูลสนับสนุนการตัดสินใจ
6. จัดใหมีการฝกอบรม โดยควรเปนการฝกอบรมกอนเริ่มโครงการ โดยเฉพาะอยางยิ่งการฝกอบรม
เกี่ยวกับเครื่องมือที่องคกรจะใชพัฒนา ทั้งนี้อาจเปนการฝกอบรมจากบริษท ั ผูขาย
7. ควรหาบุคลากรที่มีประสบการณในการพัฒนาคลังขอมูลเพื่อทําหนาที่เปนผูจ ัดการโครงการหรือ
ถาในองคกรไมเคยมีประสบการณเลย อาจจางที่ปรึกษาที่มีความเชี่ยวชาญและมีประสบการณ
ดานนี้โดยเฉพาะมาชวยทีมพัฒนา
8. โปรแกรมที่จะใชนําเสนอขอมูลในคลังขอมูล ตองสามารถเรียนรูไดงายและผูใชสามารถใชงาน
ไดอยางมีประสิทธิภาพ
3.แนวคิดเกี่ยวกับคลังขอมูล
3.1 นิยามของคลังขอมูล
คลังขอมูล หมายถึง ฐานขอมูลขนาดใหญขององคกรหรือหนวยงานหนึ่งๆ ซึ่งเก็บรวบรวมขอมูลจาก
ฐานขอมูลระบบงานประจําวัน หรือเรียกอีกอยางวา operational database และฐานขอมูลอืน ่ ภายนอก
องคกร หรือเรียกวา external database โดยขอมูลทีถ
่ ูกจัดเก็บในคลังขอมูลนัน
้ มีวัตถุประสงคในการ
นํามาใชงานและมีลักษณะของการจัดเก็บแตกตางไปจากขอมูลในฐานขอมูลระบบงานอื่น โดยขอมูลใน
คลังขอมูลจะถูกนํามาใชเพื่อสนับสนุนการตัดสินใจบริหารงานของผูบริหาร โดยเฉพาะการเปนขอมูล
พื้นฐานใหกับระบบงาน เพื่อการบริหารงานอืน ่ เชน ระบบ DSS และระบบ CRM เปนตน
3.2 คุณลักษณะเฉพาะของคลังขอมูล
จากนิยามของคลังขอมูลที่บอกถึงความแตกตางกันระหวางคลังขอมูลกับฐานขอมูลปฏิบัตก ิ าร ซึ่งสามารถ
สรุปคุณลักษณะของคลังขอมูลไดดังนี้
1. Subject oriented หรือการแบงโครงสรางตามเนื้อหา หมายถึง คลังขอมูลถูกออกแบบมาเพื่อ
มุงเนนไปในแตละเนื้อหาทีส ่ นใจ ไมไดเนนไปที่การทํางานหรือกระบวนการแตละอยางโดยเฉพาะเหมือน
อยางฐานขอมูลปฏิบัติการในสวนของรายละเอียดขอมูลทีจ ่ ด
ั เก็บในระบบทัง้ สองแบบก็จะแตกตางกันไป
ตามความตองการใชงานดวยเชนกัน คลังขอมูลจะไมจาํ กัดเก็บขอมูลที่ไมมส ี วนเกี่ยวของกับการ
ประมวลผลเพื่อสนับสนุนการตัดสินใจ ในขณะที่ขอมูลนั้นจะถูกเก็บไวในฐานขอมูลปฏิบัติการหากมีสวนที่
เกี่ยวของกับกระบวนการทํางาน
2. Integration หรือการรวมเปนหนึ่ง ซึ่งถือไดวาเปนคุณลักษณะทีส่ ําคัญทีส ่ ด
ุ ของคลังขอมูล คือ
การรวบรวมขอมูลจากหลายฐานขอมูลปฏิบัตก ิ ารเขาดวยกัน และทําใหขอมูลมีมาตราฐานเดียวกัน เชน
กําหนดใหมีคาตัวแปรของขอมูลในเนื่อหาเดียวกันใหเปนแบบเดียวกันทั้งหมด
3. Time variancy หรือความสัมพันธกับเวลา หมายถึงขอมูลในคลังขอมูล จะตองจัดเก็บโดย
กําหนดชวงเวลาเอาไว โดยจะสัมพันธกับการดําเนินธุรกิจของหนวยธุรกิจนัน ้ เพราะในการตัดสินดานการ
บริหารจําเปนตองมีขอมูลเปรียบเทียบในแตละชวงเวลา แตละจุดของขอมูลจะเกี่ยวของกับจุดของเวลา
และขอมูลแตละจุดสามารถเปรียบเทียบกันไดตามแกนของเวลา
4. Nonvolatile หรือความเสถียรของขอมูล หมายถึงขอมูลในคลังขอมูลจะไมเปลี่ยนแปลงบอย
ไมวาจะเปนการเพิ่มเติมขอมูลใหม หรือการปรับปรุงแกไขขอมูลเดิมที่บรรจุอยูแลว ผูใชทําไดเพียงการ
เขาถึงขอมูลเทานั้น
5. เทคนิคในการสรางคลังขอมูล
5.1 การเคลื่อนที่ของขอมูลในคลังขอมูล
ขอมูลที่จดั เก็บภายในคลังขอมูลมีการเคลื่อนที่ของขอมูล (information flow) 5 ประเภท ดังนี้
1. Inflow คือการนําขอมูลจากฐานขอมูลอื่นเขาสูคลังขอมูลทั้งฐานขอมูลภายในและภายนอก
องคกร โดยในขั้นนี้อาจมีการเปลี่ยนแปลงโรงสรางขอมูล การทํา denormalize การลบหรือการเพิ่มฟลด
เพื่อใหขอมูลทัง้ หมดอยูใ นเนื้อหาทีส ่ นใจเดียวกัน ในขั้นตอนนี้อาจใชเครื่องมือที่เรียกวา data warehouse
tool
2. Upflow เมื่อขอมูลที่เราตองการอยูในคลังขอมูลแลว ในบางครั้งอาจตองมีการเพิ่มคุณคา
ใหกับขอมูลดวยเพื่อใหขอมูลอยูในรูปแบบทีเ่ ปนประโยชนมากที่สด ุ ตอการนําเครื่องมือมาใช ซึ่งไดแกการ
จัดกลุมขอมูลหาคาทางสถิตท ิ ซี่ ับซอน จัดขอมูลใหอยูใ นรูปแบบหรือเทมเพลตมาตราฐาน
3. Downflow เปนขั้นตอนของการปรับปรุงเปลี่ยนแปลงขอมูลเกา และไมอยูในเนื่อหาที่องคกร
สนใจออกไปจากคลังขอมูลขององคกร
4. Outflow เปนขั้นตอนทีผ ่ ูใชเรียกใชขอมูลในคลังขอมูลผานเครื่องมือตางๆ โดยการเรียกใชอาจ
มีเพียงขอเรียกเปนครั้งคราวเปนประจําทุกวัน/เดือน หรือแมกระทั่งตองการแบบทันที
5. Metaflow ขอมูลที่จด ั เก็บในคลังขอมูลจะถูกทําขอมูลไวอีกชุดหนึ่ง เปนแหลงที่มาของขอมูล
นั้น หรือแมกระทั่งที่อยูของขอมูลนั้นในคลังขอมูลและขอมูลอื่นที่เกี่ยวของ
5.2 วิธีการออกแบบฐานขอมูลสําหรับคลังขอมูล
วิธีการนี้ถูกเสนอโดย Kimball ในป 1996 เรียกวาระเบียบวิธี 9 ชั้น หรือ Nine-Step Methodology โดย
วิธีการนี้เริ่มจากการออกแบบจากสวนยอยทีแ ่ สดงถึงแตละระบบงานขององคกร หรือเรียกอีกอยางหนึ่งวา
ดาตามารท (data mart) โดยเมือ ่ ออกแบบแตละสวนสําเร็จแลว จึงนํามารวมกันเปนคลังขอมูล ขององคกร
ในขั้นสุดทาย ซึ่งขั้นตอนทั้ง 9 ขั้นตอน มีรายละเอียดดังนี้
1. กําหนดดาตามารท คือการเลือกวาจะสรางดาตามารทของระบบงานใดบาง และระบบงานใด
เปนระบบงานแรกโดยองคกรจะตองสราง E-R model ที่รวมระบบงานทุกระบบขององคกรไว แสดงการ
เชื่อมโยงของแตละระบบงานอยางชัดเจน และสิ่งที่ตองคํานึงถึงในการเลือกระบบงานที่จะเปนดาตามาร
ทแรกนั้น มี 3 ปจจัยที่เกี่ยวของ ไดแก จะตองสามารถพัฒนาออกมาไดทน ั ตามเวลาที่ตอ งการ โดยอยูใ น
งบประมาณที่กําหนดไวและตองตอบปญหาทางธุรกิจใหแกองคกรได ดังนัน ้ ดาตามารทแรกควรจะเปนของ
ระบบงานที่นํารายไดเขามาสูองคกรได เชน ระบบงานขาย เปนตน
2. กําหนด fact table ของดาตามารท คือกําหนดเนื่อหาหลักทีค ่ วรจะเปนของดาตามารท โดยการ
เลือกเอนทิตีหลักและกระบวนการที่เกี่ยวกับเอนทริตน ี ั้นๆ ออกมาจาก E-R model ขององคกร นั้นหมายถึง
วาจะทําใหเราทราบถึง dimension table ที่ควรจะมีดวย
3. กําหนดแอตทริบิวตที่จําเปนในแตละ dimension table คือการกําหนดแอตทริบวิ ตที่บอกหรือ
อธิบายรายละเอียดของ dimension ได ทั้งนี้แอตทริบิวตที่เปน primary key ควรเปนคาทีค ่ ํานวณได กรณีที่
มีดาตามารทมากกวาหนึ่งดาตามารทมี dimension เหมือนกัน นั่นหมายถึงวา แอตทริบิวตืใน dimension
นั้นจะตองเหมือนกันทุกประการ นั้นไมอาจจะแกไขปญหาการจัดเก็บขอมูลซ้ําซอน อันนํามาสูความ
แตกตางกันของขอมูลชุดเดียวกัน ปญหานี้จงึ เปนการดีทจ ี่ ะมีการใช dimension table รวมกันในแตละ fact
table ที่จาํ เปนตองมี dimension ดังกลาว โดยเรียก dimension table ลักษณะแบบนี้วา comformed และ
เรียก fact table วา fact constellation เราสามารถกําหนดขอดีของการใช dimension table รวมกันไดดังนี้
(1) แนใจไดวาในแตละรายงานจะออกมาสอดคลองกัน
(2) สามารถสรางดาตามารทในเวลาตางๆ กันได
(3) สามารถเขาถึงดาตามารทโดยผูพัฒนากลุม อื่นๆ
(4) สามารถรวบรวมดาตามารทหลายๆ อันเขาดวยกัน
(5) สามารถออกแบบคลังขอมูลรวมกันได
5.3 การแปลงขอมูลเขาสูดาตามารท
เมื่อเราออกแบบฐานขอมูลสําหรับแตละดาตามารทเสร็จแลว ขั้นตอนตอไปที่สาํ คัญยิ่งก็คือการนําขอมูล
จากแหลงขอมูลไปแปลงใหอยูในแพลตฟอรมของฐานขอมูลที่ไดออกแบบไว นั่นก็คือการแปลงขอมูล
หรือ Extraction Transformation and Loading (ETL) นั่นเอง โดยที่คุณภาพของการแปลงขอมูลเปนสิ่ง
สําคัญมากสําหรับการสรางคลังขอมูล จะแตกตางกันไปตามคลังขอมูลที่แตละองคกรตองการ โดยที่การ
แปลงขอมูลหมายรวมตั้งแตการวิเคราะหแหลงขอมูล กําหนดการสงขอมูลรวบรวมหรือสรางขอมูล
ภายนอก วางแผนและสรางรูทน ี ของการแปลงขอมูล และตรวจสอบความถูกตองของขอมูลที่ไดสามารถ
สรุปเปนขั้นตอนไดดังนี้
1. วิเคราะหแหลงขอมูล เชน ปริมาณของขอมูล จํานวนและชนิดของการเขาถึงแหลงขอมูล
แพลตฟอรมและภาษาโปรแกรมที่ใช เปนตน
2. ยายขอมูลทีต
่ องการจากระบบเดิมมาไวในบริเวณที่ใชปรับแตงขอมูล หรือเรียกบริเวณนี้วา
staging area เพื่อนํามาเลือกเฉพาะสวนทีต ่ องการแปลงขอมูลและตรวจสอบความถูกตอง หรือการทําความ
สะอาดขอมูล
3. กําหนด primary key ของ fact table และ dimension table และกําหนด foreign key ระหวาง
fact table กับ dimension table
4. ยายขอมูลทีท่ ําความสะอาดแลวจาก staging area ลงสูเซิรฟ
เวอรของดาตามารท
5. สราง metadata ของแตละดาตามารท โดยเก็บรายละเอียดของขอมูลการอัปเดตและสงออกไป
ไวในดาตามารท
6. ตรวจสอบความถูกตองของขอมูล ซึ่งจะตองกระทําตลอดทั้งกระบวนการแปลงขอมูลจําทําได
ดังนี้
(1) ตรวจสอบผลรวมทั้งหมดของจํานวนขอมูลที่ดึงมาจากแหลงขอมูลที่เพิม ่ เขาไป
(2) ตรวจแกขอมูลในระบบเดิมของแหลงขอมูล หรือในรูทีนของการแปลง ซึง่ ควรจะเก็บ
ขอมูลในการตรวจแกไวใน metadata ของการแปลงขอมูลดวย
(3) ตรวจสอบคาของขอมูลใหถูกตองในกระบวนการรวบรวมขอมูล
(4) ตรวจสอบผลรวมของขอมูลหลังจากยายขอมูลลงสูด าตามารทแลว
6. สรุป
คลังขอมูลเปนการรวบรวมขอมูลจากฐานขอมูลของระบบงานปฏิบัติงานประจําวันขององคกร แลวนํามา
แปลงขอมูลใหอยูในรูปแบบ ที่เหมาะสมในการเก็บและสะดวกในการใชงาน แลวจึงนําขอมูลนั้นเขาไปเก็บ
ในคลังขอมูล
การพัฒนาหรือสรางคลังขอมูลจากฐานขอมูลจะตองมีการพิจารณาถึงองคืประกอบที่จาํ เปนในการสรางให
เหมาะสมดวย ทั้งนี้เพื่อใหเกิดความคุม
คาในการลงทุนและเกิดประโยชนสูงสุดตอองคกร ถึงแมวา
เทคโนโลยีคลังขอมูล จะใหประสิทธิภาพในการใชขอมูลอยางมากก็ตาม แตสิ่งทีต ่ องคํานึงดวยคือ
ทรัพยากรที่องคกรจะตองทุมเทลงไปในการพัฒนาที่อาจจะเกิดขึ้นจนองคกรไมสามารถจะพัฒนาระบบนี้
จนสําเร็จ และนํามาใชงานได เกิดการลงทุนทีส ่ ูญเปลา ดังนั้นจึงตองมีการวางแผนควบคุมและจัดการให
รอบคอบ