โปรแกรม weka

โปรแกรมWeka (Waikato Environment for Knowledge Analysis) เป็นซอฟต์แวร์ฟรีที่แจกจ่ายภายใต้ GPL license เขียนโดยภาษาจาวาทั้งหมด โดยเน้นกับการเรียนรู้ด้วยเครื่อง (Machine learning) กับการทำเหมืองข้อมูล (Data mining) มีโมดูลย่อยสำหรับจัดการข้อมูล สามารถใช้ GUI และใช้คำสั่งในการสั่งให้ซอฟต์แวร์ประมวลผล สามารถรันได้หลายระบบปฏิบัติการ และสามารถพัฒนาต่อยอดโปรแกรมได้ เป็นเครื่องมือที่ใช้ทำงานในด้านการทำดาต้าไมน์นิ่งที่รวบรวมแนวคิดอัลกอริทึมมากมาย

ข้อดีของโปรแกรม weka

  1. เป็นซอฟต์แวร์เสรีที่สามารถดาวน์โหลดได้ฟรี
  2. สามารถทำงานได้ทุกระบบปฏิบัติการ
  3. เชื่อมต่อ SQL Database โดยใช้ Java Database Connectivity
  4. มีการเตรียมข้อมูลและเทคนิคในการสร้างแบบจำลองที่ครอบคลุม
  5. มีอัลกอริทึมที่รู้จักกันดีของการทำดาต้าไมน์นิ่งให้เลือกใช้อย่างครบถ้วน และสามารถเขียนฟังก์ชั่นเพิ่มเข้าไปในโปรแกรมเองได้

ความสามารถของซอฟแวร์วีก้า

  1. สนับสนุนเกี่ยวกับการทำเหมืองข้อมูล (Data Mining)
  2. การเตรียมข้อมูล (Data Preprocessing)
  3. การทำเหมืองข้อมูลด้วยเทคนิคจำแนกข้อมูล (Classification)
  4. การทำเหมืองข้อมูลด้วยเทคนิคการจัดกลุ่ม (Clustering)
  5. การทำเหมืองข้อมูลด้วยเทคนิคการวิเคราะห์ความสัมพันธ์ (Associating)
  6. เทคนิคการคัดเลือกข้อมูล (Selecting Attributes)
  7. เทคนิคการนำเสนอข้อมูลด้วยรูปภาพ (Visualization)

ข้อเสีย

ยังไม่แน่ใจนัก แต่จะวัดคุณภาพของวิธีกับAccuracyที่ได้มากกว่า เพราะในทางปฏิบัติจริง บางข้อมูลใช้วิธีApriori  จะให้ความเที่ยงตรงสูงกว่าใช้FP-Treeบางข้อมูล ใช้ วิธี FP-treeก็จะให้ความเที่ยงตรงสูงกว่าApriori

ดังนั้น ในการทางปฏิบัติต้องเอา Model ที่ได้มาEvaluated เพื่อ เลือก วิธีที่เหมาะสม

การเตรียมแฟ้มข้อมูล

  • กำหนดลักษณะประจำเป้าหมายให้เป็นลักษณะประจำสุดท้าย
  • บางขั้น ตอนวิธีใช้สร้างต้นไม้การตัดสินใจต้องการลักษณะประจำที่มีค่าไม่ต่อเนื่องเท่านั้น ดังนั้น
  • เราจำเป็นต้องเปลี่ยนลักษณะประจำที่มีค่า ต่อเนื่องให้เป็นลักษณะประจำที่มีค่าไม่ต่อเนื่อง
  •  ในกรณีที่มีระเบียนน้อย เราอาจใช้k-fold cross validation หรือleave-one-out
  • ในกรณีที่มีระเบียนมากพอเราควรแบ่ง กันระเบียนบางส่วนเป็น Validation, Test data และที่
  • เหลือนำมาใช้เป็น Training data สัดส่วนที่ใช้อาจเป็น 3/10, 3/10กับ4/10 

โปรแกรม orange canvas

เป็นการสร้างภาพเปิดและวิเคราะห์ข้อมูลสำหรับมือใหม่และผู้เชี่ยวชาญ การทำเหมืองข้อมูลผ่านทางภาพเขียนโปรแกรมหรืองูหลามสคริปต์ ส่วนประกอบสำหรับการเรียนรู้เครื่อง Add-ons สำหรับชีวสารสนเทศและการเหมืองแร่ข้อความ เต็มไปด้วยคุณสมบัติสำหรับการวิเคราะห์ข้อมูล

ข้อดี

– ทำให้การเชื่อมต่อง่ายยิ่งขึ้น

– ทำให้การวิเคราะห์ข้อมูลสำหรับมือใหม่ได้ง่ายขึ้น

ข้อเสีย

– ถ้าเชื่อต่อไม่ดีอาจทำให้การเชื่อต่อผิดพลาดได้

โปรแกรม Matlab

Matlab (matrix laboratory) เป็นภาษาคอมพิวเตอร์ชั้นสูง (High-level Language) สำหรับการคำนวณทางเทคนิคที่ประกอบด้วยการคำนวณเชิงตัวเลข กราฟิกที่ซับซ้อน และการจำลองแบบเพื่อให้มองเห็นภาพพจน์ได้ง่ายและชัดเจน เดิมโปรแกรม MATLAB ได้เขียนขึ้นเพื่อใช้ในการคำนวณทาง matrix หรือเป็น matrix software ที่พัฒนาจากโพรเจ็กที่ชื่อ LINKPACK และ EISPACK

ต่อมาได้พัฒนามาด้วยการแก้ปัญหาที่ส่งมาจากหลายๆ ผู้ใช้เป็นระยะเวลาหลายปีจึงทำให้โปรแกรม MATLAB มีฟังก์ชันต่างๆ ให้เลือกใช้มากมาย ในบางมหาวิทยาลัยได้ใช้โปรแกรม MATLAB เป็นหลักสูตรพื้นฐานในการศึกษาทางด้วนคณิตศาสตร์ วิศวกรรม และวิทยาศาสตร์แขนงต่างตลอดจนใจด้วนอุตสาหกรรมได้ใช้โปรแกรม MATLAB เป็นเครื่องมือสำหรับใช้ในงานวิจัย พัฒนาและวิเคราะห์ โปรแกรม MATLAB จะมีกล่องเครื่องมือที่ใช้ในการหาคำตอบเรียกว่า Toolbox โดยโปรแกรม MATLAB จะมี toolbox ในแต่ละสาขา เช่น การประมวลผลสัญญาณ (Signal processing toolbox) การประมวลผลภาพ (image processing toolbox) ระบบควบคุม (control system toolbox) โครงข่ายประสาท (neural networks toolbox) ฟัซซี่ลอจิก (fuzzy logic toolbox) เวฟเลท (wavelet toolbox) การติดต่อสื่อสาร (communication toolbox) สถิติ (Statistics toolbox) และสาขาอื่นๆ มากมาย ภายใน toolbox แต่ละสาขาก็จะมีฟังก์ชันต่างๆ ที่เกี่ยวข้องกับการแก้ปัญหาในสาขานั้นๆ ให้เลือกประยุกต์ใช้งานเป็นจำนวนมาก

 ข้อดีของโปรแกรม matlab

  1. มีฟังก์ชันคณิตศาสตร์ให้เลือกใช้ในการคำนวณมากมายตลอดจนเราสามารถสร้างฟังก์ชันขึ้นมาใช้งานได้เองในสาขาที่ต้องการ โดยฟังก์ชันที่สร้างขึ้น (M-File) จะมีนามสกุลเป็น .M
  2.  Algorithm พัฒนาได้ง่ายไม่ยุ่งยาก สามารถแก้ไขปัญหาทางด้วนคณิตศาสตร์ที่มีความซับซ้อนได้ง่าย และรวดเร็วกว่าโปรแกรมภาษาอื่นๆ เช่น C Fortran Basic เป็นต้น
  3. มีโครงสร้างแบบจำลอง (Simulink) ซึ่งเป็น Package ที่เรานำไปสร้างบล็อกไดอะแกรมเพื่อใช้ทดสอบ และประเมินผลระบบ Dynamic ต่างๆ ก่อนนำไปใช้งานจริง
  4. สามารถวิเคราะห์และตรวจสอบข้อมูลได้ง่ายและรวดเร็ว
  5. นำไปใช้งานในทางด้วนกราฟิกได้เป็นอย่างดีทั้งในด้านการแสดงภาพตั้งแต่สองมิติที่เป็น rectangular polar stair bar รวมทั้งภาพสมมิติในรูปแบบพื้นผิว (surface) และระดับสูงต่ำ (contour) ตลอดจนสามารถนำภาพมาต่อกัน และเก็บไว้เพื่อที่จะสร้างเป็นภาพเคลื่อนไหวได้อีกด้วย
  6. ประยุกต์ใช้ในการสร้างรูปแบบ Graphical User Interface ได้โดยการเลือกใช้ object และเมนูต่างๆ โดยโปรแกรม MATLAB จะมีเครื่องมือให้เลือกใช้ เช่น เมนู รายการ ปุ่มกด และ fields object ต่างๆ เพื่อให้ผู้ใช้สามารถเลือกนำไปใช้ในการทำงานปฏิสัมพันธ์กันระหว่างผู้ใช้กับเครื่องคอมพิวเตอร์ได้
  7. ทำการประมวลผลร่วมกับโปรแกรมอื่นได้ เช่น Fortran, Borland C/C++, Microsoft Visual C++ และ Watcom C/C++ ด้วยการเขียนฟังก์ชันที่เป็น mex ไฟล์โดยโปรแกรม MATLABจะเรียกใช้รูทีนจากโปรแกรมภาษา C และ Fortran
  8. โปรแกรม MATLAB เป็นระบบ interactive ซึ่งส่วนของข้อมูลพื้นฐานเป็นอาร์เรย์ที่ไม่ต้องการมิติ ทำให้โปรแกรม MATLAB สามารถทำการแก้ปัญหาทางเทคนิคต่างๆ ได้มากใช้เวลาในการประมวลผลน้อย และดีกว่าโปรแกรมภาษา C และ Fortran

ข้อเสียของโปรแกรม matlab

  1. การป้อนข้อมูลแบบ spreadsheet จะทำได้ลำบากมาก
  2. ถ้าไม่ได้มีพื้น math กับพื้นความคิดการเขียนโปรแกรม computer ระดับ ม.ปลาย ขึ้นไปจะลำบากเวลาใช้

คอมพิวเตอร์ที่เหมาะสมสำหรับโปรแกรม MATLAB
เนื่องจากโปรแกรม MATLAB เป็นโปรแกรมที่ใช้สำหรับการคำนวณทางคณิตศาสตร์และกราฟิกที่ซับซ้อนดังนั้นจึงจำเป็นต้องใช้เครื่องคอมพิวเตอร์ที่มีความเร็วสูง คอมพิวเตอร์พีซีที่เหมาะสมกับโปรแกรม MATLAB คือ มีซีพียูรุ่นเพนเทียมขึ้นไป แรมควรมีอย่างต่ำ 32 เมกกะไบต์ ส่วนฮาร์ดดิสก์ควรมีเนื้อที่ว่างเกินกว่า 80 เมกกะไบต์ขึ้นไป