ลักษณะสำคัญของ Big Data
Big Data จะต้องมีลักษณะสำคัญ 4V ดังต่อไปนี้ จึงจะเรียกได้ว่าเป็น Big Data
- ปริมาณ (Volume) คือ ปริมาณข้อมูลที่สามารถผลิตและจัดเก็บไว้ได้จะต้องขนาดที่ใหญ่มากเพียงพอ ซึ่งปริมาณของข้อมูลจะเป็นข้อบ่งบอกได้ถึงคุณภาพและประสิทธิภาพของข้อมูลภายในนั้น และสามารถนำไปพิจารณาต่อได้ว่าข้อมูลที่มีอยู่เหล่านั้น ถือเป็น Big Data หรือไม่
- ความหลากหลาย (Variety) คือ ความหลากหลายของประเภทของข้อมูล โดยสามารถเพิ่มประสิทธิภาพในการนำข้อมูลไปวิเคราะห์ต่อยอดได้ ไม่ว่าจะเป็นข้อมูลที่เป็นตัวหนังสือ, รูปภาพ, ข้อมูลเสียงที่ถูกบันทึกไว้, วีดีโอหรือไฟล์ประเภทอื่นจากหลากหลายแหล่งที่มา ก็สามารถเป็นส่วนหนึ่งในการเพิ่มประสิทธิภาพการทำงานของ Big Data ได้
ซึ่งจะเป็นข้อมูลจากทุกฝ่ายไม่ว่าจะเป็นการเงิน ฝ่ายขาย การตลาด ลูกค้าสัมพันธ์ บัญชี รวมถึงตัวหนังสือที่อาจเป็นบทสนทนาระหว่างแผนก หรือระหว่างบริษัท ซึ่งอาจเป็นข้อความจาก Social Media รวมถึง URLs ที่มีข้อมูลเข้ามาอยู่ในทุกวัน
- ความเร็ว (Velocity) คือ ความเร็วในการประมวลผลและผลิตข้อมูลขึ้นมาเพื่อให้ทันกับความต้องการของผู้ใช้งาน ซึ่ง Big Data คือข้อมูลที่ได้มาแบบ Real-Time และประมวลผลอยู่ตลอดเวลา แตกต่างจาก Small Data ที่ไม่สามารถทำได้
Big Data จะมีความถี่ในการประมวลผลที่มากกว่า การบันทึกข้อมูลที่มากกว่า และเผยแพร่ข้อมูลที่มากกว่า ข้อมูลของ Big Data ที่มีอัตราการเพิ่มขึ้นของข้อมูลที่มีการเพิ่มขึ้นได้อย่างรวดเร็ว โดยไม่ว่าจะเป็น
- ข้อมูลตัวอักษรการสนทนา
- ข้อมูลการบันทึกเสียง
- ข้อมูลการถ่ายภาพวีดีโอ
- ข้อมูลอัตราการสั่งซื้อสินค้า
- ข้อมูลโปรโมชั่นต่างๆ
- ซึ่งหากมานั่งดูแล้วจะถือว่าเป็นข้อมูลที่มีอยู่มาก และมีการอัปเดทเคลื่อนไหวอยู่ตลอดเวลา
- คุณภาพของข้อมูล (Veracity) คือ คุณภาพของข้อมูลที่สามารถนำไปวิเคราะห์ข้อมูลต่อไปได้อีก เป็นข้อมูลที่ยังไม่ผ่านการประมวลผลอยู่ในรูปแบบของข้อมูลดิบซึ่งสามารถนำไปประมวลผลต่อไปได้ และเป็นข้อมูลที่มาจากหลากหลายแหล่งไม่ว่าจะเป็น Facebook, Youtube, Twitter ซึ่งข้อมูลจากแหล่งเหล่านี้ยากที่จะสามารถควบคุมคุณภาพรวมถึงการคัดกรองข้อมูล และความน่าเชื่อถือของข้อมูล จึงต้องนำข้อมูลเหล่านี้เข้าสู่กระบวนการทำ Data Cleansing
นอกจาก 4V ที่เป็นลักษณะสำคัญของ Big Data นี้แล้วก็ยังมีลักษณะข้ออื่นๆ ที่สามารถบ่งบอกได้ว่าเป็น Big Data เช่นเดียวกัน ได้แก่
- Scalability คือ ขนาดของข้อมูลทั้งหมดที่มีที่ต้องสามารถขยายขนาดได้อย่างรวดเร็ว
- Relational คือ ความเกี่ยวข้องกันของข้อมูล ข้อมูลที่มีความเกี่ยวข้องกันอยู่จะสามารถทำให้การประมวลผลสามารถทำได้ดีมากยิ่งขึ้น
ที่มา: 1stcraft