05.1.4: Live Lab: Prepare Data in Different File Formats

Data Acquisition & Formats เพราะข้อมูลไม่ได้มาในรูปแบบเดียวเสมอไป หน้าที่ของ Data Analyst คือการอ่าน “รหัส” ของไฟล์แต่ละประเภทให้ออก เพื่อนำไปสู่การประมวลผลและสร้างรายงานที่แม่นยำ

The Mission: Steps to Discovery

1. Decoding Delimited File Formats

SQL Server Management Studio (SSMS) ขั้นตอนสำคัญคือการแยกแยะไฟล์แบบ “มีตัวคั่น” (Delimited) ซึ่งเป็นรูปแบบมาตรฐานในการ Export ข้อมูลจากระบบต่างๆ เราได้เรียนรู้วิธีการระบุตัวคั่นประเภทต่างๆ เช่น:

Comma (CSV): รูปแบบที่นิยมที่สุดสำหรับการทำตารางข้อมูล
Tabs / Semicolons / Pipes (|): ตัวคั่นทางเลือกที่ช่วยลดปัญหาเมื่อข้อมูลในฟิลด์มีเครื่องหมายคอมมาปนอยู่

Insight: การระบุ Delimiter ผิดเพียงจุดเดียว อาจทำให้การ Import ข้อมูลผิดพลาดหรือโครงสร้างข้อมูลบิดเบี้ยว (Misaligned)

2. Inspecting JSON Structures

SQL Server Management Studio (SSMS) เราได้เจาะลึกไฟล์ JSON (JavaScript Object Notation) ซึ่งเป็นหัวใจของการแลกเปลี่ยนข้อมูลในยุคปัจจุบัน โดยเน้นไปที่ 3 คุณสมบัติหลัก:

การเก็บข้อมูลแบบ Name/Value pairs ที่อ่านง่ายทั้งคนและเครื่อง
การใช้ Commas แยกชุดข้อมูล และ Square brackets สำหรับเก็บ Arrays
ความยืดหยุ่นในการเก็บข้อมูลแบบลำดับชั้น (Nested structure)

3. Identifying Data Sources

เราได้จำลองสถานการณ์การเลือกแหล่งข้อมูลให้เหมาะสมกับงาน (Data Acquisition) โดยวิเคราะห์ว่าข้อมูลประเภทใดควรมาจากไฟล์แบนๆ (Flat files) หรือข้อมูลแบบกึ่งโครงสร้าง (Semi-structured) เพื่อประสิทธิภาพสูงสุดในการทำ Analytics

การตรวจสอบโครงสร้าง CSV (Delimiter Identification)

```text EmployeeID,FullName,Department,Salary 101,John Doe,Data Science,85000 102,Jane Smith,AI Engineering,92000