Data Analytics

05.1.4: Live Lab: Prepare Data in Different File Formats

Data Acquisition & Formats เพราะข้อมูลไม่ได้มาในรูปแบบเดียวเสมอไป หน้าที่ของ Data Analyst คือการอ่าน “รหัส” ของไฟล์แต่ละประเภทให้ออก เพื่อนำไปสู่การประมวลผลและสร้างรายงานที่แม่นยำ


The Mission: Steps to Discovery

1. Decoding Delimited File Formats

SQL Server Management Studio (SSMS) ขั้นตอนสำคัญคือการแยกแยะไฟล์แบบ “มีตัวคั่น” (Delimited) ซึ่งเป็นรูปแบบมาตรฐานในการ Export ข้อมูลจากระบบต่างๆ เราได้เรียนรู้วิธีการระบุตัวคั่นประเภทต่างๆ เช่น:

2. Inspecting JSON Structures

SQL Server Management Studio (SSMS) เราได้เจาะลึกไฟล์ JSON (JavaScript Object Notation) ซึ่งเป็นหัวใจของการแลกเปลี่ยนข้อมูลในยุคปัจจุบัน โดยเน้นไปที่ 3 คุณสมบัติหลัก:

3. Identifying Data Sources

เราได้จำลองสถานการณ์การเลือกแหล่งข้อมูลให้เหมาะสมกับงาน (Data Acquisition) โดยวิเคราะห์ว่าข้อมูลประเภทใดควรมาจากไฟล์แบนๆ (Flat files) หรือข้อมูลแบบกึ่งโครงสร้าง (Semi-structured) เพื่อประสิทธิภาพสูงสุดในการทำ Analytics


การตรวจสอบโครงสร้าง CSV (Delimiter Identification)

```text EmployeeID,FullName,Department,Salary 101,John Doe,Data Science,85000 102,Jane Smith,AI Engineering,92000