AWS AI Data Essentials | දත්ත මූලිකාංග සිංහලෙන් | Sinhala Guide

AWS AI Data Essentials | දත්ත මූලිකාංග සිංහලෙන් | Sinhala Guide

අයියේ, නංගියේ, හිතවත් මිත්‍රවරුනි! අද අපි කතා කරන්න යන්නේ Artificial Intelligence (AI) සහ Machine Learning (ML) කියන මේ ලෝකේ හරිම වැදගත්, හැබැයි ගොඩක් අය නොසලකා හරින දෙයක් ගැන. ඒ තමයි Data Fundamentals, එහෙමත් නැත්නම් දත්ත මූලිකාංග.

AI සහ ML කියන්නේ අහසෙන් පාත් වෙන මැජික් නෙවෙයි. ඒවට තේරුම් ගන්න, ඉගෙන ගන්න දත්ත ඕනේ. හරියට අපිට ඉගෙන ගන්න පොත්, ගුරුවරු වගේ. ඉතින්, හොඳ AI/ML මොඩලයක් හදන්න නම්, හොඳ, තේරුම් ගන්න පුළුවන් දත්ත ටිකක් අත්‍යවශ්‍යයි. AWS වගේ Cloud Platform එකක AI/ML වැඩ කරනකොටත් මේ දත්ත ගැන අවබෝධය අත්‍යවශ්‍යයි. මේ Guide එකෙන් අපි බලමු AI/ML project එකක් සාර්ථක කරගන්න අවශ්‍ය මූලික දත්ත දැනුම මොනවද කියලා. අපි මේ ගැන කතා කරන්නේ හරිම සරලව, ඔයාලට තේරෙන භාෂාවෙන්.

අද අපි කතා කරන දේවල්:

  • දත්ත වර්ග (Data Types): Structured සහ Unstructured Data කියන්නේ මොනවද?
  • දත්ත එකතු කිරීමේ ක්‍රමෝපාය (Data Collection Strategies): කොහොමද අපි අපේ AI/ML මොඩලයට දත්ත එකතු කරගන්නේ?
  • දත්තවල ගුණාත්මකභාවය පිළිබඳ ගැටළු (Data Quality Issues): දත්තවල තියෙන්න පුළුවන් ප්‍රශ්න මොනවද?
  • දත්ත පූර්ව-සැකසීම (Data Preprocessing): Cleaning සහ Normalization කියන්නේ මොනවද?
  • විශේෂාංග ඉංජිනේරු විද්‍යාව (Feature Engineering): අපේ මොඩලය හොඳින් වැඩ කරන්න දත්ත හසුරුවන හැටි.
  • දත්ත ලේබල් කිරීමේ ක්‍රම (Data Labeling Techniques): මොඩලයට ඉගැන්වීමට දත්ත ලේබල් කරන්නේ කොහොමද?

එහෙනම්, අපි පටන් ගමු!

දත්ත වර්ග (Data Types): Structured vs. Unstructured Data

මුලින්ම අපි බලමු දත්ත වර්ග දෙකක් ගැන. මේ දෙක AI/ML වලදී ගොඩක් වැදගත් වෙනවා.

Structured Data

Structured Data කියන්නේ, නමෙන්ම කියවෙන විදිහට, හොඳට සංවිධානය කරපු දත්ත. මේවා සාමාන්‍යයෙන් Tables (වගු) විදිහට පේළි (rows) සහ තීරු (columns) වලින් තියෙන්නේ. Relational Databases (SQL databases), Excel Spreadsheets, CSV files වගේ තැන්වල මේ වගේ දත්ත ගබඩා වෙනවා. මේ දත්තවලට නිශ්චිත Schema එකක් තියෙනවා, ඒ කියන්නේ මේ දත්ත මොන වගේද, මොන Type එකේ ඒවාද කියලා කලින්ම define කරලා තියෙනවා. AI/ML Algorithms වලට මේ වගේ දත්ත එක්ක වැඩ කරන්න හරිම පහසුයි, මොකද ඒවට කෙලින්ම රටා (patterns) හොයන්න පුළුවන්.

උදාහරණ: ගනුදෙනුකරුවන්ගේ නම්, වයස, ලිපිනය, මිලදී ගත් භාණ්ඩ, මිල ගණන් වගේ දේවල්.

Unstructured Data

අනිත් පැත්තෙන්, Unstructured Data කියන්නේ නිශ්චිත සංවිධානයක් නැති දත්ත. මේවට කලින් කියපු වගේ Table එකක දාන්න අමාරුයි. අද ලෝකේ තියෙන දත්තවලින් 80%ක් විතර Unstructured Data කියලා තමයි කියන්නේ. මේවාට Semantic meaning එකක් තියෙනවා, නමුත් ඒක කෙලින්ම Machine එකකට තේරෙන්නේ නැහැ. AI/ML මොඩලයකට මේ දත්ත තේරුම් ගන්න නම්, විශේෂ Techniques (NLP for text, Computer Vision for images) පාවිච්චි කරන්න වෙනවා.

උදාහරණ:

  • Text: Emails, Social Media posts, Customer reviews, Chat logs.
  • Images: Photos, Scans, X-rays.
  • Audio: Voice recordings, Music.
  • Video: Security camera footage, YouTube videos.

AWS වලදී S3 (Simple Storage Service) වගේ සේවාවන් Unstructured Data විශාල ප්‍රමාණයක් ගබඩා කරන්නත්, DynamoDB වගේ NoSQL databases Structured Data වලටත් ගොඩක් වෙලාවට පාවිච්චි කරනවා.

දත්ත එකතු කිරීමේ ක්‍රමෝපාය (Data Collection Strategies)

AI/ML මොඩලයක් හදන්න කලින්, අපිට අවශ්‍ය දත්ත ටික එකතු කරගන්න ඕනේ. මේක හරියට ගෙයක් හදන්න ගල්, වැලි, සිමෙන්ති එකතු කරනවා වගේ වැඩක්. හොඳට සැලසුම් කරලා, අවශ්‍ය විදිහට දත්ත එකතු කරගන්න එක ගොඩක් වැදගත්.

අභ්‍යන්තර දත්ත මූලාශ්‍ර (Internal Data Sources)

බොහෝ විට අපේ ආයතනය ඇතුළෙන්ම දත්ත විශාල ප්‍රමාණයක් තියෙනවා. මේවා පාවිච්චි කරන එක පහසුයි වගේම, අපේ ව්‍යාපාරයටම අදාළ දත්ත නිසා ගොඩක් වටිනවා.

  • Existing Databases: Customer Relationship Management (CRM) systems, Enterprise Resource Planning (ERP) systems, Sales databases.
  • Application Logs: Web server logs, mobile app usage data.
  • Customer Interactions: Call center records, chat histories, website clicks.

මේ වගේ දත්ත AWS S3, RDS (Relational Database Service), හෝ DynamoDB වගේ සේවාවන් වලට ගබඩා කරන්න පුළුවන්.

බාහිර දත්ත මූලාශ්‍ර (External Data Sources)

සමහර වෙලාවට අපිට අවශ්‍ය දත්ත ආයතනය ඇතුළේ නැති වෙන්න පුළුවන්. ඒ වගේ වෙලාවට බාහිර මූලාශ්‍ර වෙත යොමු වෙන්න වෙනවා.

  • Public Datasets: Kaggle, UCI Machine Learning Repository, Google Datasets වගේ තැන්වල නොමිලේ ලබා ගත හැකි දත්ත කට්ටල තියෙනවා.
  • Web Scraping: අන්තර්ජාලයෙන් අවශ්‍ය දත්ත ලබා ගැනීම (මේක නීතිමය සහ සදාචාරාත්මක ගැටළු ඇති කරන්න පුළුවන් නිසා, හරිම පරිස්සමෙන් කරන්න ඕනේ).
  • Third-party Data Providers: විශේෂිත ව්‍යාපාරික දත්ත සපයන ආයතන වලින් දත්ත මිලදී ගැනීම.
  • APIs: විවිධ සේවාවන්වල (Social Media, Weather, Stock Market) Public APIs හරහා දත්ත ලබා ගැනීම.

Real-time vs. Batch Collection

  • Real-time Collection: දත්ත generate වෙන ගමන්ම එකතු කරගන්නවා. Live dashboards, fraud detection, recommendation systems වගේ දේවල් වලට මේක අවශ්‍යයි. AWS Kinesis Streams වගේ සේවාවන් මේකට පාවිච්චි කරන්න පුළුවන්.
  • Batch Collection: දත්ත ටිකක් එකතු වෙලා තොග වශයෙන් එකවර සැකසීම. Daily reports, historical analysis වගේ දේවල් වලට මේක ගොඩක් වෙලාවට පාවිච්චි කරනවා.

දත්තවල ගුණාත්මකභාවය පිළිබඳ ගැටළු (Data Quality Issues)

අපේ AI/ML මොඩලයේ සාර්ථකත්වය රඳා පවතින්නේ දත්තවල ගුණාත්මකභාවය මතයි. අපි නිතරම කියන කතාවක් තියෙනවා: "Garbage In, Garbage Out" කියලා. ඒ කියන්නේ අපේ මොඩලයට දෙන දත්ත හොඳ නැත්නම්, ලැබෙන ප්‍රතිඵලත් හොඳ නැහැ. ඉතින්, දත්තවල තියෙන්න පුළුවන් පොදු ගැටළු ටිකක් ගැන අපි බලමු.

පොදු දත්තවල ගුණාත්මකභාවය පිළිබඳ ගැටළු (Common Data Quality Issues)

  • Missing Values (නැති වූ අගයන්): දත්ත කට්ටලයේ සමහර අගයන් හිස්ව (empty) තිබීම. උදා: Customer කෙනෙක්ගේ Email Address එකක් නැති වීම.
  • Inconsistent Data (අසමාන දත්ත): එකම දේ විවිධ ආකාරවලින් සටහන් වී තිබීම. උදා: "Sri Lanka", "SL", "S.L." ලෙස එකම රටේ නම සටහන් වී තිබීම.
  • Outliers (විශේෂිත අගයන්): සාමාන්‍ය දත්ත පරාසයෙන් ගොඩක් එහාට හෝ මෙහාට ගිය අගයන්. උදා: Customer කෙනෙක්ගේ වයස 200 ලෙස සටහන් වී තිබීම.
  • Noise (ඝෝෂාව): වැරදි, අදාළ නැති, හෝ අනවශ්‍ය දත්ත. උදා: Sensor දත්තවල තියෙන සුළු දෝෂ නිසා එන වැරදි කියවීම්.
  • Bias (බරපතලකම): දත්ත කට්ටලයක් සමහර කණ්ඩායම් (demographics) හෝ තත්වයන් නියෝජනය නොකිරීම. මේක නිසා AI මොඩලයට අසාධාරණ හෝ වැරදි තීරණ ගන්න පුළුවන්. උදා: Facial recognition system එකක් සුළු ජාතිකයන් හඳුනාගැනීමට අපහසු වීම, එය පුහුණු කර ඇත්තේ බහුතර ජනගහනයේ මුහුණු වලින් පමණක් නම්.
  • Duplicate Records (අනුපිටපත්): එකම දත්ත දෙවරක් හෝ ඊට වැඩි වාර ගණනක් තිබීම.

මේ ගැටළු හඳුනාගෙන, ඒවා නිරාකරණය කරගන්න එක දත්ත Preprocessing වලදී හරිම වැදගත්.

දත්ත පූර්ව-සැකසීම (Data Preprocessing): පිරිසිදු කිරීම සහ සාමාන්‍යකරණය (Cleaning & Normalization)

අපේ AI/ML මොඩලයට දත්ත දෙන්න කලින්, ඒවා හොඳට සූදානම් කරන්න ඕනේ. මේකට තමයි Data Preprocessing කියන්නේ. මේකේ ප්‍රධාන කොටස් දෙකක් තමයි Data Cleaning සහ Data Normalization/Standardization.

දත්ත පිරිසිදු කිරීම (Data Cleaning)

දත්ත පිරිසිදු කිරීම කියන්නේ, කලින් අපි කතා කරපු Data Quality Issues ටික හඳුනාගෙන, ඒවා හරිගස්සන එක. මේකට පාවිච්චි කරන පොදු ක්‍රම කිහිපයක්:

  • Missing Values Handle කිරීම:
    • Imputation: හිස් අගයන් වෙනුවට සාමාන්‍ය අගයක් (mean, median, mode) හෝ වඩාත් සංකීර්ණ ක්‍රම (Regression) මගින් අගයන් ඇතුළත් කිරීම.
    • Deletion: හිස් අගයන් තියෙන පේළි (rows) හෝ තීරු (columns) සම්පූර්ණයෙන්ම ඉවත් කිරීම (දත්ත ගොඩක් තියෙනවා නම් විතරයි මේක කරන්නේ).
  • Outliers handle කිරීම: මේවා ඉවත් කිරීම (delete), ඒවා වෙනුවට වෙන අගයක් දැමීම (impute), හෝ ඒවා transformed කිරීම.
  • Inconsistencies නිවැරදි කිරීම: Date formats, spelling errors, category names වගේ දේවල් standardize කිරීම.
  • Duplicates ඉවත් කිරීම: එකම දත්ත ඇතුළත් වී තිබේ නම්, ඉන් එක් පිටපතක් පමණක් තබාගෙන අනෙක් ඒවා ඉවත් කිරීම.

දත්ත සාමාන්‍යකරණය / ප්‍රමිතිකරණය (Data Normalization / Standardization)

සමහර වෙලාවට අපේ දත්තවල තීරු වල අගයන් හරිම විශාල පරාසයක තියෙන්න පුළුවන් (උදා: වයස 0-100, ආදායම 10,000-1,000,000). මේ වගේ දත්ත එක්ක ML මොඩලයකට වැඩ කරන එක අපහසුයි. ඒ නිසා, අපි මේ අගයන් පොදු පරාසයකට ගෙන එනවා. මේකෙන් මොඩලයේ performance එක වැඩි වෙනවා.

  • Min-Max Scaling: දත්ත 0 සහ 1 අතර පරාසයකට ගෙන එනවා.(x - min(x)) / (max(x) - min(x))
  • Z-score Standardization: දත්තවල mean එක 0 සහ standard deviation එක 1 වෙන විදිහට සකස් කරනවා.(x - mean(x)) / std(x)

ප්‍රායෝගික උදාහරණයක් (Python Code Snippet):

අපි බලමු Python වලදී pandas සහ scikit-learn පාවිච්චි කරලා මේක කරන්නේ කොහොමද කියලා.

import pandas as pd
from sklearn.preprocessing import MinMaxScaler, StandardScaler
from sklearn.impute import SimpleImputer
import numpy as np

# Sample Data එකක් හදාගනිමු
data = {
    'Age': [25, 30, np.nan, 45, 22, 60, 300], # Missing value and Outlier
    'Salary': [50000, 60000, 75000, 90000, 48000, 120000, 80000],
    'City': ['Colombo', 'Kandy', 'colombo', 'Galle', 'Kandy', 'Colombo', 'Matara'] # Inconsistent data
}
df = pd.DataFrame(data)
print("Original DataFrame:")
print(df)

# --- 1. Data Cleaning ---

# Missing Values Handle කිරීම (Mean Imputation)
imputer = SimpleImputer(strategy='mean')
df['Age'] = imputer.fit_transform(df[['Age']])

# Outlier handle කිරීම (සරල ක්‍රමයක් - 100ට වැඩි වයස් 100 ලෙස සකස් කිරීම)
df['Age'] = np.where(df['Age'] > 100, 100, df['Age'])

# Inconsistent City names හරිගස්සමු
df['City'] = df['City'].str.capitalize()

print("\nDataFrame after Cleaning:")
print(df)

# --- 2. Data Normalization (Min-Max Scaling) ---

# Age සහ Salary තීරු Normalization කරන්න
scaler = MinMaxScaler()
df[['Age', 'Salary']] = scaler.fit_transform(df[['Age', 'Salary']])

print("\nDataFrame after Normalization (Min-Max Scaling):")
print(df)

මේ Code එකෙන් දත්ත පිරිසිදු කරලා, Normalization කරන හැටි පැහැදිලි වෙනවා. AWS Glue වගේ ETL (Extract, Transform, Load) සේවාවන් පාවිච්චි කරලාත් මේ වගේ Preprocessing වැඩ විශාල වශයෙන් කරන්න පුළුවන්.

විශේෂාංග ඉංජිනේරු විද්‍යාව (Feature Engineering)

Feature Engineering කියන්නේ හරිම නිර්මාණශීලී වැඩක්. මේකෙන් අපි කරන්නේ, දැනට තියෙන දත්ත වලින් අලුත්, වඩාත් වැදගත් Features (විශේෂාංග) හදන එක. මේ අලුත් Features නිසා අපේ AI/ML මොඩලයට දත්ත වඩා හොඳින් තේරුම් ගන්න පුළුවන් වෙනවා, ඒ වගේම මොඩලයේ Accuracy එකත් වැඩි වෙනවා.

මොකද, සමහර වෙලාවට Raw Data වල තියෙන Hidden Patterns මොඩලයට කෙලින්ම අඳුරගන්න අමාරුයි. හැබැයි අපි ඒවා Features විදිහට හදලා දුන්නොත්, මොඩලයට වැඩේ පහසු වෙනවා.

Feature Engineering Techniques

  • Combining Features: පවතින Features දෙකක් හෝ වැඩි ගණනක් එකතු කිරීමෙන් අලුත් Feature එකක් හැදීම. උදා: First Name සහ Last Name එකතු කරලා Full Name හදන එක.
  • Numerical Transformations: Log, Square root වගේ ගණිතමය ක්‍රියාකාරකම් මගින් දත්ත transformed කිරීම. Outliers තියෙන දත්ත වලට මේක හොඳයි.
  • Categorical Encoding: Category (වර්ගීකරණය) දත්ත, සංඛ්‍යාත්මක අගයන් බවට පත් කිරීම. (උදා: 'Red', 'Green', 'Blue' -> 0, 1, 2). One-Hot Encoding කියන්නේ මේකට පාවිච්චි කරන ජනප්‍රිය ක්‍රමයක්.
  • Date and Time Features: Date/Time columns වලින් Year, Month, Day of week, Hour වගේ වැදගත් කොටස් extract කරලා අලුත් Features හදන එක. කාලයත් එක්ක වෙනස් වන රටා අඳුරගන්න මේක වැදගත්.
  • Aggregations: දත්ත සමූහගත කරලා (group by) Max, Min, Mean, Count වගේ අගයන් ගණනය කරලා අලුත් Features හැදීම. උදා: Customer කෙනෙක්ගේ සාමාන්‍ය මිලදී ගැනීමේ වටිනාකම.

ප්‍රායෝගික උදාහරණයක් (Python Code Snippet):

අපි බලමු Customer කෙනෙක්ගේ Order History එකෙන් අලුත් Features හදන්නේ කොහොමද කියලා.

import pandas as pd

# Sample Order Data එකක් හදාගනිමු
orders_data = {
    'customer_id': [1, 1, 2, 3, 2, 1, 3],
    'order_date': ['2023-01-10', '2023-01-15', '2023-01-12', '2023-02-01', '2023-02-05', '2023-03-01', '2023-03-10'],
    'order_value': [1500, 2500, 3000, 1000, 2000, 1800, 4000]
}
orders_df = pd.DataFrame(orders_data)

# 'order_date' column එක datetime format එකට හරවමු
orders_df['order_date'] = pd.to_datetime(orders_df['order_date'])

print("Original Orders DataFrame:")
print(orders_df)

# --- Feature Engineering ---

# 1. 'order_date' එකෙන් අලුත් Features හදමු
orders_df['order_month'] = orders_df['order_date'].dt.month
orders_df['order_day_of_week'] = orders_df['order_date'].dt.dayofweek # Monday=0, Sunday=6

# 2. Each customer ගේ total spend සහ order count එක ගණනය කරමු
customer_features = orders_df.groupby('customer_id').agg(
    total_spent=('order_value', 'sum'),
    order_count=('order_value', 'count'),
    avg_order_value=('order_value', 'mean')
).reset_index()

print("\nOrders DataFrame with Date Features:")
print(orders_df)

print("\nCustomer Aggregated Features DataFrame:")
print(customer_features)

මේ Code එකෙන් දවසක මාසය, සතියේ දවස වගේ Features හදන හැටිත්, Customer කෙනෙක්ගේ මුළු වියදම, ඇණවුම් ගණන වගේ Aggregated Features හදන හැටිත් පෙන්නනවා. මේවා ML මොඩලයකට Customer Behavior එක analyze කරන්න ගොඩක් වැදගත් වෙන්න පුළුවන්.

දත්ත ලේබල් කිරීමේ ක්‍රම (Data Labeling Techniques)

අපි සුපිරිසිදු, හොඳට සැකසූ දත්ත හදාගත්තට පස්සේ, Machine Learning මොඩලයකට ඉගෙන ගන්න නම්, ඒ දත්ත වලට අදාළ Labels (ලේබල) තියෙන්න ඕනේ. විශේෂයෙන්ම Supervised Learning (Classification, Regression වගේ) වලදී මේක අත්‍යවශ්‍යයි. Label එකක් කියන්නේ අපේ මොඩලය predict කරන්න උත්සාහ කරන Target Output එක.

උදාහරණයක් විදිහට, අපිට පින්තූරයක තියෙන්නේ බල්ලෙක්ද, පූසෙක්ද කියලා හඳුනාගන්න මොඩලයක් හදන්න අවශ්‍ය නම්, අපි මොඩලයට පින්තූර ගොඩක් දීලා, ඒ හැම පින්තූරයකම තියෙන්නේ බල්ලෙක්ද, පූසෙක්ද කියලා Label කරලා දෙන්න ඕනේ. මේ Label කරන වැඩේ තමයි Data Labeling.

පොදු දත්ත ලේබල් කිරීමේ ක්‍රම (Common Data Labeling Techniques)

  • Manual Labeling (මානව ලේබල් කිරීම): මේක තමයි වඩාත් සෘජු ක්‍රමය. මිනිසුන් විසින් දත්ත නිරීක්ෂණය කර, නිවැරදි Labels ලබා දෙනවා. Images වල Object Bounding Boxes ඇඳීම, Text එකක් Sentiment එක අනුව Categorize කිරීම වගේ දේවල් මේකට උදාහරණ. AWS SageMaker Ground Truth වගේ සේවාවන් මේ වගේ Manual Labeling වැඩ විශාල පරිමාණයෙන් කරන්න උදව් කරනවා.වාසි: ඉහළ නිරවද්‍යතාවයක් (accuracy) තියෙනවා.අවාසි: කාලය සහ මුදල් විශාල වශයෙන් වැය වෙනවා, විශේෂයෙන්ම දත්ත විශාල ප්‍රමාණයක් තියෙනවා නම්.
  • Programmatic/Heuristic Labeling (ක්‍රමලේඛන / හූරිස්ටික් ලේබල් කිරීම): සමහර වෙලාවට අපිට දත්ත Label කරන්න Rules (නීති) හෝ Patterns පාවිච්චි කරන්න පුළුවන්. උදා: Email එකක "unsubscribe" කියන වචනය තියෙනවා නම්, ඒක "Spam" කියලා Label කරන එක.වාසි: වේගවත්, අඩු වියදම්, විශාල දත්ත ප්‍රමාණයක් Label කරන්න පුළුවන්.අවාසි: නීති ලිවීම සංකීර්ණ වෙන්න පුළුවන්, සමහර වෙලාවට Rules වලින් cover වෙන්නේ නැති අවස්ථා මගහැරෙන්න පුළුවන්.
  • Semi-supervised Learning (අර්ධ-සුපරික්ෂිත ඉගෙනීම): මේකේදී අපි කරන්නේ මුලින් කුඩා දත්ත කට්ටලයක් Manualy Label කරලා, ඒ ටිකෙන් මොඩලයක් පුහුණු කරනවා. ඊට පස්සේ ඒ මොඩලය පාවිච්චි කරලා, Label නොකරපු අනිත් දත්ත වලට Labels predict කරනවා. Predict කරපු Labels වල Accuracy එක වැඩි ඒවා, අපිට නව Training data විදිහට පාවිච්චි කරන්න පුළුවන්.වාසි: Manual Labeling වලට වඩා අඩු වියදම්, අඩු කාලයක් යනවා.අවාසි: මුලින් පුහුණු කරන මොඩලය හොඳ නැත්නම්, වැරදි Labels generate වෙන්න පුළුවන්.
  • Active Learning (ක්‍රියාකාරී ඉගෙනීම): මෙහිදී, AI මොඩලයම තීරණය කරනවා, තමන්ට ඉගෙන ගන්න තවත් Label කළ යුතු දත්ත මොනවද කියලා. ඒ කියන්නේ, මොඩලය තමන්ට වඩාත්ම අවිනිශ්චිත (uncertain) දත්ත මොනවද කියලා හඳුනාගෙන, ඒ දත්ත මිනිසුන්ට Label කරන්න යවනවා. මේකෙන් දත්ත Label කරන කාර්යය වඩාත් කාර්යක්ෂම වෙනවා.වාසි: අවශ්‍යම දත්ත පමණක් Label කරන නිසා, කාලය සහ මුදල් ඉතිරි වෙනවා.අවාසි: ක්‍රියාත්මක කිරීම සංකීර්ණ වෙන්න පුළුවන්.

හොඳට Label කරපු දත්ත නැතුව, AI/ML මොඩලයක් හොඳට වැඩ කරන්නේ නැහැ. ඒ නිසා මේ කොටසටත් විශේෂ අවධානයක් දෙන්න ඕනේ.

නිගමනය (Conclusion)

ඉතින්, හිතවත් මිත්‍රවරුනි, අපි අද කතා කරේ AWS AI සහ Machine Learning වලට අදාළ Data Fundamentals ගැන. දත්ත වර්ග (Structured/Unstructured), දත්ත එකතු කරගන්නා ආකාරය, දත්තවල ගුණාත්මකභාවය පිළිබඳ ගැටළු, ඒ වගේම දත්ත පූර්ව-සැකසීම (Cleaning, Normalization), Feature Engineering සහ Data Labeling කියන මේ හැමදේම AI/ML project එකක් සාර්ථක කරගන්න අත්‍යවශ්‍ය මූලිකාංග.

ඔයාලට දැන් තේරෙනවා ඇති, AI මොඩලයක් කියන්නේ දත්ත වලින් බලය ලබන යන්ත්‍රයක් කියලා. ඒ යන්ත්‍රයට දෙන දත්තවල ගුණාත්මකභාවය, ඒ යන්ත්‍රයේ කාර්යක්ෂමතාවයට සෘජුවම බලපානවා. ඉතින්, දත්ත එක්ක වැඩ කරන හැටි හරියට තේරුම් ගන්න එක, ඕනෑම Software Engineer කෙනෙකුට, විශේෂයෙන්ම AI/ML පැත්තට යන කෙනෙකුට අත්‍යවශ්‍ය දැනුමක්.

මේ ගැන වැඩිදුරටත් ඉගෙන ගන්න, AWS S3, AWS Glue, AWS SageMaker වගේ සේවාවන් ගැනත් සොයා බලන්න. ඒවා මේ Data Pipeline එකේ විවිධ අදියර වලට ගොඩක් උදව් වෙනවා.

දැන්ම පටන් ගන්න, ඔබේම දත්ත එක්ක අත්හදා බලන්න! මේ ගැන ඔබේ අදහස් පහතින් Comment කරන්න. ඔබට සුභ ගමනක්!