Data Science: аналіз даних та машинне навчання
Data Science поєднує статистику, програмування та доменні знання для витягування інсайтів з даних. Python -- основна мова Data Science завдяки бібліотекам Pandas, NumPy, Matplotlib, scikit-learn, TensorFlow та PyTorch. Jupyter Notebook -- інтерактивне середовище для експериментів та візуалізації. Типовий процес: збір даних → очищення → EDA (розвідувальний аналіз) → моделювання → інтерпретація → презентація результатів.
Pandas
- DataFrame -- таблиця з даними
- read_csv() -- завантаження CSV
- groupby() -- агрегація
- merge() -- об\'єднання таблиць
- fillna() -- обробка пропусків
NumPy
- ndarray -- багатовимірний масив
- Векторизація -- швидкі операції
- Broadcasting -- операції різних форм
- Лінійна алгебра -- матриці
- random -- генерація даних
Візуалізація
- Matplotlib -- базові графіки
- Seaborn -- статистичні
- Plotly -- інтерактивні
- Heatmap -- кореляції
- Histogram -- розподіли
EDA, очищення даних та feature engineering
EDA (Exploratory Data Analysis) -- перший крок: describe() для статистик, info() для типів, isnull().sum() для пропусків, corr() для кореляцій. Очищення: видалення дублікатів (drop_duplicates), обробка пропусків (fillna, dropna), виправлення типів (astype). Feature engineering створює нові ознаки з існуючих: дата → день тижня, текст → кількість слів, категорії → one-hot encoding. Нормалізація та стандартизація масштабують числові ознаки для ML-моделей.
Машинне навчання: scikit-learn
Supervised learning: регресія (прогноз числа) та класифікація (прогноз категорії). Unsupervised: кластеризація (K-Means), зменшення розмірності (PCA). scikit-learn: train_test_split → fit → predict → score. Метрики: accuracy, precision, recall, F1, MSE, R2. Overfitting -- модель завчила тренувальні дані, але погано працює на нових. Cross-validation перевіряє модель на різних частинах даних. Deep Learning (нейромережі) через TensorFlow та PyTorch -- для зображень, тексту та складних задач.
Про тест
Тест «Data Science з Python» містить 20 питань про Pandas, NumPy, Matplotlib, Jupyter, EDA, очищення даних, scikit-learn, регресію, класифікацію та overfitting.