Data Science з Python

pandas, scikit-learn, ML, нейромережі та візуалізація — перевірте знання Data Science з Python. Від основ до продвинутого.

8-10 хв 20 питань Data Science

Data Science: аналіз даних та машинне навчання

Data Science поєднує статистику, програмування та доменні знання для витягування інсайтів з даних. Python -- основна мова Data Science завдяки бібліотекам Pandas, NumPy, Matplotlib, scikit-learn, TensorFlow та PyTorch. Jupyter Notebook -- інтерактивне середовище для експериментів та візуалізації. Типовий процес: збір даних → очищення → EDA (розвідувальний аналіз) → моделювання → інтерпретація → презентація результатів.

Pandas

  • DataFrame -- таблиця з даними
  • read_csv() -- завантаження CSV
  • groupby() -- агрегація
  • merge() -- об\'єднання таблиць
  • fillna() -- обробка пропусків

NumPy

  • ndarray -- багатовимірний масив
  • Векторизація -- швидкі операції
  • Broadcasting -- операції різних форм
  • Лінійна алгебра -- матриці
  • random -- генерація даних

Візуалізація

  • Matplotlib -- базові графіки
  • Seaborn -- статистичні
  • Plotly -- інтерактивні
  • Heatmap -- кореляції
  • Histogram -- розподіли

EDA, очищення даних та feature engineering

EDA (Exploratory Data Analysis) -- перший крок: describe() для статистик, info() для типів, isnull().sum() для пропусків, corr() для кореляцій. Очищення: видалення дублікатів (drop_duplicates), обробка пропусків (fillna, dropna), виправлення типів (astype). Feature engineering створює нові ознаки з існуючих: дата → день тижня, текст → кількість слів, категорії → one-hot encoding. Нормалізація та стандартизація масштабують числові ознаки для ML-моделей.

Машинне навчання: scikit-learn

Supervised learning: регресія (прогноз числа) та класифікація (прогноз категорії). Unsupervised: кластеризація (K-Means), зменшення розмірності (PCA). scikit-learn: train_test_split → fit → predict → score. Метрики: accuracy, precision, recall, F1, MSE, R2. Overfitting -- модель завчила тренувальні дані, але погано працює на нових. Cross-validation перевіряє модель на різних частинах даних. Deep Learning (нейромережі) через TensorFlow та PyTorch -- для зображень, тексту та складних задач.

Про тест

Тест «Data Science з Python» містить 20 питань про Pandas, NumPy, Matplotlib, Jupyter, EDA, очищення даних, scikit-learn, регресію, класифікацію та overfitting.

Часті питання

Корисні матеріали

Статті з психології та нові тести — раз на тиждень