Data Analysis

Beschreibung

Aufgabenstellung 1. NLP-Techniken anwenden, um eine Textsammlung zu analysieren. In diesem Projekt sollen unstrukturierte Beschwerdedaten zu einer systematischen Analyse führen. Das Ziel besteht darin, am Ende Themen zu extrahieren, um sich um die Beschwerden zu kümmern.

Es wird ein offener Datensatz von Kaggle verwendet, der die Beschwerden simuliert Students Complaints (Testdaten).

Ablauf des Codes

CSV wird gelesen
Vorarbeit (Unstrukturierte Texte in saubere Texte umwandeln)
Unstrukturierte Daten in Vektoren umwandeln (Bag-of-Words-Modell & TF-IDF-Modell)
Themenextraktion (LSA und LDA)
Ausgabe, Speicherung in die Datei ergebnis.txt

Voraussetzungen

Python 3.12.3
pandas 3.0.3
nltk 3.9.4
scikit-learn 1.9.0

Projektstruktur

├── analysis.py # Python Code für die Au
├── complaints.csv # Beschwerde Testdaten
├── ergebnis.txt # Ausgabe aus der Analyse
├── .python-version  # Verwendete Python Version
├── requirements.txt # Python Bibliotheken
├── README.md # Dokumentation
└── .github
    └── workflows
        └── main.yml # GitHub Actions für automatische Ausführung und Security Check

Installation und Ausführung

# Vor der Ausführung des Python-Codes sollte die virtuelle Umgebung (venv) aktiviert werden.
# Projekt Klonen
git clone https://github.com/JoqarSabon/iu-data-analysis.git

# In den Ordner gehen
cd iu-data-analysis/

# Bibliotheken installieren
pip install -r requirements.txt

# Ausführen des Codes
python3 analysis.py

# Ergebnis anschauen
cat ergebnis.txt

Github Action

Im Projekt gibt es außerdem eine GitHub-Action-Pipeline, die bei jedem Push im Main-Branch automatisch ausgeführt wird. Mithilfe der Pipeline wird sichergestellt, dass der Code automatisch ausgeführt, getestet und auf Sicherheitslücken geprüft wird.

Ablauf Pipeline

Checkout Repository
Einrichtung Python 3.12.3
Installation von Bibliotheken
Dependency Check mit pip-audit
Statische Codeanalyse mit Bandit
Ausführung des Code
Ergebnisse als GitHub-Artifact hochladen

Nach jeder erfolgreichen Ausführung einer Pipeline werden die Dateien als Artefakt gespeichert und anschließend zum Download bereitgestellt.

audit.txt
bandit.txt
ergebnis.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Data Analysis

Beschreibung

Ablauf des Codes

Voraussetzungen

Projektstruktur

Installation und Ausführung

Github Action

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
.github/workflows		.github/workflows
.python-version		.python-version
README.md		README.md
analysis.py		analysis.py
complaints.csv		complaints.csv
ergebnis.txt		ergebnis.txt
requirements.txt		requirements.txt

Folders and files

Latest commit

History

Repository files navigation

Data Analysis

Beschreibung

Ablauf des Codes

Voraussetzungen

Projektstruktur

Installation und Ausführung

Github Action

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages