Scraper für LinkedIn und Scraper Manager
Der Scraper Manager ist ein leistungsstarkes Tool zur Extraktion von öffentlichen LinkedIn-Profilen. Entwickelt, um mehr als 2 Millionen Profile pro Woche effizient zu scrapen, nutzt der Manager residential IPs und einen Unblocking-Service, um eine kostenoptimierte Datenextraktion zu gewährleisten. Eine Browser-Erweiterung ermöglicht es Nutzer*innen, gezielt Profile zum Scraping-Zyklus hinzuzufügen und Scraping-Aktionen zu starten. Automatisierte Tests der gescrapten Daten und deren fehlerfreie Indizierung in die Datenbank optimieren den Workflow erheblich.
Konzeption
Ein komplexes Projekt wie der Scraper Manager erfordert einen strategischen und ausgefeilten Ansatz. Wir haben bestehende Setups überprüft, eine technische Machbarkeitsanalyse durchgeführt und die technische Architektur entworfen. Die Problemerfassung umfasste eine Analyse der bestehenden Backend-Probleme, einschließlich der Skalierbarkeit und Effizienz des Datenmanagements. Durch Methoden wie das Domain-Driven Design (DDD) konnten wir die Architektur so gestalten, dass sie flexibel und erweiterbar bleibt. Der Fokus lag auf der Kostenoptimierung und der Performanceverbesserung, um eine maximale Anzahl an Profilen effizient zu scrapen.
UX-Testing
Um ein herausragendes Benutzererlebnis für unsere neue Eventplanungs-App zu gewährleisten, setzten wir auf Wireframing und UX-Testing. Basierend auf Feedback von Nutzer*innen und Stakeholder*innen entwickelten wir ein einfaches UX-Design. Durch A/B-Tests auf Events und die Integration von Beta-Testern verfeinerten wir kontinuierlich das Produkt. Das Ergebnis: eine App, die die Erwartungen erfüllt und ein nahtloses Eventplanungserlebnis bietet.
Performanceoptimierung
Um die Performance beim Scraping von LinkedIn-Profilen zu maximieren, setzten wir auf die Nutzung von residential IPs und einen Unblocking-Service. Residential IPs, wie sie von Diensten wie Bright Data angeboten werden, helfen dabei, Sperren und Limits zu umgehen, die bei der Nutzung regulärer Rechenzentrums-IPs auftreten können. Residential IPs sind echte IP-Adressen, die von Internetanbietern an Haushalte vergeben werden, wodurch sie authentischer wirken und weniger wahrscheinlich blockiert werden. Der Unblocking-Service sorgt dafür, dass Anfragen durch verschiedene IP-Adressen geleitet werden, was das Risiko von Blockierungen minimiert und die Erfolgsrate des Scrapings erhöht. Diese Maßnahmen führten zu einer Verdoppelung der Performance, sodass wir über 2 Millionen Profile pro Woche scrapen konnten.
Backend
Unser Backend wurde in Java entwickelt und bildet das robuste Fundament des Scraper Managers. Die Verwendung bewährter Technologien wie HTML und MongoDB gewährleistet eine zuverlässige und skalierbare Infrastruktur. Das Backend ermöglicht eine nahtlose Integration mit der Benutzeroberfläche und gewährleistet eine effiziente Datenverarbeitung. Um Backend-Probleme wie Skalierbarkeit und Datenkonsistenz zu lösen, nutzten wir die Clean Architecture Methode, die die Trennung von Geschäftslogik und Implementierungsdetails fördert. Diese Methodik ermöglichte es uns, eine flexible und wartbare Codebasis zu schaffen.
Achievements
- Nutzerforschung
- Strategische Entwicklung
- Backend-Entwicklung
- DevOps