Türkçe İlan Metni Başlık: 500 GB Türkçe Metin Korpusu Temizliği için Veri Mühendisi Projeye dair: Türkçe odaklı büyük bir dil modeli pre-train etmek için 500 GB’lık ham metin arşivimiz var. Temel temizlik işlemlerinin bir kısmı gerçekleştirilmiş olsa da (link/simge/kod ayıklama vb.), veriyi tamamen standardize etmek, hassas içeriği filtrelemek, dil tespiti ve deduplikasyon yapmak, ardından sürdürülebilir bir iş akışı kurmak için deneyimli bir veri mühendisine ihtiyacımız var. Görevler: Ham veriyi (çeşitli kaynaklardan .txt / jsonl vb.) ingest edecek, normalize edecek, UTF-8 / Unicode sorunlarını düzeltecek otomasyon betikleri yazmak. Dil tespiti, içerik filtreleme, kişisel veri maskeleme, deduplikasyon ve layout temizliği için kural tabanlı + gerekirse ML tabanlı pipeline oluşturmak. Kalite ölçütlerini (token sayısı, Türkçe oranı, örnekleme QC raporları) tanımlayıp düzenli raporlamak. NLP eğitim ekiplerine teslim edilecek final dataset (jsonl / parquet) ve dokümantasyon üretmek. Aradığımız kişi: Büyük ölçekli metin temizleme / data wrangling tecrübesi (en az 3 yıl). Python ekosistemine hâkim; pandas, multiprocessing, regex, BeautifulSoup, ftfy, spaCy/FastText tabanlı dil tespiti, vs. Tercihen Spark/Dask veya benzer dağıtık sistem deneyimi. Türkçe dil yapısına aşinalık ayrıca avantaj. Veriden rapor üretebilen (ör. Jupyter, Metabase) ve pipeline’ı otomasyona bağlayabilen (Airflow, Prefect) kişiler tercih edilir. Süre ve çalışma: Beklenen süre: 3 aya kadar (tam zamanlı veya yoğun yarı zamanlı). Uzaktan çalışma mümkün; düzenli checkpoint/demolar bekliyoruz. Ücret: Deneyime göre aylık net 60 000 – 80 000 TL (veya eşdeğer döviz). Daha fazla deneyimli adaylar için bütçe esnetilebilir. Başvurularınızda lütfen: Benzer projelerinizden örnek verin (log temizleme, dataset hazırlama). Kullanmayı düşündüğünüz temel araçları/pipeline taslağını özetleyin. Çalışmaya ne zaman başlayabileceğinizi belirtin. English Job Listing Title: Data Engineer (500 GB Turkish Text Corpus Cleaning for LLM Pretraining) About the project: We are preparing a Turkish-focused large language model and currently hold ~500 GB of raw text. Initial cleaning steps (removing URLs, code, non-text) are done, but we need an experienced Data Engineer to standardize the corpus, perform language detection, deduplication, sensitive-content filtering, and build a reproducible cleaning pipeline ready for pretraining. Responsibilities: Design and implement automated scripts/pipelines to ingest, normalize, and validate mixed-format text data (txt/jsonl). Apply language detection, PII masking, deduplication, whitespace/layout cleanup, and quality filtering (rule-based + optional ML tools). Define quality metrics (token counts, Turkish-language ratio, sampled QC reports) and deliver periodic summaries. Produce the final cleaned dataset (jsonl/parquet) plus documentation for the training team. Requirements: 3+ years of experience in large-scale text/data wrangling projects. Strong Python skills (pandas, multiprocessing, regex, BeautifulSoup, ftfy, spaCy/FastText for language ID). Bonus: experience with Spark/Dask or other distributed frameworks. Familiarity with Turkish language structure is a plus. Comfortable building reporting dashboards/notebooks and automating pipelines (Airflow/Prefect, etc.). Logistics & Compensation: Expected timeline: up to 3 months (full-time or concentrated part-time). Fully remote collaboration is fine; regular demos/checkpoints required. Compensation: ₺60 000–80 000 net per month (or equivalent in foreign currency) depending on experience; higher budgets negotiable for senior profiles. How to apply: Share examples of similar projects (dataset cleaning, NLP corpora preparation). Describe the tools/pipeline you plan to use. Mention earliest start date and availability. Looking forward to meeting data engineers who are passionate about building clean, large-scale Turkish corpora!