Nuovo!

Senior Member of Technical Staff, Web Data

Cohere

Un ruolo senior dedicato alla pipeline di web data che alimenta il pre-training dei modelli linguistici di Cohere, trasformando dati grezzi e rumorosi del web in corpora di altissima qualità per l'addestramento.

Ruolo
Sarai responsabile di componenti chiave della pipeline dati su scala web, dall'estrazione al parsing, dalla deduplicazione al filtering. Analizzerai la composizione e la qualità dei corpora rispetto a domini, lingue e periodi temporali, studierai l'impatto delle scelte sui dati sulle performance dei modelli e collaborerai a stretto contatto con i team di data ed evaluation per iterare sul corpus di training. Manterrai pipeline di deduplicazione altamente performanti, contribuendo alla missione di portare capacità di comprensione e generazione linguistica efficienti e affidabili.

Tecnologie
Python e forti competenze di ingegneria del software per la costruzione di pipeline dati, framework come Apache Spark, Apache Beam, Pandas; lavoro su dataset web di grandi dimensioni, tecniche di assessment della qualità dei dati e sperimentazione su data mixture. Apprezzate pubblicazioni in venue di rilievo come NeurIPS, ICML, ICLR e ACL.

Condividi annuncio

Informazioni su Cohere

Cohere è un'azienda globale di AI per le imprese, con sede principale a Toronto e San Francisco e uffici a Londra, New York, Montreal, Parigi, Seoul e in Germania. Sviluppa modelli di base e prodotti end-to-end pensati per risolvere problemi concreti delle aziende, con un approccio in cui sicurezza e privacy dei dati sono al centro di ogni scelta progettuale. Tra i suoi prodotti spicca North, una piattaforma di AI workspace per le imprese che permette di integrare agenti intelligenti nei flussi di lavoro mantenendo il pieno controllo sui dati sensibili.

Il team riunisce ricercatori, ingegneri, designer e altre figure tecniche che collaborano per spingere lo stato dell'arte dei modelli linguistici e agentici, sia attraverso lo sviluppo di prodotto sia tramite Cohere Labs, il braccio di ricerca dedicato all'avanzamento del machine learning e del natural language processing. L'azienda investe molto nella formazione, nella diversità delle prospettive e in un ambiente di lavoro distribuito, offrendo benefit pensati per chi lavora da remoto e cura particolare per il benessere delle persone.

Visita il sito web →