Speechmatics mengumpulkan $ 62 juta untuk pendekatan AI pidato-ke-teks yang komprehensif – TechCrunch

Technology

Minggu lalu saya menulis tentang sebuah startup kecerdasan buatan yang sedang membangun teknologi yang dapat mengubah aksen bicara seseorang secara real time. Tetapi bagaimana jika tujuan dari kecerdasan buatan adalah untuk memungkinkan hal ini bagi orang-orang yang berbicara dengan cara apa pun, dan untuk menghilangkan beberapa bias yang melekat dalam banyak sistem kecerdasan buatan dalam prosesnya? Ada kebutuhan dasar untuk itu, dan sekarang startup Inggris bernama Speechmatics – yang telah menciptakan kecerdasan buatan untuk menerjemahkan ucapan ke dalam teks, terlepas dari aksen atau ucapannya – telah mengumumkan anggaran $ 62 juta untuk memperluas bisnisnya.

Pertumbuhan saham Susquehanna di luar AS dipimpin oleh investor Inggris AlbionVC Dan IQ Capital juga berpartisipasi. Seri B ini merupakan langkah besar bagi Speechmatics. Perusahaan ini pertama kali didirikan pada tahun 2006 di Cambridge Artificial Intelligence Research oleh pendiri Dr. Tony Robinson dan sebelumnya telah mengumpulkan lebih dari $ 10 juta (Albion dan IQ termasuk di antara sponsor sebelumnya, dengan CIA yang disponsori In-Q. -Telepon dan lainnya).

Selama ini, telah membangun basis pelanggan sekitar 170 orang – hanya menjual B2B, untuk memberikan layanan kepada konsumen atau bisnis – dan sementara tidak mengungkapkan daftar lengkap, beberapa Nama termasuk what3words. 3Play Media, Veritone, Deloitte UK, dan Vonage, yang menggunakan teknologi ini secara berbeda dan tidak hanya untuk transkripsi dalam pengertian tradisional. Tetapi menggunakan kata-kata yang diucapkan untuk membantu aspek lain dari kinerja program, seperti subtitle otomatis, atau untuk meningkatkan fitur akses yang lebih luas.

Mesinnya sekarang dapat menerjemahkan ucapan ke dalam teks dalam 34 bahasa, dan selain menggunakan anggaran, ia menambahkan lebih banyak bahasa dan mengeksplorasi penggunaan yang berbeda, baik untuk lebih meningkatkan akurasi di sana maupun untuk memperluas bisnis. yang dapat digunakan di lingkungan kendaraan bermotor yang lebih canggih (di mana kebisingan dan getaran mesin memengaruhi cara suara dicerna oleh kecerdasan buatan).

Apa yang telah kami lakukan adalah mengumpulkan jutaan jam data dalam upaya memerangi bias AI. “Tujuan kami adalah untuk memahami setiap suara dalam bahasa yang berbeda,” kata Katie Vigdall, CEO perusahaan rintisan (gelar yang baru saja dia pensiunkan sebagai Robinson).

Hal ini terlihat dari fokus produk serta misi perusahaan, dan hal inilah yang juga ingin dikembangkan.

“Cara kita melihat bahasa dunia adalah,” kata Vigdal. Google akan memiliki paket yang berbeda untuk setiap versi bahasa Inggris, tetapi satu paket yang kita semua mengerti. Awalnya, itu membuat teknologinya hanya tersedia melalui API pribadi yang dijualnya kepada pelanggan. Sekarang, dalam upaya untuk menarik lebih banyak pengguna dan berpotensi lebih banyak pengguna berbayar, ia menawarkan pengembang lebih banyak alat API terbuka untuk bermain dengan teknologi, dan sampler dengan menyeret dan menjatuhkan di situs mereka.

Dan memang, jika salah satu tantangan Speechmatics adalah untuk mengajarkan AI agar lebih manusiawi dalam memahami bagaimana orang berbicara, yang lain adalah untuk membuat nama untuk dirinya sendiri di depan penyedia utama teknologi text-to-speech lainnya.

Vigdal mengatakan perusahaan saat ini bersaing dengan “teknologi besar” – perusahaan besar seperti Amazon, Google dan Microsoft (yang sekarang memiliki Nuansa) yang membangun mesin pengenalan suara dan menawarkan teknologi sebagai layanan kepada pihak ketiga.

Namun dia mengatakan dia secara konsisten mendapat nilai lebih baik dalam ujian karena dia bisa mengerti ketika bahasa diucapkan dengan cara yang berbeda. (Salah satu ujian yang disebutkan kepada saya adalah “perbedaan ras di Stanford”. Pidato, pidato studi kognisi, dimana itu “Dibandingkan dengan Google (68,6%) dan Amazon (68,6), itu mencatat akurasi keseluruhan 82,8% untuk suara Afrika-Amerika,” katanya. Pidato, pidato Kesalahan pengenalan – setara dengan tiga kata dalam kalimat rata-rata. Ini juga memberi TC “berat rata-rata pesaing”:

Validitas Gambar: Pidato (Membuka di jendela baru)

Memang ada peluang besar di sini, tetapi, ketika Anda mempertimbangkan bahwa antara pengembang kecil dan raksasa teknologi besar dan besar seperti Apple, Google, Microsoft dan Amazon, ada ratusan perusahaan raksasa yang mungkin cukup pada tingkat (atau Tidak) minat. . Bangun AI internal untuk tujuan ini, tetapi jika Anda mempertimbangkan perusahaan seperti Spotify, misalnya, Anda pasti tertarik dengannya, dan Anda pasti lebih suka mengandalkan perusahaan besar yang terkadang merupakan pesaing dan terkadang saingan. Foil Penuh (Untuk kejelasan, Vigdal tidak memberi tahu saya bahwa Spotify adalah pelanggan, tetapi mengatakan bahwa ini adalah contoh khas dari ukuran dan posisi di mana seseorang dapat mengetuk pintu Speechmatics.)

Hal inilah yang menjadi salah satu alasan minat investor untuk mendanai perusahaan tersebut. Susquehanna memiliki sejarah mendukung perusahaan yang tampaknya membantu kekuatan (dia adalah salah satu sponsor awal dan utama Tik Tok).

“Tim Speechmatics tidak diragukan lagi merupakan garis keturunan teknologi yang berbeda,” kata Dr. Jonathan Klaher, Dr. Susquehanna Growth Equity, dalam sebuah pernyataan. Kami mulai melacak Speechmatics ketika perusahaan portofolio kami memberi tahu kami bahwa Speechmatics berulang kali mengalahkan semua opsi lain dengan hati-hati, termasuk yang berasal dari pemain Big Tech. “Kami siap bekerja sama dengan tim ini untuk memastikan lebih banyak perusahaan dapat terpapar dan menggunakan teknologi mutakhir ini.” Kalhor bergabung dengan delegasi kali ini.

Faktanya, ketika teknologi menjadi lebih alami, dan mereka yang mencari lebih banyak cara untuk mengurangi gesekan apa pun yang mungkin ada di sekitar menggunakan teknologi itu, suara telah muncul sebagai peluang besar sekaligus titik kesakitan. Jadi memiliki teknologi yang berfungsi untuk “membaca” dan memahami berbagai jenis suara berpotensi dapat digunakan dalam berbagai cara.

Partner Robert Whitby Smith menambahkan: “Pandangan kami adalah bahwa suara akan semakin menjadi antarmuka antara manusia dan mesin, dan Speechmatics adalah pemimpin dalam kategori penerapan pembelajaran mendalam dalam pidato, dengan kategori yang berfokus pada akurasi dan pemahaman. Mendefinisikan antara aplikasi dan persyaratan industri. Di AlbionVC. “Kami telah melihat pertumbuhan tim dan produk yang signifikan selama beberapa tahun terakhir sejak investasi Seri-A kami pada tahun 2019, dan sebagai investor yang bertanggung jawab, kami senang dapat mendukung misi keseluruhan perusahaan untuk memahami setiap suara secara global.”


Source link

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *