當語音輸入不再受時間的限制,用戶是否可以真正實現(xiàn)“動口不動手”?近日,百度AI開放平臺向開發(fā)者免費開放長語音識別功能,通過SDK調(diào)用服務(wù),可將長語音轉(zhuǎn)換為文字。據(jù)了解,新版本SDK解除了對時間的限制,開發(fā)者無需再將長語音切割成60秒以內(nèi)的分段,進行調(diào)用,提升了轉(zhuǎn)寫的效率和語音識別的體驗。對于用戶來說,新版本告別之前60秒的“束縛”,可根據(jù)需要自行把控時間,極大地提高了靈活性。
隨著用戶對移動端語音功能需求的增長,開發(fā)者也開始紛紛將產(chǎn)品接入語音功能。目前,開發(fā)者多通過第三方接入語音識別技術(shù),以減少研發(fā)時間、降低研發(fā)成本。但是,大部分公司提供的語音識別功能有時間限制,類似會議錄音、長語句等長語音識別成了難題,雖然市面上存在一些長語音識別技術(shù)支持方,但開發(fā)者需要為此支付大筆的技術(shù)接入費用,徒增業(yè)務(wù)成本。
對于用戶,受“60秒”限制的語音識別功能往往無法滿足他們在生活、工作中的需求,這不僅影響他們使用語音識別功能的“興致”,同時會導致用戶對一些搭載了語音識別功能的產(chǎn)品“敬而遠之”。
為解決這些痛點,百度基于原有語音識別技術(shù),新增長語音識別功能,讓語音識別不再局限于60秒,并且為開發(fā)者免費開放。比如開發(fā)者可將長語音識別用于會議記錄、實時字幕和語音筆記等場景,讓產(chǎn)品實現(xiàn)不同時長的音頻轉(zhuǎn)換為文字信息,或?qū)⒅辈?、視頻、現(xiàn)場演講等音頻進行實時字幕轉(zhuǎn)換等功能,方便后期文字處理和內(nèi)容存檔,省去記錄的人力和時間成本,大幅提升了轉(zhuǎn)換效率,給予開發(fā)者和用戶更好的使用體驗。
百度長語音識別適用于安卓SDK、iOS SDK,均在原有的離在線融合SDK上升級,開發(fā)者可根據(jù)不同情況接入百度長語音識別功能。目前,開發(fā)者可登陸百度AI開放平臺(ai.baidu.com),在“SDK下載”界面中,下載體驗百度長語音識別功能。
據(jù)了解,作為全球早進軍人工智能領(lǐng)域的公司之一,百度早在2010年就已經(jīng)開始智能語音及相關(guān)技術(shù)研發(fā),分別于2014年和2015年年底發(fā)布了深度語音識別系統(tǒng)Deep Speech和Deep Speech 2。該系統(tǒng)使用“端對端”的深度學習技術(shù),在噪音環(huán)境下的表現(xiàn)比谷歌、微軟以及蘋果的語音系統(tǒng)更好。同時,百度憑借深度語音識別技術(shù)于 2016年入選MIT十大突破技術(shù)。2017年初,百度推出網(wǎng)頁應(yīng)用SwiftScribe,它能將音頻文件轉(zhuǎn)為文本,30秒內(nèi)就可轉(zhuǎn)換完成時長1分鐘的音頻文件,轉(zhuǎn)化效率較人工速記快1.67倍,極大提升速記行業(yè)轉(zhuǎn)錄效率,加速語音行業(yè)的發(fā)展。
官方微博
官方微信公眾號
官方百家號