Chuyển đổi giọng nói thành văn bản với Amazon Transcribe

Amazon Transcribe là một dịch vụ được phát triển bởi Amazon Web Services, với khả năng chuyển đổi giọng nói thành văn bản. Với quy trình xử lý Deep Learning có thể đáp ứng nhiều use-cases⁴ khác nhau, các nhà phát triển có thể dễ dàng tích hợp dịch vụ này vào ứng dụng của mình.

Bài viết này sẽ cung cấp từng bước giúp bạn có thể sử dụng dịch vụ AWS Transcribe ngay lập tức cho quá trình chuyển đổi từ một tập tin (File) âm thanh. Trước hết, chúng ta cần chuẩn bị các thành phần cần thiết:

* Tài khoản AWS với cấp bậc miễn phí (Free-tier)⁵

* Một tập tin .mp3 hoặc tương tự

Đối với dịch vụ Amazon Transcribe khi tham gia, chúng ta có thể sử dụng miễn phí khi và chỉ khi thoả mãn điều kiện⁶ của bậc miễn phí. Ngoài ra, nếu các bạn chưa có bất kỳ nội dung âm thanh hay Audiobook nào thì có tải miễn phí ở OpenCulture.

I. Khởi tạo một S3 Bucket

Từ AWS Console, chúng ta truy cập vào dịch vụ Amazon S3.

https://s3.console.aws.amazon.com/s3/home?region=ap-southeast-2

Lưu ý: Ở bài viết này, mình sử dụng dịch vụ ở khu vực Sydney

Nhấn nút “Create Bucket” để tiến hành khởi tạo. Để tiến hành nhanh chóng, chúng ta chỉ cần đảm bảo các thông tin dưới đây được điền đầy đủ, các thông tin còn lại chúng ta có thể giữ nguyên theo mặc định.

* Bucket Name

* AWS Region: Sydney (ap-southeast-2)

New S3 Bucket creation in AWS
New S3 Bucket creation in AWS

II. Tải lên tập tin .mp3

Sau khi khởi tạo thành công, nhấn nút “Upload” để tải lên tập tin .mp3. Nhấn nút “Add files” để tiến hành tải lên từ máy tính của bạn. Cuối cùng nhấn nút “Upload” để hoàn thành.

Trying to upload an .mp3 file to S3 bucket
Trying to upload an .mp3 file to S3 bucket
Upload succeeded to S3 bucket
Upload succeeded to S3 bucket

III. Sử dụng dịch vụ Amazon Transcribe

Từ AWS Console, chúng ta truy cập vào dịch vụ Amazon Transcribe.

https://ap-southeast-2.console.aws.amazon.com/transcribe/

Amazon Transcribe from AWS Console
Amazon Transcribe from AWS Console

Lưu ý: Ở bài viết này, mình sử dụng dịch vụ ở khu vực Sydney

Chúng ta sẽ lựa chọn Transcription jobs.

Amazon Transcribe Transcription jobs
Amazon Transcribe Transcription jobs

Nhấn nút “Create job” dể tiến hành khởi tạo một Transcribe’s transcription job.

Ở bước số 1, chúng ta cần đảm bảo các thông tin sau được điền đầy đủ.

* Name

* Model type: General model

* Language: English (bởi vì tập tin .mp3 mà mình tải lên sử dụng ngôn ngữ là Tiếng Anh).

Create an Amazon Transcribe transcription job with English language
Create an Amazon Transcribe transcription job with English language

Tiếp tục kéo xuống, ở mục Input Data, chúng ta nhấn nút “Browse S3” và chọn S3 bucket cũng như tập tin .mp3 ban nãy.

Specify input data for a Transcribe transcription job
Specify input data for a Transcribe transcription job

Nhấn nút “Choose” để lựa chọn và nhấn nút “Next” để tiếp tục.

Choose an .mp3 file from S3 bucket
Choose an .mp3 file from S3 bucket

Ở bước số 2, chúng ta có thể giữ nguyên các giá trị mặc định và nhấn nút “Create job“.

Configure transcription job with optional settings
Configure transcription job with optional settings

Sau khi khởi tạo thành công, trạng thái của transcription job sẽ là In progress. Lúc này, chúng ta sẽ chờ đợi kết quả chuyển đổi từ Amazon Transcribe.

Waiting for an in-progress transcription job to be completed
Waiting for an in-progress transcription job to be completed

III. Kết qủa chuyển đổi từ Amazon Transcribe

Sau khi quá trình chuyển đổi dược thực hiện thành công, trạng thái của transcription job sẽ là Complete.

The transcription job status is complete
The transcription job status is complete

Lúc này, chúng ta dễ dàng nhận thấy có một nút “Download full transcript” cho phép chúng ta tải xuống kết quả chuyển đổi.

Bên cạnh đó, để kiểm tra nhanh kết quả, chúng ta ta sẽ kéo xuống ở mục Transcription preview. Bạn có thể thấy đoạn văn bản là kết quả tương ứng với nội dung từ tập tin .mp3 đúng không nào? Amazon Transcribe còn cung cấp cho chúng ta thông tin về khoảng thời gian cũng như độ chính xác hay tự tin (Confidence) từ quá trình chuyển đổi cho từ khoá “probable”.

 

Bài viết này mình mong đem lại một trải nghiệm hoàn toàn mới cũng như tính hữu dụng của dịch vụ Amazon Transcribe dành cho bất kể đối tượng nào cần một chức năng tương tự mà phù hợp cho ứng dụng hay dự án hiện tại lẫn tương lai.

Đối với việc phát triển ứng dụng, chúng ta hoàn toàn có thể tích hợp trực tiếp quá trình thông qua kết nối API.

Đối với các bạn mới trải nghiệm cũng như tìm hiểu đến Amazon Transcribe nói riêng và Amazon Web Services nói chung, đây là bước đi khởi đầu trong quá trình tiếp cận đến bộ các dịch vụ Machine Learning⁷.

 

Tác giả: Bình Nguyễn, Solution Architect tại Renova Cloud

————————————

[2] PubMed Central (U.S. National Library of Medicine). Long-Lasting Verbatim Memory for the Words of Books After a Single Reading Without Any Learning Intention. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7396590/

[3] Unsplash. Thought Catalog. https://unsplash.com/photos/TeWWEoIpbmQ

[4] AWS Transcribe. Giới thiệu dịch vụ. https://aws.amazon.com/vi/transcribe/

[5] AWS FAQ. Cấp bậc miễn phí Free-Tier.

https://aws.amazon.com/vi/free/free-tier-faqs/

[6] AWS FAQ. Chi phí dịch vụ của Amazon Transcribe. https://aws.amazon.com/vi/transcribe/pricing/

[7] AWS Machine Learning. Giới thiệu dịch vụ.

https://aws.amazon.com/vi/machine-learning/