Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Resumen
| Miembros | Descripciones |
|---|---|
| PropertyId de enumeración | Define los identificadores de propiedad de voz. Se ha cambiado en la versión 1.4.0. |
| enumeración OutputFormat | Formato de salida. |
| enumeración ProfanityOption | Quita palabras soeces (juradas) o reemplaza letras de palabras profanas por estrellas. Se agregó en la versión 1.5.0. |
| enumeración ResultReason | Especifica los posibles motivos por los que se puede generar un resultado de reconocimiento. |
| enumeración CancellationReason | Define las posibles razones por las que se puede cancelar un resultado de reconocimiento. |
| enumeración CancellationErrorCode | Define el código de error en caso de que CancellationReason sea Error. Se agregó en la versión 1.1.0. |
| enumeración NoMatchReason | Define las posibles razones por las que es posible que no se reconozca un resultado de reconocimiento. |
| enumeración ActivityJSONType | Define los tipos posibles para un valor json de actividad. Se agregó en la versión 1.5.0. |
| enumeración SpeechSynthesisOutputFormat | Define los posibles formatos de audio de salida de síntesis de voz. Actualizado en la versión 1.19.0. |
| enumeración StreamStatus | Define el estado posible de la secuencia de datos de audio. Se agregó en la versión 1.4.0. |
| enumeración ServicePropertyChannel | Define los canales usados para pasar la configuración de propiedades al servicio. Se agregó en la versión 1.5.0. |
| enumeración RecognitionFactorScope | Define el ámbito al que se aplica un factor de reconocimiento. |
| enumeración PronunciationAssessmentGradingSystem | Define el sistema de puntos para la calibración de la puntuación de pronunciación; el valor predeterminado es FivePoint. Se agregó en la versión 1.14.0. |
| enumeración PronunciationAssessmentGranularity | Define la granularidad de evaluación de pronunciación; el valor predeterminado es Phoneme. Se agregó en la versión 1.14.0. |
| enumeración SynthesisVoiceType | Define el tipo de voces de síntesis agregadas en la versión 1.16.0. |
| enumeración SynthesisVoiceGender | Define el género de las voces de síntesis agregadas en la versión 1.17.0. |
| enumeración SynthesisVoiceStatus | Define el estado de las voces de síntesis. |
| enumeración SpeechSynthesisBoundaryType | Define el tipo de límite del evento de límite de síntesis de voz agregado en la versión 1.21.0. |
| enumeración SegmentationStrategy | Estrategia que se usa para determinar cuándo ha finalizado una frase hablada y se debe generar un resultado reconocido final. Los valores permitidos son "Default", "Time" y "Semantic". |
| clase AudioDataStream | Representa la secuencia de datos de audio que se usa para operar datos de audio como una secuencia. Se agregó en la versión 1.4.0. |
| clase AutoDetectSourceLanguageConfig | Clase que define la configuración de origen de detección automática actualizada en 1.13.0. |
| clase AutoDetectSourceLanguageResult | Contiene el resultado del idioma de origen detectado automáticamente agregado en 1.8.0. |
| clase ClassLanguageModel | Representa una lista de gramáticas para escenarios de gramática dinámica. Se agregó en la versión 1.7.0. |
| clase Connection | Connection es una clase de proxy para administrar la conexión al servicio de voz del reconocedor especificado. De forma predeterminada, un Reconocedor administra de forma autónoma la conexión con el servicio cuando sea necesario. La clase Connection proporciona métodos adicionales para que los usuarios abran o cierren explícitamente una conexión y para suscribirse a los cambios de estado de conexión. El uso de Connection es opcional. Está pensado para escenarios en los que se necesita un ajuste preciso del comportamiento de la aplicación en función del estado de conexión. Opcionalmente, los usuarios pueden llamar a Open() para iniciar manualmente una conexión de servicio antes de iniciar el reconocimiento en el reconocedor asociado a esta conexión. Después de iniciar un reconocimiento, es posible que se produzca un error al llamar a Open() o Close(). Esto no afectará al reconocedor ni al reconocimiento continuo. La conexión puede quitarse por varias razones, el Reconocedor siempre intentará reinstituer la conexión según sea necesario para garantizar las operaciones en curso. En todos estos casos, los eventos conectados o desconectados indicarán el cambio del estado de conexión. Actualizado en la versión 1.17.0. |
| clase ConnectionEventArgs | Proporciona datos para ConnectionEvent. Se agregó en la versión 1.2.0. |
| clase ConnectionMessage | ConnectionMessage representa los mensajes específicos de implementación enviados y recibidos del servicio de voz. Estos mensajes se proporcionan con fines de depuración y no deben usarse para casos de uso de producción con El servicio voz de Azure Cognitive Services. Los mensajes enviados y recibidos desde el servicio voz están sujetos a cambios sin previo aviso. Esto incluye contenido de mensajes, encabezados, cargas, pedidos, etc. Se agregó en la versión 1.10.0. |
| clase ConnectionMessageEventArgs | Proporciona datos para ConnectionMessageEvent. |
| clase EmbeddedSpeechConfig | Clase que define la configuración de voz insertada (sin conexión). |
| clase EventArgs | Clase base para argumentos de evento. |
| clase EventSignal | Los clientes pueden conectarse a la señal de evento para recibir eventos o desconectar de la señal de evento para dejar de recibir eventos. |
| clase EventSignalBase | Los clientes pueden conectarse a la señal de evento para recibir eventos o desconectar de la señal de evento para dejar de recibir eventos. |
| clase Grammar | Representa la gramática de clases base para personalizar el reconocimiento de voz. Se agregó en la versión 1.5.0. |
| clase GrammarList | Representa una lista de gramáticas para escenarios de gramática dinámica. Se agregó en la versión 1.7.0. |
| clase GrammarPhrase | Representa una frase que el usuario puede hablar. Se agregó en la versión 1.5.0. |
| clase HybridSpeechConfig | Clase que define configuraciones híbridas (en la nube y insertadas) para el reconocimiento de voz o la síntesis de voz. |
| clase KeywordRecognitionEventArgs | Clase para los eventos que KeywordRecognizer. |
| clase KeywordRecognitionModel | Representa el modelo de reconocimiento de palabras clave usado con métodos StartKeywordRecognitionAsync. |
| clase KeywordRecognitionResult | Clase que define los resultados emitidos por el KeywordRecognizer. |
| clase KeywordRecognizer | Tipo de reconocedor especializado para controlar solo la activación de palabras clave. |
| clase PhraseListGrammar | Representa una gramática de lista de frases para escenarios de gramática dinámica. Se agregó en la versión 1.5.0. |
| clase PronunciationAssessmentConfig | Clase que define la configuración de evaluación de pronunciación agregada en 1.14.0. |
| clase PronunciationAssessmentResult | Clase para los resultados de la evaluación de pronunciación. |
| clase PropertyCollection | Clase para recuperar o establecer un valor de propiedad de una colección de propiedades. |
| clase AsyncRecognizer | Clase base abstracta AsyncRecognizer. |
| clase BaseAsyncRecognizer | Clase BaseAsyncRecognizer. |
| clase RecognitionEventArgs | Proporciona datos para RecognitionEvent. |
| clase RecognitionResult | Contiene información detallada sobre el resultado de una operación de reconocimiento. |
| clase CancellationDetails | Contiene información detallada sobre por qué se canceló un resultado. |
| clase NoMatchDetails | Contiene información detallada sobre los resultados del reconocimiento NoMatch. |
| class Recognizer | Clase base recognizer. |
| clase SessionEventArgs | Clase base para argumentos de evento de sesión. |
| clase SmartHandle | Clase de controlador inteligente. |
| clase SourceLanguageConfig | Clase que define la configuración del lenguaje de origen, agregada en la versión 1.8.0. |
| clase SourceLanguageRecognizer | Clase para reconocedores de lenguaje de origen. Puede usar esta clase para la detección de idioma independiente. Se agregó en la versión 1.17.0. |
| clase SpeechConfig | Clase que define configuraciones para el reconocimiento o síntesis de voz. |
| clase SpeechRecognitionEventArgs | Clase para argumentos de evento de reconocimiento de voz. |
| clase SpeechRecognitionCanceledEventArgs | Clase para argumentos de evento cancelados de reconocimiento de voz. |
| clase SpeechRecognitionModel | Información del modelo de reconocimiento de voz. |
| clase SpeechRecognitionResult | Clase base para los resultados del reconocimiento de voz. |
| clase SpeechRecognizer | Clase para reconocedores de voz. |
| clase SpeechSynthesisBookmarkEventArgs | Clase para argumentos de evento de marcador de síntesis de voz. Se agregó en la versión 1.16.0. |
| clase SpeechSynthesisEventArgs | Clase para argumentos de evento de síntesis de voz. Se agregó en la versión 1.4.0. |
| clase SpeechSynthesisRequest | Clase que define la solicitud de síntesis de voz. Esta clase está en versión preliminar y está sujeta a cambios. Se agregó en la versión 1.37.0. |
| clase PersonalVoiceSynthesisRequest | Clase que define la solicitud de síntesis de voz para la voz personal (aka.ms/azureai/personal-voice). Esta clase está en versión preliminar y está sujeta a cambios. Se agregó en la versión 1.39.0. |
| clase SpeechSynthesisResult | Contiene información sobre el resultado de la síntesis de texto a voz. Se agregó en la versión 1.4.0. |
| clase SpeechSynthesisCancellationDetails | Contiene información detallada sobre por qué se canceló un resultado. Se agregó en la versión 1.4.0. |
| clase SpeechSynthesisVisemeEventArgs | Clase para argumentos de evento viseme de síntesis de voz. Se agregó en la versión 1.16.0. |
| clase SpeechSynthesisWordBoundaryEventArgs | Clase para argumentos de evento de límite de palabra de síntesis de voz. Se agregó en la versión 1.7.0. |
| clase SpeechSynthesizer | Clase para sintetizador de voz. Actualizado en la versión 1.14.0. |
| clase SpeechTranslationModel | Información del modelo de traducción de voz. |
| clase SynthesisVoicesResult | Contiene información sobre el resultado de la lista de voces de sintetizadores de voz. Se agregó en la versión 1.16.0. |
| clase VoiceInfo | Contiene información sobre la información de voz de síntesis actualizada en la versión 1.17.0. |
Miembros
enumeración PropertyId
| Valores | Descripciones |
|---|---|
| SpeechServiceConnection_Key | Clave de suscripción de Cognitive Services Speech Service. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use SpeechConfig::FromSubscription. |
| SpeechServiceConnection_Endpoint | El punto de conexión de Speech Service (url) de Cognitive Services. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use SpeechConfig::FromEndpoint. NOTA: Este punto de conexión no es el mismo que el que se usa para obtener un token de acceso. |
| SpeechServiceConnection_Region | La región de Speech Service de Cognitive Services. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use SpeechConfig::FromSubscription, SpeechConfig::FromEndpoint, SpeechConfig::FromHost, SpeechConfig::FromAuthorizationToken. |
| SpeechServiceAuthorization_Token | El token de autorización de Speech Service de Cognitive Services (también conocido como token de acceso). En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, utiliza SpeechConfig::FromAuthorizationToken, SpeechRecognizer::SetAuthorizationToken o TranslationRecognizer::SetAuthorizationToken. |
| SpeechServiceAuthorization_Type | Tipo de autorización de Cognitive Services Speech Service. Actualmente no se está usando. |
| SpeechServiceConnection_EndpointId | Identificador de punto de conexión de Cognitive Services Custom Speech o Custom Voice Service. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use SpeechConfig::SetEndpointId. NOTA: El identificador de punto de conexión está disponible en el Portal de Voz personalizada, que aparece en Detalles del punto de conexión. |
| SpeechServiceConnection_Host | Host (url) de Cognitive Services Speech Service. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use SpeechConfig::FromHost. |
| SpeechServiceConnection_ProxyHostName | Nombre de host del servidor proxy que se usa para conectarse al servicio voz de Cognitive Services. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use SpeechConfig::SetProxy. NOTA: Este identificador de propiedad se agregó en la versión 1.1.0. |
| SpeechServiceConnection_ProxyPort | Puerto del servidor proxy que se usa para conectarse al servicio Voz de Cognitive Services. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use SpeechConfig::SetProxy. NOTA: Este identificador de propiedad se agregó en la versión 1.1.0. |
| SpeechServiceConnection_ProxyUserName | Nombre de usuario del servidor proxy que se usa para conectarse al servicio voz de Cognitive Services. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use SpeechConfig::SetProxy. NOTA: Este identificador de propiedad se agregó en la versión 1.1.0. |
| SpeechServiceConnection_ProxyPassword | Contraseña del servidor proxy que se usa para conectarse al servicio voz de Cognitive Services. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use SpeechConfig::SetProxy. NOTA: Este identificador de propiedad se agregó en la versión 1.1.0. |
| SpeechServiceConnection_Url | Cadena de dirección URL creada a partir de la configuración de voz. Esta propiedad está pensada para ser de solo lectura. El SDK lo usa internamente. NOTA: Se ha agregado en la versión 1.5.0. |
| SpeechServiceConnection_ProxyHostBypass | Especifica la lista de hosts para los que no se deben usar los servidores proxy. Esta configuración invalida todas las demás configuraciones. Los nombres de host se separan por comas y se coinciden de forma que no distinguen mayúsculas de minúsculas. No se admiten caracteres comodín. |
| SpeechServiceConnection_TranslationToLanguages | Lista de idiomas separados por comas usados como idiomas de traducción de destino. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use SpeechTranslationConfig::AddTargetLanguage y SpeechTranslationConfig::GetTargetLanguages. |
| SpeechServiceConnection_TranslationVoice | Nombre de la voz de Cognitive Service Texto a voz Service. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use SpeechTranslationConfig::SetVoiceName. NOTA: Los nombres de voz válidos se pueden encontrar aquí. |
| SpeechServiceConnection_TranslationFeatures | Características de traducción. Para uso interno. |
| SpeechServiceConnection_RecoMode | El modo de reconocimiento de Speech Service de Cognitive Services. Puede ser "INTERACTIVE", "CONVERSATION", "DICTATION". Esta propiedad está pensada para ser de solo lectura. El SDK lo usa internamente. |
| SpeechServiceConnection_RecoLanguage | Idioma hablado que se va a reconocer (en formato BCP-47). En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use SpeechConfig::SetSpeechRecognitionLanguage. |
| Speech_SessionId | Identificador de sesión. Este identificador es un identificador único universal (también conocido como UUID) que representa un enlace específico de una secuencia de entrada de audio y la instancia de reconocimiento de voz subyacente a la que está enlazado. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use SessionEventArgs::SessionId. |
| SpeechServiceConnection_UserDefinedQueryParameters | Parámetros de consulta proporcionados por los usuarios. Se pasarán al servicio como parámetros de consulta url. Se agregó en la versión 1.5.0. |
| SpeechServiceConnection_RecoBackend | Cadena que se va a especificar el back-end que se va a usar para el reconocimiento de voz; las opciones permitidas están en línea y sin conexión. En circunstancias normales, no debe usar esta propiedad directamente. Actualmente, la opción sin conexión solo es válida cuando se usa EmbeddedSpeechConfig. Se agregó en la versión 1.19.0. |
| SpeechServiceConnection_RecoModelName | Nombre del modelo que se va a usar para el reconocimiento de voz. En circunstancias normales, no debe usar esta propiedad directamente. Actualmente, esto solo es válido cuando se usa EmbeddedSpeechConfig. Se agregó en la versión 1.19.0. |
| SpeechServiceConnection_RecoModelKey | Esta propiedad está en desuso. |
| SpeechServiceConnection_RecoModelIniFile | Ruta de acceso al archivo ini del modelo que se va a usar para el reconocimiento de voz. En circunstancias normales, no debe usar esta propiedad directamente. Actualmente, esto solo es válido cuando se usa EmbeddedSpeechConfig. Se agregó en la versión 1.19.0. |
| SpeechServiceConnection_SynthLanguage | Lenguaje hablado que se va a sintetizar (por ejemplo, en-US) Agregado en la versión 1.4.0. |
| SpeechServiceConnection_SynthVoice | Nombre de la voz TTS que se usará para la síntesis de voz agregada en la versión 1.4.0. |
| SpeechServiceConnection_SynthOutputFormat | Cadena para especificar el formato de audio de salida de TTS agregado en la versión 1.4.0. |
| SpeechServiceConnection_SynthEnableCompressedAudioTransmission | Indica si se usa el formato de audio comprimido para la transmisión de audio de síntesis de voz. Esta propiedad solo afecta cuando SpeechServiceConnection_SynthOutputFormat se establece en un formato pcm. Si esta propiedad no está establecida y GStreamer está disponible, el SDK usará el formato comprimido para la transmisión de audio sintetizada y lo descodificará. Puede establecer esta propiedad en "false" para usar el formato pcm sin procesar para la transmisión en la conexión. Se agregó en la versión 1.16.0. |
| SpeechServiceConnection_SynthBackend | Cadena que se va a especificar el back-end de TTS; las opciones válidas están en línea y sin conexión. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use EmbeddedSpeechConfig::FromPath o EmbeddedSpeechConfig::FromPaths para establecer el back-end de síntesis en sin conexión. Se agregó en la versión 1.19.0. |
| SpeechServiceConnection_SynthOfflineDataPath | Las rutas de acceso del archivo de datos para el motor de síntesis sin conexión; solo es válido cuando el back-end de síntesis está sin conexión. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use EmbeddedSpeechConfig::FromPath o EmbeddedSpeechConfig::FromPaths. Se agregó en la versión 1.19.0. |
| SpeechServiceConnection_SynthOfflineVoice | El nombre de la voz TTS sin conexión que se usará para la síntesis de voz En circunstancias normales, no debe usar esta propiedad directamente. En su lugar, use EmbeddedSpeechConfig::SetSpeechSynthesisVoice y EmbeddedSpeechConfig::GetSpeechSynthesisVoiceName. Se agregó en la versión 1.19.0. |
| SpeechServiceConnection_SynthModelKey | Esta propiedad está en desuso. |
| SpeechServiceConnection_VoicesListEndpoint | Las voces de Speech Service de Cognitive Services enumeran el punto de conexión de API (url). En circunstancias normales, no es necesario especificar esta propiedad, el SDK lo construirá en función de la región, host o punto de conexión de SpeechConfig. Se agregó en la versión 1.16.0. |
| SpeechServiceConnection_InitialSilenceTimeoutMs | Valor de tiempo de espera de silencio inicial (en milisegundos) usado por el servicio. Se agregó en la versión 1.5.0. |
| SpeechServiceConnection_EndSilenceTimeoutMs | Esta propiedad está en desuso. Para obtener información actualizada sobre los tiempos de espera de silencio, visite https://aka.ms/csspeech/timeouts. |
| SpeechServiceConnection_EnableAudioLogging | Valor booleano que especifica si el registro de audio está habilitado en el servicio o no. Los registros de audio y contenido se almacenan en el almacenamiento propiedad de Microsoft o en su propia cuenta de almacenamiento vinculada a su suscripción de Cognitive Services (Traiga su propio almacenamiento [BYOS]) habilitado para el recurso de voz). Se agregó en la versión 1.5.0. |
| SpeechServiceConnection_LanguageIdMode | Modo de identificador de idioma de conexión del servicio de voz. Puede ser "AtStart" (valor predeterminado) o "Continuous". Consulte documento de identificación del idioma. Agregado en la versión 1.25.0. |
| SpeechServiceConnection_TranslationCategoryId | CategoryId de traducción de conexión del servicio de voz. |
| SpeechServiceConnection_AutoDetectSourceLanguages | Los idiomas de origen de detección automática agregados en la versión 1.8.0. |
| SpeechServiceConnection_AutoDetectSourceLanguageResult | Resultado de detección automática del idioma de origen agregado en la versión 1.8.0. |
| SpeechServiceResponse_RequestDetailedResultTrueFalse | El formato de salida de respuesta solicitado de Cognitive Services Speech Service (simple o detallado). En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use SpeechConfig::SetOutputFormat. |
| SpeechServiceResponse_RequestProfanityFilterTrueFalse | El nivel de palabra soece de respuesta de Cognitive Services Speech Service solicitado. Actualmente no se está usando. |
| SpeechServiceResponse_ProfanityOption | Configuración de palabra soece de salida de respuesta de Cognitive Services Speech Service solicitada. Los valores permitidos son "masked", "removed" y "raw". Se agregó en la versión 1.5.0. |
| SpeechServiceResponse_PostProcessingOption | Valor de cadena que especifica qué opción posterior al procesamiento debe usar el servicio. Se agregó en la versión 1.5.0. |
| SpeechServiceResponse_RequestWordLevelTimestamps | Valor booleano que especifica si se deben incluir marcas de tiempo de nivel de palabra en el resultado de la respuesta. Se agregó en la versión 1.5.0. |
| SpeechServiceResponse_StablePartialResultThreshold | Número de veces que una palabra debe estar en resultados parciales que se van a devolver. Se agregó en la versión 1.5.0. |
| SpeechServiceResponse_OutputFormatOption | Valor de cadena que especifica la opción de formato de salida en el resultado de la respuesta. Solo uso interno. Se agregó en la versión 1.5.0. |
| SpeechServiceResponse_RequestSnr | Valor booleano que especifica si se debe incluir SNR (relación de señal a ruido) en el resultado de la respuesta. Se agregó en la versión 1.18.0. |
| SpeechServiceResponse_TranslationRequestStablePartialResult | Valor booleano que se va a solicitar para estabilizar los resultados parciales de traducción omitiendo palabras al final. Se agregó en la versión 1.5.0. |
| SpeechServiceResponse_RequestWordBoundary | Valor booleano que especifica si se van a solicitar eventos de WordBoundary. Se agregó en la versión 1.21.0. |
| SpeechServiceResponse_RequestPunctuationBoundary | Valor booleano que especifica si se va a solicitar el límite de puntuación en eventos de WordBoundary. El valor predeterminado es true. Se agregó en la versión 1.21.0. |
| SpeechServiceResponse_RequestSentenceBoundary | Valor booleano que especifica si se va a solicitar el límite de oración en eventos de WordBoundary. El valor predeterminado es false. Se agregó en la versión 1.21.0. |
| SpeechServiceResponse_SynthesisEventsSyncToAudio | Valor booleano que especifica si el SDK debe sincronizar los eventos de metadatos de síntesis (por ejemplo, límite de palabras, visema, etc.) con la reproducción de audio. Esto solo surte efecto cuando el audio se reproduce a través del SDK. El valor predeterminado es true. Si se establece en false, el SDK activará los eventos a medida que proceden del servicio, lo que puede estar fuera de sincronización con la reproducción de audio. Se agregó en la versión 1.31.0. |
| SpeechServiceResponse_JsonResult | Salida de respuesta de Speech Service de Cognitive Services (en formato JSON). Esta propiedad solo está disponible en objetos de resultado de reconocimiento. |
| SpeechServiceResponse_JsonErrorDetails | Los detalles del error de Cognitive Services Speech Service (en formato JSON). En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use CancellationDetails::ErrorDetails. |
| SpeechServiceResponse_RecognitionLatencyMs | Latencia de reconocimiento en milisegundos. Solo lectura, disponible en los resultados finales de voz/traducción. Esto mide la latencia entre cuando el SDK recibe una entrada de audio y el momento en que se recibe el resultado final del servicio. El SDK calcula la diferencia de tiempo entre el último fragmento de audio de la entrada de audio que contribuye al resultado final y la hora en que se recibe el resultado final del servicio de voz. Se agregó en la versión 1.3.0. |
| SpeechServiceResponse_RecognitionBackend | Back-end de reconocimiento. Solo lectura, disponible en los resultados del reconocimiento de voz. Esto indica si se usó el reconocimiento en la nube (en línea) o incrustado (sin conexión) para generar el resultado. |
| SpeechServiceResponse_RequestId | El ID de solicitud al servicio de voz para este reconocimiento. Este es un identificador único para la solicitud. Solo lectura, disponible en los resultados finales de reconocimiento de voz/traducción. |
| SpeechServiceResponse_SynthesisFirstByteLatencyMs | La síntesis de voz tiene la primera latencia de bytes en milisegundos. Solo lectura, disponible en los resultados finales de la síntesis de voz. Esto mide la latencia entre cuando se inicia la síntesis para procesarse y el momento en que está disponible el primer audio de bytes. Se agregó en la versión 1.17.0. |
| SpeechServiceResponse_SynthesisFinishLatencyMs | La síntesis de voz todas las latencias de bytes en milisegundos. Solo lectura, disponible en los resultados finales de la síntesis de voz. Esto mide la latencia entre cuando se inicia la síntesis para procesarse y el momento en que se sintetiza todo el audio. Se agregó en la versión 1.17.0. |
| SpeechServiceResponse_SynthesisUnderrunTimeMs | Tiempo de ejecución inferior para la síntesis de voz en milisegundos. Solo lectura, disponible en los resultados de los eventos SynthesisCompleted. Esto mide el tiempo total de infraejecución de PropertyId::AudioConfig_PlaybackBufferLengthInMs se rellena para completar la síntesis. Se agregó en la versión 1.17.0. |
| SpeechServiceResponse_SynthesisConnectionLatencyMs | Latencia de conexión de síntesis de voz en milisegundos. Solo lectura, disponible en los resultados finales de la síntesis de voz. Esto mide la latencia entre cuando se inicia la síntesis para procesarse y el momento en que se establece la conexión HTTP/WebSocket. Se agregó en la versión 1.26.0. |
| SpeechServiceResponse_SynthesisNetworkLatencyMs | Latencia de red de síntesis de voz en milisegundos. Solo lectura, disponible en los resultados finales de la síntesis de voz. Esto mide el tiempo de ida y vuelta de red. Se agregó en la versión 1.26.0. |
| SpeechServiceResponse_SynthesisServiceLatencyMs | Latencia del servicio de síntesis de voz en milisegundos. Solo lectura, disponible en los resultados finales de la síntesis de voz. Esto mide el tiempo de procesamiento del servicio para sintetizar el primer byte de audio. Se agregó en la versión 1.26.0. |
| SpeechServiceResponse_SynthesisBackend | Indica qué back-end finaliza la síntesis. Solo lectura, disponible en los resultados de síntesis de voz, excepto el resultado en el evento SynthesisStarted Agregado en la versión 1.17.0. |
| SpeechServiceResponse_DiarizeIntermediateResults | Determina si los resultados intermedios contienen identificación del hablante. |
| CancellationDetails_Reason | Motivo de cancelación. Actualmente no se está usando. |
| CancellationDetails_ReasonText | Texto de cancelación. Actualmente no se está usando. |
| CancellationDetails_ReasonDetailedText | Texto detallado de cancelación. Actualmente no se está usando. |
| AudioConfig_DeviceNameForCapture | Nombre del dispositivo para la captura de audio. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use AudioConfig::FromMicrophoneInput. NOTA: Este identificador de propiedad se agregó en la versión 1.3.0. |
| AudioConfig_NumberOfChannelsForCapture | Número de canales para la captura de audio. Solo uso interno. NOTA: Este identificador de propiedad se agregó en la versión 1.3.0. |
| AudioConfig_SampleRateForCapture | Frecuencia de muestreo (en Hz) para la captura de audio. Solo uso interno. NOTA: Este identificador de propiedad se agregó en la versión 1.3.0. |
| AudioConfig_BitsPerSampleForCapture | Número de bits de cada muestra para la captura de audio. Solo uso interno. NOTA: Este identificador de propiedad se agregó en la versión 1.3.0. |
| AudioConfig_AudioSource | Origen de audio. Los valores permitidos son "Micrófonos", "Archivo" y "Stream". Se agregó en la versión 1.3.0. |
| AudioConfig_DeviceNameForRender | Nombre del dispositivo para la representación de audio. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use AudioConfig::FromSpeakerOutput. Se agregó en la versión 1.14.0. |
| AudioConfig_PlaybackBufferLengthInMs | La longitud del búfer de reproducción en milisegundos, el valor predeterminado es de 50 milisegundos. |
| AudioConfig_AudioProcessingOptions | Opciones de procesamiento de audio en formato JSON. |
| Speech_LogFilename | Nombre de archivo que se va a escribir registros. Se agregó en la versión 1.4.0. |
| Speech_SegmentationSilenceTimeoutMs | Duración del silencio detectado, medido en milisegundos, después de lo cual la conversión de voz a texto determinará una frase hablada y generará un resultado reconocido final. La configuración de este tiempo de espera puede ser útil en situaciones en las que la entrada hablada sea significativamente más rápida o más lenta que el comportamiento de segmentación predeterminado y habitual produce resultados que son demasiado largos o demasiado cortos. Los valores de tiempo de espera de segmentación que son inadecuados o bajos pueden afectar negativamente a la precisión de la conversión de voz a texto; esta propiedad debe configurarse cuidadosamente y el comportamiento resultante debe validarse exhaustivamente según lo previsto. El valor debe estar en el intervalo [100, 5000] milisegundos. |
| Speech_SegmentationMaximumTimeMs | Longitud máxima de una frase hablada cuando se usa la estrategia de segmentación "Time". El valor de Speech_SegmentationSilenceTimeoutMs debe establecerse para poder utilizar esta configuración. A medida que la longitud de una frase hablada se aproxima a este valor, el Speech_SegmentationSilenceTimeoutMs comenzará a reducirse hasta que se alcance el tiempo de espera del silencio de frases o la frase alcance la longitud máxima. El valor debe estar en el intervalo [20000, 70000] milisegundos. |
| Speech_SegmentationStrategy | Estrategia que se usa para determinar cuándo ha finalizado una frase hablada y se debe generar un resultado reconocido final. Los valores permitidos son "Default", "Time" y "Semantic". |
| Speech_StartEventSensitivity | Controla la rapidez con la que el sistema señala que un posible inicio de voz tras detectar actividad vocal. Esta configuración no altera el algoritmo subyacente de detección de actividad de voz. Solo ajusta los criterios de tiempo para generar un evento SpeechStartDetected. |
| Conversation_ApplicationId | Identificador usado para conectarse al servicio back-end. Se agregó en la versión 1.5.0. |
| Conversation_DialogType | Tipo de back-end de diálogo al que conectarse. Se agregó en la versión 1.7.0. |
| Conversation_Initial_Silence_Timeout | Tiempo de espera de silencio para escuchar agregado en la versión 1.5.0. |
| Conversation_From_Id | De id que se usará en las actividades de reconocimiento de voz agregadas en la versión 1.5.0. |
| Conversation_Conversation_Id | ConversationId para la sesión. Se agregó en la versión 1.8.0. |
| Conversation_Custom_Voice_Deployment_Ids | Lista separada por comas de identificadores de implementación de voz personalizados. Se agregó en la versión 1.8.0. |
| Conversation_Speech_Activity_Template | Plantilla de actividad de voz, propiedades de marca de la plantilla en la actividad generada por el servicio para voz. Se agregó en la versión 1.10.0. |
| Conversation_ParticipantId | Identificador del participante en la conversación actual. Se agregó en la versión 1.13.0. |
| Conversation_Request_Bot_Status_Messages | |
| Conversation_Connection_Id | |
| DataBuffer_TimeStamp | Marca de tiempo asociada al búfer de datos escrito por el cliente cuando se usan flujos de entrada de audio pull/Push. La marca de tiempo es un valor de 64 bits con una resolución de 90 kHz. Es igual que la marca de tiempo de presentación en una secuencia de transporte MPEG. Consulte https://en.wikipedia.org/wiki/Presentation_timestamp Agregado en la versión 1.5.0. |
| DataBuffer_UserId | Identificador de usuario asociado al búfer de datos escrito por el cliente al usar flujos de entrada de audio pull/Push. Se agregó en la versión 1.5.0. |
| PronunciationAssessment_ReferenceText | Texto de referencia del audio para la evaluación de pronunciación. Para ello y los siguientes parámetros de evaluación de pronunciación, consulte la tabla parámetros de evaluación de pronunciación. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use PronunciationAssessmentConfig::Create o PronunciationAssessmentConfig::SetReferenceText. Se agregó en la versión 1.14.0. |
| PronunciationAssessment_GradingSystem | Sistema de puntos para la calibración de la puntuación de pronunciación (FivePoint o HundredMark). En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use PronunciationAssessmentConfig::Create. Se agregó en la versión 1.14.0. |
| PronunciationAssessment_Granularity | Granularidad de evaluación de pronunciación (Phoneme, Word o FullText). En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use PronunciationAssessmentConfig::Create. Se agregó en la versión 1.14.0. |
| PronunciationAssessment_EnableMiscue | Define si se habilita el cálculo de incorrectamente. Con esta opción habilitada, las palabras pronunciadas se compararán con el texto de referencia y se marcarán con omisión o inserción en función de la comparación. La configuración predeterminada es False. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use PronunciationAssessmentConfig::Create. Se agregó en la versión 1.14.0. |
| PronunciationAssessment_PhonemeAlphabet | Alfabeto fonético de evaluación de pronunciación. Los valores válidos son "SAPI" (valor predeterminado) y "IPA" En circunstancias normales, no debe tener que usar esta propiedad directamente. En su lugar, use PronunciationAssessmentConfig::SetPhonemeAlphabet. Se agregó en la versión 1.20.0. |
| PronunciationAssessment_NBestPhonemeCount | Recuento de fonemas nbest de evaluación de pronunciación. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use PronunciationAssessmentConfig::SetNBestPhonemeCount. Se agregó en la versión 1.20.0. |
| PronunciationAssessment_EnableProsodyAssessment | Si se va a habilitar la evaluación de la prosodia. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use PronunciationAssessmentConfig::EnableProsodyAssessment. Se agregó en la versión 1.33.0. |
| PronunciationAssessment_Json | Cadena json de parámetros de evaluación de pronunciación En circunstancias normales, no debe tener que usar esta propiedad directamente. En su lugar, use PronunciationAssessmentConfig::Create. Se agregó en la versión 1.14.0. |
| PronunciationAssessment_Params | Parámetros de evaluación de pronunciación. Esta propiedad está pensada para ser de solo lectura. El SDK lo usa internamente. Se agregó en la versión 1.14.0. |
| SpeechTranslation_ModelName | Nombre de un modelo que se va a usar para la traducción de voz. No utilice esta propiedad directamente. Actualmente, esto solo es válido cuando se usa EmbeddedSpeechConfig. |
| SpeechTranslation_ModelKey | Esta propiedad está en desuso. |
| KeywordRecognition_ModelName | Nombre de un modelo que se va a usar para el reconocimiento de palabras clave. No utilice esta propiedad directamente. Actualmente, esto solo es válido cuando se usa EmbeddedSpeechConfig. |
| KeywordRecognition_ModelKey | Esta propiedad está en desuso. |
| EmbeddedSpeech_EnablePerformanceMetrics | Habilite la recopilación de métricas de rendimiento de voz insertadas que se pueden usar para evaluar la capacidad de un dispositivo para usar la voz insertada. Los datos recopilados se incluyen en los resultados de escenarios específicos, como el reconocimiento de voz. El valor predeterminado es "false". Tenga en cuenta que es posible que las métricas no estén disponibles en todos los escenarios de voz insertados. |
| SpeechSynthesisRequest_Pitch | El tono de la voz sintetizada. |
| SpeechSynthesisRequest_Rate | Velocidad de la voz sintetizada. |
| SpeechSynthesisRequest_Volume | Volumen de la voz sintetizada. |
| SpeechSynthesisRequest_Style | Estilo de la voz sintetizada. |
| SpeechSynthesisRequest_Temperature | Temperatura de la voz sintetizada. El parámetro temperature solo surte efecto cuando la voz es una voz HD. |
| SpeechSynthesisRequest_CustomLexiconUrl | La dirección URL del léxico personalizado para la voz sintetizada. Esto proporciona una URL a un léxico de pronunciación personalizado que se utilizará durante la síntesis. |
| SpeechSynthesisRequest_PreferLocales | Las configuraciones regionales preferidas para la voz sintetizada. Lista de nombres de configuración regional separados por comas en orden de preferencia. |
| SpeechSynthesis_FrameTimeoutInterval | Intervalo de tiempo de espera en milisegundos entre fotogramas de audio de voz sintetizados. El mayor de estos y 10 segundos se usa como tiempo de espera de fotogramas duros. Un tiempo de espera de síntesis de voz se produce si a) el tiempo transcurrido desde que el fotograma más reciente supera este intervalo de tiempo de espera y el factor de Real-Time (RTF) supera su valor máximo, o b) el tiempo transcurrido desde que el fotograma más reciente supera el tiempo de espera de fotogramas duros. |
| SpeechSynthesis_RtfTimeoutThreshold | Factor de Real-Time máximo (RTF) para la síntesis de voz. El RTF se calcula como RTF = f(d)/d donde f(d) es el tiempo necesario para sintetizar el audio de voz de duración d. |
Define los identificadores de propiedad de voz. Se ha cambiado en la versión 1.4.0.
enumeración OutputFormat
| Valores | Descripciones |
|---|---|
| Sencillo | |
| Detallado |
Formato de salida.
enumeración ProfanityOption
| Valores | Descripciones |
|---|---|
| Enmascarado | Reemplaza letras en palabras soeces por caracteres de estrella. |
| Quitado | Quita palabras soeces. |
| Crudo | No hace nada para palabras soeces. |
Quita palabras soeces (juradas) o reemplaza letras de palabras profanas por estrellas. Se agregó en la versión 1.5.0.
enumeración ResultReason
| Valores | Descripciones |
|---|---|
| NoMatch | Indica que no se pudo reconocer la voz. Puede encontrar más detalles en el objeto NoMatchDetails. |
| Cancelado | Indica que se canceló el reconocimiento. Puede encontrar más detalles mediante el objeto CancellationDetails. |
| ReconocerSpeech | Indica que el resultado de voz contiene texto de hipótesis. |
| RecognizeSpeech | Indica que el resultado de voz contiene texto final que se ha reconocido. El reconocimiento de voz ya está completo para esta frase. |
| ReconocerIntent | Esta razón resultante está obsoleta y ya no se usa. |
| RecognizeIntent | Esta razón resultante está obsoleta y ya no se usa. |
| Traducción DeSpeech | Indica que el resultado de la traducción contiene texto de hipótesis y sus traducciones. |
| Traducción del discurso | Indica que el resultado de la traducción contiene texto final y las traducciones correspondientes. El reconocimiento de voz y la traducción ya están completos para esta frase. |
| Sintetizaciónde audio | Indica que el resultado de audio sintetizado contiene una cantidad distinta de cero de datos de audio. |
| SintetizandoAudioCompletado | Indica que el audio sintetizado ya está completo para esta frase. |
| ReconocerKeyword | Indica que el resultado de voz contiene texto de palabra clave (no comprobado). Se agregó en la versión 1.3.0. |
| RecognizeKeyword | Indica que el reconocimiento de palabras clave completó el reconocimiento de la palabra clave especificada. Se agregó en la versión 1.3.0. |
| SintetizandoAudioIniciado | Indica que la síntesis de voz se ha iniciado ahora Agregada en la versión 1.4.0. |
| Traducción deParticipantSpeech | Indica que el resultado de la transcripción contiene texto de hipótesis y sus traducciones para otros participantes de la conversación. Se agregó en la versión 1.8.0. |
| DiscursoTraducido | Indica que el resultado de la transcripción contiene texto final y las traducciones correspondientes para otros participantes de la conversación. El reconocimiento de voz y la traducción ya están completos para esta frase. Se agregó en la versión 1.8.0. |
| TraducidoMensaje Instantáneo | Indica que el resultado de la transcripción contiene el mensaje instantáneo y las traducciones correspondientes. Se agregó en la versión 1.8.0. |
| TraducidoParticipanteMensaje Instantáneo | Indica que el resultado de la transcripción contiene el mensaje instantáneo para otros participantes de la conversación y las traducciones correspondientes. Se agregó en la versión 1.8.0. |
| EnrollingVoiceProfile | Esta razón resultante está obsoleta y ya no se usa. |
| EnrolledVoiceProfile | Esta razón resultante está obsoleta y ya no se usa. |
| RecognizeSpeakers | Esta razón resultante está obsoleta y ya no se usa. |
| RecognizeSpeaker | Esta razón resultante está obsoleta y ya no se usa. |
| ResetVoiceProfile | Esta razón resultante está obsoleta y ya no se usa. |
| DeletedVoiceProfile | Esta razón resultante está obsoleta y ya no se usa. |
| VoicesListRecuperado | Indica que la lista de voces se ha recuperado correctamente. Se agregó en la versión 1.16.0. |
Especifica los posibles motivos por los que se puede generar un resultado de reconocimiento.
enumeración CancellationReason
| Valores | Descripciones |
|---|---|
| Error | Indica que se produjo un error durante el reconocimiento de voz. |
| EndOfStream | Indica que se alcanzó el final de la secuencia de audio. |
| CancelledByUser | Indica que el usuario canceló la solicitud. Se agregó en la versión 1.14.0. |
Define las posibles razones por las que se puede cancelar un resultado de reconocimiento.
enumeración CancellationErrorCode
| Valores | Descripciones |
|---|---|
| NoError | No hay ningún error. Si CancellationReason es EndOfStream, CancellationErrorCode se establece en NoError. |
| AuthenticationFailure | Indica un error de autenticación. Se produce un error de autenticación si la clave de suscripción o el token de autorización no son válidos, expiran o no coinciden con la región que se está usando. |
| Solicitud incorrecta | Indica que uno o varios parámetros de reconocimiento no son válidos o no se admite el formato de audio. |
| Demasiadas Solicitudes | Indica que el número de solicitudes paralelas superó el número de transcripciones simultáneas permitidas para la suscripción. |
| Prohibido | Indica que la suscripción gratuita usada por la solicitud se quedó sin cuota. |
| ConnectionFailure (Error de conexión) | Indica un error de conexión. |
| ServiceTimeout | Indica un error de tiempo de espera al esperar la respuesta del servicio. |
| Error de servicio | Indica que el servicio devuelve un error. |
| Servicio No Disponible | Indica que el servicio no está disponible actualmente. |
| RuntimeError | Indica un error inesperado en tiempo de ejecución. |
| ServiceRedirectTemporary | Indica que el servicio de voz solicita temporalmente una reconexión a un punto de conexión diferente. |
| ServiceRedirectPermanent | Indica que el servicio de voz solicita permanentemente una reconexión a otro punto de conexión. |
| EmbeddedModelError | Indica que el modelo de voz incrustada (SR o TTS) no está disponible o dañado. |
Define el código de error en caso de que CancellationReason sea Error. Se agregó en la versión 1.1.0.
enumeración NoMatchReason
| Valores | Descripciones |
|---|---|
| No reconocido | Indica que se detectó la voz, pero no se reconoció. |
| InitialSilenceTimeout | Indica que el inicio de la secuencia de audio solo contenía silencio y el servicio agotaba el tiempo de espera en espera de voz. |
| InitialBabbleTimeout | Indica que el inicio de la secuencia de audio solo contenía ruido y el servicio agotaba el tiempo de espera en espera de voz. |
| Palabra claveNoReconocido | Indica que el servicio de comprobación de palabras clave ha rechazado la palabra clave detectada. Se agregó en la versión 1.5.0. |
| EndSilenceTimeout | Indica que la secuencia de audio solo contenía silencio después de la última frase reconocida. |
Define las posibles razones por las que es posible que no se reconozca un resultado de reconocimiento.
enum ActivityJSONTipo
| Valores | Descripciones |
|---|---|
| Nulo | |
| Objeto | |
| Arreglo | |
| Cuerda | |
| Doble | |
| UInt | |
| Int | |
| Booleano |
Define los tipos posibles para un valor json de actividad. Se agregó en la versión 1.5.0.
enumeración SpeechSynthesisOutputFormat
| Valores | Descripciones |
|---|---|
| Raw8Khz8BitMonoMULaw | raw-8khz-8bit-mono-mulaw |
| Riff16Khz16KbpsMonoSiren | riff-16khz-16kbps-mono-siren No admitido por el servicio. No use este valor. |
| Audio16Khz16KbpsMonoSiren | audio-16khz-16kbps-mono-siren No admitido por el servicio. No use este valor. |
| Audio16Khz32KBitRateMonoMp3 | Audio-16kHz-32kBitrate-Mono-MP3 |
| Audio16Khz128KBitRateMonoMp3 | Audio-16kHz-128kBitrate-Mono-MP3 |
| Audio16Khz64KBitRateMonoMp3 | Audio-16kHz-64kBitrate-Mono-MP3 |
| Audio24Khz48KBitRateMonoMp3 | Audio-24kHz-48kBitrate-Mono-MP3 |
| Audio24Khz96KBitRateMonoMp3 | audio-24kHz-96kbitrate-mono-mp3 |
| Audio24Khz160KBitRateMonoMp3 | Audio-24kHz-160kBitrate-Mono-MP3 |
| Raw16Khz16BitMonoTrueSilk | RAW-16KHZ-16bit-Mono-TrueSilk |
| Riff16Khz16BitMonoPcm | riff-16khz-16bit-mono-pcm |
| Riff8Khz16BitMonoPcm | riff-8khz-16bit-mono-pcm |
| Riff24Khz16BitMonoPcm | riff-24khz-16bit-mono-pcm |
| Riff8Khz8BitMonoMULaw | riff-8khz-8bit-mono-mulaw |
| Raw16Khz16BitMonoPcm | RAW-16KHZ-16bit-mono-PCM |
| Raw24Khz16BitMonoPcm | RAW-24kHz-16bit-mono-PCM |
| Raw8Khz16BitMonoPcm | RAW-8KHZ-16bit-mono-PCM |
| Ogg16Khz16BitMonoOpus | OGG-16KHZ-16bit-mono-opus |
| Ogg24Khz16BitMonoOpus | OGG-24KHZ-16bit-mono-opus |
| Raw48Khz16BitMonoPcm | RAW-48kHz-16bit-mono-PCM |
| Riff48Khz16BitMonoPcm | riff-48khz-16bit-mono-pcm |
| Audio48Khz96KBitRateMonoMp3 | Audio-48kHz-96kBitrate-Mono-MP3 |
| Audio48Khz192KBitRateMonoMp3 | Audio-48kHz-192kBitrate-Mono-MP3 |
| Ogg48Khz16BitMonoOpus | ogg-48khz-16bit-mono-opus Agregado en la versión 1.16.0 |
| Webm16Khz16BitMonoOpus | webm-16khz-16bit-mono-opus Agregado en la versión 1.16.0 |
| Webm24Khz16BitMonoOpus | webm-24khz-16bit-mono-opus Agregado en la versión 1.16.0 |
| Raw24Khz16BitMonoTrueSilk | raw-24khz-16bit-mono-truesilk Agregado en la versión 1.17.0 |
| Raw8Khz8BitMonoALaw | raw-8khz-8bit-mono-alaw Agregado en la versión 1.17.0 |
| Riff8Khz8BitMonoALaw | riff-8khz-8bit-mono-alaw Agregado en la versión 1.17.0 |
| Webm24Khz16Bit24KbpsMonoOpus | webm-24khz-16bit-24kbps-mono-opus Audio comprimido por el códec OPUS en un contenedor WebM, con velocidad de bits de 24 kbps, optimizada para escenarios de IoT. (Agregado en la versión 1.19.0) |
| Audio16Khz16Bit32KbpsMonoOpus | audio-16khz-16bit-32kbps-mono-opus Audio comprimido por códec OPUS sin contenedor, con velocidad de bits de 32 kbps. (Agregado en la versión 1.20.0) |
| Audio24Khz16Bit48KbpsMonoOpus | audio-24khz-16bit-48kbps-mono-opus Audio comprimido por códec OPUS sin contenedor, con velocidad de bits de 48 kbps. (Agregado en la versión 1.20.0) |
| Audio24Khz16Bit24KbpsMonoOpus | audio-24khz-16bit-24kbps-mono-opus Audio comprimido por códec OPUS sin contenedor, con velocidad de bits de 24 kbps. (Agregado en la versión 1.20.0) |
| Raw22050Hz16BitMonoPcm | raw-22050hz-16bit-mono-pcm Audio PCM sin procesar a velocidad de muestreo de 22050Hz y profundidad de 16 bits. (Agregado en la versión 1.22.0) |
| Riff22050Hz16BitMonoPcm | riff-22050hz-16bit-mono-pcm PCM audio a velocidad de muestreo de 22050Hz y profundidad de 16 bits, con encabezado RIFF. (Agregado en la versión 1.22.0) |
| Raw44100Hz16BitMonoPcm | raw-44100hz-16bit-mono-pcm Audio PCM sin procesar a velocidad de muestreo de 44100Hz y profundidad de 16 bits. (Agregado en la versión 1.22.0) |
| Riff44100Hz16BitMonoPcm | riff-44100hz-16bit-mono-pcm PCM audio a 44100Hz frecuencia de muestreo y profundidad de 16 bits, con encabezado RIFF. (Agregado en la versión 1.22.0) |
| AmrWb16000Hz | amr-wb-16000hz AMR-WB audio a 16kHz frecuencia de muestreo. (Agregado en la versión 1.24.0) |
| G72216Khz64Kbps | g722-16khz-64kbps G.722 audio a velocidad de muestreo de 16kHz y velocidad de bits de 64 kbps. (Agregado en la versión 1.38.0) |
Define los posibles formatos de audio de salida de síntesis de voz. Actualizado en la versión 1.19.0.
enumeración StreamStatus
| Valores | Descripciones |
|---|---|
| Desconocido | El estado del flujo de datos de audio es desconocido. |
| SinDatos | La secuencia de datos de audio no contiene datos. |
| Datos parciales | La secuencia de datos de audio contiene datos parciales de una solicitud de habla. |
| Todos los datos | El flujo de datos de audio contiene todos los datos de una solicitud de habla. |
| Cancelado | Se canceló la secuencia de datos de audio. |
Define el estado posible de la secuencia de datos de audio. Se agregó en la versión 1.4.0.
enumeración ServicePropertyChannel
| Valores | Descripciones |
|---|---|
| UriQueryParameter | Usa el parámetro de consulta URI para pasar la configuración de propiedades al servicio. |
| HttpHeader | Usa HttpHeader para establecer una clave/valor en un encabezado HTTP. |
Define los canales usados para pasar la configuración de propiedades al servicio. Se agregó en la versión 1.5.0.
enumeración RecognitionFactorScope
| Valores | Descripciones |
|---|---|
| FraseParcial | Un factor de reconocimiento se aplicará a las gramáticas a las que se puede hacer referencia como frases parciales individuales. |
Define el ámbito al que se aplica un factor de reconocimiento.
enumeración PronunciationAssessmentGradingSystem
| Valores | Descripciones |
|---|---|
| Cinco puntos | Calibración de cinco puntos. |
| Centenar | Cien marcas. |
Define el sistema de puntos para la calibración de la puntuación de pronunciación; el valor predeterminado es FivePoint. Se agregó en la versión 1.14.0.
enumeración PronunciationAssessmentGranularity
| Valores | Descripciones |
|---|---|
| Fonema | Muestra la puntuación en el nivel de texto completo, palabra y phoneme. |
| Palabra | Muestra la puntuación en el nivel de texto completo y palabra. |
| Texto Completo | Muestra la puntuación solo en el nivel de texto completo. |
Define la granularidad de evaluación de pronunciación; el valor predeterminado es Phoneme. Se agregó en la versión 1.14.0.
enum SíntesisVozType
| Valores | Descripciones |
|---|---|
| OnlineNeural | Voz neuronal en línea. |
| OnlineStandard | Voz estándar en línea. |
| Fuera de líneaNeural | Voz neuronal sin conexión. |
| Fuera de líneaEstándar | Voz estándar sin conexión. |
Define el tipo de voces de síntesis agregadas en la versión 1.16.0.
Síntesis de enumeraciónVozGénero
| Valores | Descripciones |
|---|---|
| Desconocido | Género desconocido. |
| Hembra | Voz femenina. |
| Masculino | Voz masculina. |
| Neutra | Voz neutra. |
Define el género de las voces de síntesis agregadas en la versión 1.17.0.
enumeración SynthesisVoiceStatus
| Valores | Descripciones |
|---|---|
| Desconocido | Estado de voz desconocido. |
| GeneralDisponibilidad | La voz está disponible con carácter general. |
| Versión preliminar | La voz está en versión preliminar. |
| En desuso | La voz está en desuso, no se usa. |
Define el estado de las voces de síntesis.
enumeración SpeechSynthesisBoundaryType
| Valores | Descripciones |
|---|---|
| Palabra | Límite de Word. |
| Puntuación | Límite de puntuación. |
| Frase | Límite de oración. |
Define el tipo de límite del evento de límite de síntesis de voz agregado en la versión 1.21.0.
Estrategia de segmentación de enumeración
| Valores | Descripciones |
|---|---|
| Predeterminado | Use la estrategia y la configuración predeterminadas según lo determinado por el servicio voz. Use en la mayoría de las situaciones. |
| Hora | Usa una estrategia basada en tiempo en la que se usa la cantidad de silencio entre la voz para determinar cuándo generar un resultado final. |
| Semántica | Usa un modelo de IA para deternificar el final de una frase hablada en función del contenido de la frase. |
Estrategia que se usa para determinar cuándo ha finalizado una frase hablada y se debe generar un resultado reconocido final. Los valores permitidos son "Default", "Time" y "Semantic".