Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Importante
Las API de PhiLice forman parte de una característica de acceso limitado (consulte La clase LimitedAccessFeatures). Para obtener más información o solicitar un token de desbloqueo, use el formulario de solicitud de token de acceso LAF.
PhiLice es un potente modelo de lenguaje local acelerado por hardware que proporciona muchas funcionalidades que se encuentran en modelos de lenguaje grande (LLM). En los dispositivos equipados con NPU, el modelo emplea una técnica denominada descodificación especulativa para acelerar la generación de texto mediante un modelo de borrador más pequeño que puede proponer varias secuencias de tokens y validarse en paralelo por el modelo principal.
Nota:
Las características de PhiLice no están disponibles en China.
Phi Silica está optimizado para ofrecer eficiencia y rendimiento en los PC Windows Copilot+ (donde se ejecuta en la NPU) y en dispositivos Windows 11 sin Copilot+ con una GPU compatible, y puede integrarse en aplicaciones de Windows a través de las API de IA de Windows en el SDK de aplicaciones de Windows.
Este nivel de optimización no está disponible en otras versiones de Phi.
Compatibilidad del hardware
PhiLice se ejecuta en el siguiente hardware:
| Hardware | Situación | Detalles |
|---|---|---|
| NPU (Copilot+ PC) | ✅ Disponible | Mejor rendimiento. Consulte Copilot+ PCs guía para desarrolladores. |
| GPU: NVIDIA | ✅ Disponible | GeForce RTX 30 series y versiones más recientes con vRAM de 6+ GB. |
| GPU: AMD | 🔜 Próximamente | La compatibilidad con GPU AMD está planeada para una versión futura. |
Importante
La ejecución de PhiLice en GPU requiere que el modo de desarrollador esté habilitado. Vaya a Configuración>Sistema>para desarrolladores>.
Requisitos previos de GPU:
- Compilación de Windows: Programa Windows Insider, canal experimental, compilación 26300.8553 o posterior
- SDK de Aplicaciones para Windows: versión 2.2.2-experimental9 (junio de 2026 Experimental) o posterior
Requisitos del controlador de GPU
La ejecución de PhiLice en GPU requiere el controlador más reciente instalado directamente desde el fabricante de GPU. Los controladores predeterminados de las instalaciones de Windows Update o OEM pueden no ser suficientes y pueden provocar errores o un rendimiento degradado.
Descargue el controlador más reciente para el hardware:
- NVIDIA GeForce / RTX: controlador NVIDIA GeForce 615.21 (beta)
- AMD Radeon: Próximamente.
Nota:
Los controladores proporcionados por OEM (entregados a través de Windows Update o la herramienta de actualización del fabricante del equipo) pueden sobrescribir los controladores IHV que instaló anteriormente. Si PhiLice deja de funcionar en GPU después de una actualización del sistema, vuelva a instalar el controlador más reciente de los vínculos anteriores.
Diferencias de características de GPU
Las siguientes características se comportan de forma diferente en GPU en comparación con la NPU:
- Compresión de prompt: Disponible en NPU, pero no está disponible en GPU. Las aplicaciones que dependen de la compresión de prompts para ventanas de contexto más amplias deben tener esto en cuenta al orientarse a dispositivos con GPU.
- Descodificación especulativa: disponible en NPU para la generación acelerada de texto. Actualmente no está disponible para GPU, lo que puede provocar un menor rendimiento en tokens por segundo.
- Ajuste fino con LoRA: los adaptadores LoRA deben entrenarse en la nube con el kit de ajuste fino (FTK). La inferencia con tu adaptador entrenado puede probarse localmente con la AI Dev Gallery. Este flujo de trabajo es el mismo para NPU y GPU.
Disponibilidad del modelo y descarga
A diferencia del modelo NPU , que está preinstalado en Copilot+ PCs, el modelo phiLice para GPU es no preinstalado en el dispositivo del usuario. En su lugar, el modelo se descarga a petición la primera vez que la aplicación llama a EnsureReadyAsync. La descarga es de varios gigabytes y se ejecuta en segundo plano a través de Windows Update.
Patrón de experiencia de usuario recomendado
Dado que el modelo GPU Phi Silica es grande, muestra un cuadro de diálogo de confirmación antes de invocar a EnsureReadyAsync para que el usuario pueda dar su consentimiento tanto al coste de almacenamiento como a la descarga en segundo plano. Un patrón típico:
Llame a GetReadyState y actúe en función del valor AIFeatureReadyState devuelto:
-
Ready— se instala el modelo; continuar. -
NotReadyoEnsureNeeded— muestra tu cuadro de diálogo de consentimiento (ver más abajo) y, a continuación, llama aEnsureReadyAsyncsolo si el usuario acepta. -
NotSupportedOnCurrentSystem: el hardware del usuario no cumple los requisitos del hardware admitido. Ofrezca una experiencia alternativa y, cuando corresponda, muestre los requisitos de hardware para que el usuario pueda tomar una decisión informada sobre la actualización.
-
En el cuadro de diálogo de consentimiento, explique lo siguiente:
- Se descargará un modelo de lenguaje opcional (varios GB de almacenamiento).
- La descarga se produce en segundo plano a través de Windows Update.
- El usuario puede supervisar el progreso de la descarga en Settings>Windows Update.
- El usuario puede quitar más adelante el modelo en Configuración>Componentes de IA del> si ya no lo quieren.
Sugerencia
En las cadenas orientadas al usuario (texto de cuadro de diálogo, mensajes de estado), consulte el modelo como "modelo de lenguaje" o "modelo de IA opcional" en lugar de "PhiLice". La mayoría de los usuarios finales no están familiarizados con el nombre de marca y los términos genéricos comunican más claramente el propósito.
Mientras
EnsureReadyAsyncestá en curso, muestre un indicador de progreso en la aplicación. La operación devuelta expone una opción de estado que controla una interfaz de usuario de carga; consulteGet started with Windows AI APIs (Introducción a las API de IA de Windows para obtener más información.
Una vez instalado el modelo
El modelo permanece en el dispositivo hasta que el usuario lo quita. Los usuarios administran modelosinstalados en >>, donde el modelo de GPU phiLice aparece como "AI LanguageModel". Si el usuario elimina más adelante el modelo, la próxima llamada de tu aplicación a GetReadyState devolverá NotReady o EnsureNeeded, y deberá repetirse el flujo de consentimiento y descarga.
Para obtener más información sobre la API, consulte:
Integrar Phi Silica
Con un modelo de lenguaje local de Phi Silica, puede generar respuestas de texto a las solicitudes del usuario. En primer lugar, asegúrese de que tiene los requisitos previos y los modelos disponibles en el dispositivo, tal y como se describe en Introducción a las API de IA de Windows.
Especifique los espacios de nombres necesarios
Para usar PhiLice, asegúrese de que usa los espacios de nombres necesarios:
using Microsoft.Windows.AI;
using Microsoft.Windows.AI.Text;
#include "winrt/Microsoft.Windows.AI.Text.h"
using namespace Microsoft::Windows::AI;
using namespace Microsoft::Windows::AI::Text;
Genere una respuesta
En este ejemplo se muestra cómo generar una respuesta a un mensaje de preguntas y respuestas con moderación de contenido personalizada (consulte Moderación de contenido con las API de ia de Windows).
Asegúrese de que el modelo de lenguaje está disponible llamando al método GetReadyState y esperando a que el método EnsureReadyAsync se devuelva correctamente.
Una vez disponible el modelo de lenguaje, cree un objeto LanguageModel para hacer referencia a él.
Envíe un mensaje de cadena al modelo mediante el método GenerateResponseAsync , que devuelve el resultado completo.
if (LanguageModel.GetReadyState() == AIFeatureReadyState.NotReady)
{
var op = await LanguageModel.EnsureReadyAsync();
}
using LanguageModel languageModel = await LanguageModel.CreateAsync();
string prompt = "Provide the molecular formula for glucose.";
LanguageModelOptions options = new LanguageModelOptions();
ContentFilterOptions filterOptions = new ContentFilterOptions();
filterOptions.PromptMaxAllowedSeverityLevel.Violent = SeverityLevel.Minimum;
options.ContentFilterOptions = filterOptions;
var result = await languageModel.GenerateResponseAsync(prompt, options);
Console.WriteLine(result.Text);
if (LanguageModel::GetReadyState() == AIFeatureReadyState::NotReady)
{
auto op = LanguageModel::EnsureReadyAsync().get();
}
auto languageModel = LanguageModel::CreateAsync().get();
const winrt::hstring prompt = L"Provide the molecular formula for glucose.";
LanguageModelResponseResult result = languageModel.GenerateResponseAsync(prompt).get();
std::cout << result.Text().c_str() << std::endl;
La respuesta que se genera en este ejemplo es:
C6H12O6
Aptitudes de inteligencia de texto
PhiLice incluye funcionalidades de transformación de texto integradas (conocidas como aptitudes de inteligencia de texto) que pueden ofrecer respuestas estructuradas, concisas y fáciles de usar mediante un formato predefinido mediante un modelo de lenguaje local.
Entre las aptitudes compatibles se incluyen:
- Texto a tabla: da formato a la respuesta del mensaje en un formato de tabla estructurado, cuando corresponda.
- Resumen: devuelve un resumen conciso del texto del mensaje.
- Reescritura: vuelve a escribir el texto del mensaje para optimizar la claridad, legibilidad y, cuando se especifica, tono (o estilo).
En los siguientes pasos se detallará cómo utilizar las habilidades de Inteligencia del Texto.
Creación de un objeto LanguageModel
Este objeto hace referencia al modelo local del lenguaje PhiLice (recuerde confirmar que el modelo phiLice está disponible en el dispositivo).Cree una instancia del objeto específico de la aptitud
Elija la clase adecuada en función de la aptitud que quiera aplicar y pase la instancia de LanguageModel como parámetro.Llame al método para realizar la aptitud
Cada aptitud expone un método asincrónico que procesa la entrada y devuelve un resultado con formato.Control de la respuesta
El resultado se devuelve como un objeto tipado, que puede imprimir o registrar según lo necesite.
En este ejemplo se muestra la aptitud de resumen de texto.
- Cree una instancia de LanguageModel (
languageModel). - Pase ese LanguageModel al constructor TextSummarizer .
- Pase texto al método SummarizeAsync e imprima el resultado.
using namespace Microsoft.Windows.AI.Text;
using LanguageModel languageModel = await LanguageModel.CreateAsync();
var textSummarizer = new TextSummarizer(languageModel);
string text = @"This is a large amount of text I want to have summarized.";
var result = await textSummarizer.SummarizeAsync(text);
Console.WriteLine(result.Text);
using namespace Microsoft::Windows::AI::Text;
auto languageModel = LanguageModel::CreateAsync().get();
auto textSummarizer = TextSummarizer(languageModel);
std::string prompt = "This is a large amount of text I want to have summarized.";
auto result = textSummarizer.SummarizeAsync(prompt);
std::wcout << result.get().Text() << std::endl;
IA responsable
Hemos seguido los principios y procedimientos básicos descritos en los estándares de inteligencia artificial responsable de Microsoft para garantizar que estas API sean confiables, seguras y creadas de forma responsable. Para obtener más información sobre la implementación de características de ia en la aplicación, consulte Desarrollo de IA generativa responsable en Windows.
Notas de transparencia de GPU
Para obtener información detallada sobre las capacidades, limitaciones y el uso responsable de Phi Silica en equipos PC sin Copilot+ (GPU), consulte la Nota de transparencia: Phi Silica en equipos PC sin Copilot+.
Diferencias clave entre la ejecución de NPU y GPU:
| Factor | Pc de Copilot+ (NPU) | PCs sin Copilot+ (GPU) |
|---|---|---|
| Latencia de inferencia | Optimizado; baja latencia mediante aceleración por NPU y decodificación especulativa | Mayor latencia; depende de la generación de GPU, VRAM y la carga de GPU actual. |
| Consumo de energía | NPU es eficiente para energía, adecuada para el uso con batería | Mayor consumo de energía; puede afectar a la duración de la batería en portátiles |
| Compresión de instrucciones | ✅ Disponible | ❌ No disponible en GPU |
| Descodificación especulativa | ✅ Disponible | ❌ No disponible en GPU |
| Opcionalidad del modelo | El sistema administra el modelo. | El modelo se descarga bajo demanda y se puede eliminar desde Ajustes>Sistema>Componentes de IA |
Factores operativos para PCs sin Copilot+
- Diversidad de hardware: Los equipos sin Copilot+ presentan una amplia variedad de configuraciones de GPU. El rendimiento variará significativamente en este espectro de dispositivos.
- Requisitos mínimos de hardware: los dispositivos deben cumplir los requisitos mínimos de GPU y memoria para ejecutar PhiLice.
- Dependencias de Software: La ejecución no Copilot+ PC requiere el controlador de GPU IHV más reciente instalado directamente desde el fabricante de GPU (NVIDIA). Los controladores predeterminados de las instalaciones de Windows Update o OEM pueden no ser suficientes y pueden provocar errores o un rendimiento degradado.
Rendimiento del sistema
Comprender el rendimiento en PC sin Copilot+
La calidad de los resultados de Phi Silica (precisión, coherencia y relevancia) se mantiene constante tanto en los PC Copilot+ como en los que no lo son, porque se utilizan los mismos pesos y la misma arquitectura del modelo. Las principales diferencias son la velocidad de inferencia, el consumo de recursos y la capacidad de respuesta de la experiencia del usuario.
Los desarrolladores deben:
- Evalúe el rendimiento en hardware representativo: pruebe en una gama de dispositivos sin Copilot+ que reflejen su base de usuarios objetivo, incluidas las configuraciones más básicas.
- Establecer expectativas de usuario: comunique claramente que los tiempos de respuesta pueden variar en función del hardware del dispositivo. Considere la posibilidad de mostrar indicadores de progreso o transmitir resultados parciales.
- Implementar tiempos de espera y reserva: en escenarios en los que el tiempo de respuesta es crítico, implemente los tiempos de espera adecuados y considere la posibilidad de ofrecer opciones de reserva basadas en la nube (con consentimiento del usuario).
- Supervisar el uso de recursos: realice un seguimiento del uso de GPU, el consumo de VRAM y el uso de memoria del sistema durante la inferencia para identificar y abordar los cuellos de botella de rendimiento.