Microsoft ha dado un paso significativo en el campo de la tecnología al anunciar una nueva funcionalidad multimodal para su modelo de lenguaje, Phi Silica. Esta innovación está diseñada para potenciar la accesibilidad y la productividad en dispositivos como Copilot+, equipados con procesadores Snapdragon, y en futuros modelos de Intel y AMD. La característica más destacada de esta actualización es su capacidad de comprensión visual, lo que permite al modelo no solo procesar texto sino también interpretar imágenes. Esto es un avance importante para las tecnologías de asistencia, como los lectores de pantalla, ya que pueden ofrecer descripciones de imágenes para personas con discapacidades visuales.

La actualización implementa un enfoque eficiente, que elimina la necesidad de un modelo de visión dedicado. Esto es vital para optimizar los recursos del sistema, tales como el espacio en disco y la memoria. En lugar de desarrollar desde cero un nuevo modelo, Microsoft ha optado por integrar la funcionalidad con componentes existentes, añadiendo un pequeño modelo proyector de 80 millones de parámetros. Gracias a esto, el sistema mantendrá su rendimiento sin comprometer la funcionalidad de los modelos ya implementados.

La nueva funcionalidad de Phi Silica no solo ofrece descripciones de imágenes más precisas sino que también las presenta en menos tiempo. Los usuarios pueden obtener descripciones breves en unos cuatro segundos y más detalladas en alrededor de siete segundos. Esto se consigue mediante el procesamiento local de imágenes, lo que reduce la dependencia de modelos basados en la nube y aumenta la velocidad.

Para asegurar la eficacia de esta innovación, Microsoft ha comparado la calidad de las descripciones generadas por Phi Silica con otros modelos de referencia, como Florence. Los resultados han sido positivos, demostrando que Phi Silica genera descripciones más exactas y detalladas, extendiendo así su utilidad para los usuarios que dependen de este tipo de herramientas.

A medida que la nueva funcionalidad se despliega, Microsoft planea incluir más idiomas, ampliando la accesibilidad de esta tecnología para una audiencia global. Este desarrollo subraya el compromiso continuo de la compañía por hacer la tecnología más inclusiva y accesible, especialmente para aquellos usuarios que se enfrentan a desafíos al interactuar con herramientas digitales.

Lo último