Google Gemini: ¿Qué es y cómo se usa?

Google Gemini

Google está centrando toda su apuesta en su IA denominada Gemini, misma que reemplaza completamente al anterior proyecto denominado Bard. Esta se pone a la vanguardia y tratará de competir con otras plataformas de inteligencia artificial como ChatGTP 4 y LuzIA, entre otros. Su versión gratuita también está disponible en español y puedes acceder a través del siguiente link.

Cuando se anunció Gemini en diciembre de 2023, Google habló de tres versiones diferentes, clasificadas de menos a más potentes.

  • La primera es Gemini Nano, un modelo más eficiente energéticamente y pensado para procesar tareas de manera local en dispositivos personales como smartphones.
  • Gemini Pro, por su parte, depende de la nube y, por lo tanto, de una conexión a internet. Este permite ir mucho más allá con nuestras peticiones.
  • Y, por último, se anunció Gemini Ultra, el modelo más completo y pensado para las tareas más complejas. Con un tamaño de 1.6 billones de parámetros entrenado mediante un conjunto de datos masivos de texto, imágenes, audio y video La versión 1.0 de este modelo, precisamente, es la que ahora subyace bajo Gemini Advanced.

Sobre las tareas que puede cumplir dentro de ellas figuran comprensión y razonamiento sobre datos, multimodal question answering, generación de contenido con imágenes, comprensión y razonamiento sobre imágenes, razonamiento geométrico, búsqueda de información sobre objetos, comprensión del humor multimodal, razonamiento de sentido común en un entorno multilingüe, generación de código, matemáticas, así como comprensión y razonamiento de video.

Lo que destaca en este modelo es que se basa en una arquitectura de red neuronal de última generación con la capacidad de comprender de una mejor manera el contexto de las preguntas y solicitudes que reciba, con razonamientos más complejos para arrojar respuestas más precisas y relevantes, además de que su nombre proviene de una inspiración mitológica y un juego de palabras relacionadas con todas las capacidades con las que está dotada.

Según Google, Gemini Advanced “es mucho más capaz de realizar tareas altamente complejas como generar código, razonamiento lógico, seguir instrucciones y colaborar en proyectos creativos”. También, según explican, “permite tener conversaciones más largas y detalladas”, además de comprender mejor el contexto de las indicaciones anteriores.

En la práctica, esto significa que puedes usar Gemini Advanced a modo de tutor personal para que te brinde instrucciones paso a paso, ejemplos de baterías de preguntas y contenido más completo. También puedes recurrir a él para abordar escenarios de programación complejos. O, si eres creador digital, utilizarlo para generar contenido nuevo de una forma más rápida, analizar tendencias o generar nuevas ideas, como Google explica en su web.

Gemini Advanced está limitada a los usuarios que se suscriban a un precio de U$D 19,99 al mes, con un periodo de prueba gratuito de dos meses y comenzará a estar disponible en dispositivos seleccionados en inglés en Estados Unidos, para posteriormente estar disponible en japonés, inglés y coreano. En el caso de México, Google aún no ha fijado una fecha determinada para el lanzamiento de la app, pero lo que se sabe hasta el momento es que funciona en Bard, pues le sirve como motor para impulsar sus capacidades, tanto en sistemas operativos Android como iOS mediante una interfaz intuitiva.

C.

OpenAI despide a Sam Altman, director ejecutivo de la empresa

OpenAI Sam Altman

OpenAI despidió a su director ejecutivo y cofundador, Sam Altman. La empresa de inteligencia artificial anunció un cambio de dirección en donde que Altman dejará su cargo como CEO con efecto inmediato. Mira Murati, directora de tecnología de la compañía, tomará el puesto de forma interina.

“La junta directiva de OpenAI, Inc. que actúa como órgano rector general de todas las actividades de OpenAI, anunció hoy que Sam Altman dejará el cargo de director ejecutivo y dejará la junta directiva”, indicó la empresa en una publicación de su blog.

Por otro lado, OpenAI dio el voto de confianza a Mira Murati, quien se ha desempeñado como directora de tecnología y es responsable de ChatGPT. “Mira aporta un conjunto de habilidades único, comprensión de los valores, operaciones y negocios de la empresa, y ya dirige las funciones de investigación, productos y seguridad”, mencionó.

La compañía señaló que su misión es garantizar que la inteligencia artificial general (AGI) beneficie a toda la humanidad y considera que es necesario un cambio de liderazgo. La salida de Sam Altman se da a escasos días de liderar su primera conferencia para desarrolladores DevDay, en donde presentó GPT-4 Turbo y los GPTs. En ese evento, Altman reveló que ChatGPT ya contaba con 100 millones de usuarios semanales.

De acuerdo con el comunicado oficial, OpenAI despidió a Sam Altman debido a que no confía más en él. Tras realizar un proceso de revisión, descubrió que no fue sincero en sus comunicaciones con la junta directiva. La empresa no menciona incidentes específicos, aunque ofrece algunas pistas sobre la salida de su cofundador.

El comunicado indica que OpenAI se fundó con la misión principal de garantizar que la inteligencia artificial general beneficie a la humanidad. La compañía sufrió una reestructuración con el fin de garantizar la entrada de capital para volverse rentable y alcanzar su objetivo. La inversión multimillonaria de Microsoft a inicios de 2023 representó un hito, sin embargo, no fue suficiente.

OpenAI hace hincapié en conceptos como investigación, desarrollo de productos y seguridad como eje de su estrategia para avanzar. Debido a que Sam Altman ya no es sujeto de confianza, la más calificada para liderar durante este proceso de transición es Mia Murati, directora de tecnología.

La junta directiva declaró que Murati está “excepcionalmente calificada para el puesto”, aunque solo será temporal. OpenAI confirmó que su CTO fungirá como interina mientras llevan a cabo una búsqueda formal de un director ejecutivo permanente.

Sam Altman no será el único afectado en la reestructuración. OpenAI confirmó que Greg Brockman dejará su cargo como presidente de la junta directiva, aunque conservará su puesto en la empresa.

OpenAI se fundó como una organización sin fines de lucro en 2015, cuando Sam Altman y Elon Musk se comprometieron a hacer avanzar la tecnología en beneficio de la humanidad. Las cosas cambiaron en 2019, cuando Microsoft invirtió U$D1, 000 millones y anunció una asociación exclusiva de varios años. Musk renunció a la junta directiva de OpenAI en 2018 citando posibles conflictos de intereses con Tesla.

Actualmente, OpenAI está dividida en dos entidades: OpenAI Incorporated y OpenAI LP. La primera es la organización sin fines de lucro fundada en 2015, mientras que la segunda es una subsidiaria con ganancias limitadas establecida en 2019 tras la salida de Elon Musk. Tras la inversión de U$D 10,000 millones, Microsoft es dueña del 49 % de OpenAI LP.

C.

Olympus: La inteligencia artificial de Amazon que competirá con OpenAI

Amazon Olympus

Olympus. Así se llama el gran modelo de lenguaje (LLM) en el que están trabajando en Amazon, y que según Reuters, que cita a fuentes cercanas al proyecto, tiene como objetivo rivalizar con los mejores modelos de OpenAI o de Alphabet. El desarrollo de este nuevo modelo está a cargo de Rohit Prasad, jefe de la división de inteligencia artificial en Amazon. Las fuentes aseguran que Olympus impulsaría servicios como Alexa, los altavoces Echo y su unidad Amazon Web Services (AWS). La tecnológica podría anunciarlo en diciembre y estaría disponible para sus clientes empresariales.

Olympus tendría 2 billones de parámetros, el doble de GPT-4, lo que lo convertiría en uno de los modelos más grandes que se han entrenado. Actualmente, Amazon ofrece una familia de modelos fundacionales conocidos como Titan a través de su plataforma Bedrock. Titan permite desarrollar aplicaciones basadas en texto — como ChatGPT —, o con funciones de búsqueda semántica. Este último está disponible para los clientes de Amazon Web Services, quienes pueden mejorar la precisión de la búsqueda y las recomendaciones personalizadas.

De acuerdo con The Information,, Olympus sería más poderoso que Titan y colocaría a Amazon en un lugar competitivo dentro de la carrera de la inteligencia artificial. La empresa lleva más de un año trabajando en modelos de lenguaje, aunque no ha conseguido desarrollar uno que pueda hacer frente a OpenAI.

Un reporte anterior menciona que Amazon estuvo a punto de adelantarse a ChatGPT. Dos días antes de que el chatbot tomara por asalto el mundo, la empresa tuvo una oportunidad para pegar primero con Bedrock. Desafortunadamente, los ejecutivos de AWS pospusieron la presentación en el último minuto debido a problemas técnicos.

La estrategia de Amazon para competir con OpenAI y otras empresas de inteligencia artificial está por iniciar una nueva fase. No hay una fecha definida de lanzamiento de Olympus, pero según fuentes cercanas al proyecto la empresa cree que tener modelos de IA propios hará que su oferta en AWS (Amazon Web Services) sea más atractiva para clientes empresariales que quieran acceder a los modelos más potentes.

Hace unas semanas, Amazon presentó una nueva versión de su asistente inteligente durante su evento de hardware y servicios. Alexa abrazará un modelo de lenguaje hecho a medida que le permitirá entablar conversaciones y ofrecer información en tiempo real.

De acuerdo con la compañía, Alexa ofrecerá respuestas fluidas en menos tiempo y con una modulación del tono según el contexto. En algunos dispositivos con pantalla, la asistente podrá comenzar una conversación sin que la invoques. Amazon mencionó que esta es la mayor integración de un modelo LLM en servicios de tiempo real y un conjunto de dispositivos.

Sumado a Alexa y los altavoces Echo, Olympus tendrá presencia en las experiencias de su tienda en línea. Amazon ya cuenta con una herramienta que modifica imágenes de productos para hacerlas más atractivas y generar más ventas. La compañía también podría utilizar su modelo para combatir las reseñas falsas, uno de sus problemas más grandes.

C.

¿Qué Es Claude 2? – Todo Lo Que Necesitas Saber

Novedades de Claude 2

Claude 2 es un nuevo modelo de IA de lenguaje natural desarrollado y anunciado por Anthropic, una empresa fundada por Dario Amodei, antiguo empleado de OpenAI. Está diseñado para tener una mayor capacidad de entrada y salida y un rendimiento mejorado en comparación con su predecesor. Además, este nuevo modelo lingüístico genera una salida más segura y dispuesto a competir GPT-4 de OpenAI y el PaLM 2 de Google.

Claude 2 utiliza los parámetros para generar la salida y predecir la siguiente palabra. Gracias a sus datos entrenados, entiende las entradas de los usuarios y genera una respuesta de acuerdo con las indicaciones dadas. Además, Claude 2 utiliza la tecnología de Procesamiento del Lenguaje Natural (NLP) para comprender los significados que hay detrás de las frases y generar una salida adecuada a la información lingüística del usuario.

Como es un gran modelo lingüístico, puedes obtener cualquier tipo de salida basada en texto proporcionándole indicaciones. Por ejemplo, si necesitas palabras clave, descripciones de productos o preguntas frecuentes para tu comercio electrónico, puedes utilizar la herramienta

Si necesitas responder a cientos de correos electrónicos cada día, puedes utilizar Claude 2 para obtener el correo electrónico templates y completar tareas que normalmente te llevarían 8 horas en sólo 3 horas.

Además, permitirte generar código en lenguajes de programación populares, gracias a sus avanzadas habilidades de codificación. Gracias a sus avanzadas habilidades matemáticas, de razonamiento y de codificación, puede comprender mejor las entradas de los usuarios y generar código según las instrucciones.

Aquí te dejo los principales beneficios de usar Claude 2:

  1. Es Gratuita: Mientras que GPT-4 cobra 20 dólares mensuales por su versión Plus, Claude 2 ofrece su servicio de manera gratuita, facilitando a un público más amplio experimentar con inteligencia artificial de alta calidad.
  2. Interacción Avanzada con Archivos: Más allá de la simple interacción con archivos básicos como Excel, PDF y TXT, la herramienta te permite manejar hasta 75,000 palabras, es decir, alrededor de 100,000 tokens Así, puedes cargar informes completos y obtener análisis detallados sin problema alguno.
  3. Procesamiento de Textos Extensos: Claude es capaz de procesar y comprender textos extensos con una eficiencia envidiable. No estamos hablando solo de artículos, sino de libros enteros, algo que amplía enormemente las aplicaciones potenciales de esta herramienta.
  4. Conversaciones Continuas: La naturalidad en una conversación es crucial. Aquí, Claude 2 puede recortar hasta 75,000 palabras de contexto en una conversación, garantizando diálogos más largos, fluidos y que realmente sientan como una interacción humana.
  5. Velocidad de Escritura: Claude 2 destaca al producir cerca de 100 caracteres por segundo. Esta eficiencia se traduce en respuestas rápidas y generación de contenido en tiempo real.
  6. Actualización de Datos; Mientras que GPT-4 tiene información hasta 2021, Claude 2 se mantiene al día con datos hasta 2023 En un mundo que cambia rápidamente, tener acceso a la información más reciente puede ser vital.
  7. Plantillas de PromptsLas plantillas de prompts son una herramienta esencial. Ayudan a dirigir y optimizar la generación de contenido.

Para utilizar Claude 2, todo lo que tienes que hacer es dirigirte a su sitio web oficial y crear una cuenta. Por ahora, sólo está disponible en el Reino Unido y Estados Unidos. Sin embargo, el equipo de desarrolladores de Anthropic está trabajando para que esté disponible en otras regiones.

C.

OpenAI compra Global Illumination para potenciar su participación en la IA

OpenAI

OpenAI anunció la adquisición de Global Illumination, una startup con sede en Nueva York dedicada al desarrollo de infraestructura, herramientas creativas y experiencias digitales basadas en inteligencia artificial (IA). Sin dar a conocer los detalles financieros alrededor del acuerdo, la compañía dirigida por Sam Altman afirmó que el equipo de la empresa neoyorkina se unirá a sus filas para nutrir sus principales productos, incluido ChatGPT.

Global Illumination es una empresa fundada en 2021 por Thomas Dimson, Taylor Gordon y Joey Flynn, excolaboradores de Instagram. Los cofundadores han participado en proyectos relacionados con Facebook, YouTube, Google, Pixar y Riot Games. La trayectoria de Dimson destaca por haber ocupado una posición decisiva en el entrenamiento de los algoritmos de descubrimiento de Instagram.

“Estamos muy emocionados por el impacto que tendrán [Global Illumination] aquí en OpenAI. Todo el equipo se ha unido para trabajar en nuestros productos principales, incluido ChatGPT”, dijo la empresa en un comunicado publicado en su blog oficial.

OpenAI nació como una organización sin fines de lucro en 2015. Tres años más tarde perdió dicha condición cuando impuso una política que prometió que cada socio podría recuperar su inversión multiplicada hasta por 100. Con la compra de Global Illumination las intenciones de la empresa por convertirse en un negocio son claras y necesarias.

La empresa comenzó a establecer un modelo de negocio a través del lanzamiento de ChatGPT Plus y una API de pago para su bot con la intención de recuperar los más de 540 millones de dólares que invirtió el año pasado para desarrollar su popular chatbot, según cifras de The Information. Aunque las soluciones de pago de OpenAI incrementaron los ingresos de la empresa, también aceleraron el ritmo de gastos destinados a optimizar los productos y la infraestructura que los respalda.

Así, OpenAI consiguió ingresos por 300 millones de dólares el año pasado. Según su CEO, la intención es incrementar la cifra a 200 millones al cierre de este año y conseguir 1,000 millones en 2024. La compra de Global Illumination es clave para cumplir la meta.

Con la compra, además de la infraestructura y el talento humano que garantiza la empresa cofundada por Dimson, OpenAI gana un activo interesante que puede expandir el uso de sus modelos de lenguaje IA al servicio del entretenimiento, un rubro hasta ahora no considerado por la empresa.

Biomes, es un un juego multiplayer en línea de código abierto (MMORPG, por sus siglas en inglés) creado por Global Illumination que emula las cualidades de Minecraft. Enfocado solo al terreno web, el producto tiene las características necesarias para expandir el negocio de OpenAI a un nuevo mercado.

La presión para OpenAI crece al mismo ritmo que la competencia dentro del segmento de ChatGPT. Lejos de Bard de Google o Bing IA de Microsoft, ChatGPT ahora rivaliza con un sin fin de desarrollos basados en código abierto. Con Llama2, Meta se perfila como el gran competidor a vencer.

La popularidad del chatbot de OpenAI abrió una nuevo terreno de competencia ahora minado por miles de desarrollos con capacidades similares que, gracias a modelos de lenguaje open source, proponen menos inversiones y ganancias más elevadas a corto plazo.

C.

Microsoft anuncia grandes novedades a través de Bing Chat

Bing Microsoft

Tras el lanzamiento de la inteligencia artificial de Bing en febrero de este 2023, Microsoft ha apostado por esta tecnología. A partir del día de ayer, Bing Chat pasará de una vista previa limitada a una vista previa abierta, lo que significa que todos pueden acceder al chatbot sin necesidad de unirse a una lista de espera. Todo lo que se necesita hacer ahora para acceder es iniciar sesión en Bing con la cuenta de Microsoft y ya está todo listo.

Una de las actualizaciones más importantes que Microsoft es la búsqueda multimodal. Además de las consultas basadas en texto, el nuevo chatbot Bing aceptará imágenes que se peguen en la interfaz o que se arrastren y suelten desde el escritorio o la carpeta. Además si se le hace una pregunta al chatbot y se puede responder mejor con un elemento visual, como un gráfico o tabla, este así lo hará.

A esto hay que sumar que una de las características más importantes del modelo de aprendizaje de idiomas GPT-4 de OpenAI es que los usuarios también podrán generar imágenes de IA a partir de texto en su idioma nativo.

Otras actualizaciones incluyen la capacidad de guardar todas las sesiones de chat anteriores de Bing, a las que puedes acceder fácilmente en un panel de la ventana de la barra lateral, como en ChatGPT

También hay algunas integraciones en Bing como un mensaje “organizar mis pestañas” que agrupa las pestañas por temas y el chat también puede ayudar a encontrar funciones ocultas de Edge, como la capacidad de importar contraseñas desde otro navegador.

Por último y de nuevo de manera similar a ChatGPT, Microsoft está trabajando en la creación de complementos de terceros en la experiencia de chat.

Dos ejemplos proporcionados por Microsoft fueron un complemento Wolfram Alpha que permitiría que se realizaran gráficos y cálculos matemáticos avanzados en Bing Chat y un complemento Open Table que le daría al chatbot la capacidad de hacer reservas por el usuario

Con todo esto, Microsoft busca llevar la experiencia con Bing a otro nivel y dar el golpe definitivo sobre la mesa para que esta herramienta adquiera todo el potencial de GPT-4 y realmente muestre el potencial de la inteligencia artificial generativa del siglo XXI

C.

Meta busca acercarse más a la Inteligencia Artificial

Meta summit

El pasado 25 de abril se celebró Meta Summit, el evento donde la compañía de tecnología y social media dio a conocer su estrategia de negocio en México para los próximos meses de este 2023. Así, la empresa logró reunir a más de 300 marcas y agencias de publicidad, con quienes discutió las futuras tendencias del marketing digital, la importancia del uso de ciertas herramientas en campañas, y el auge de contenidos en videos corto La compañía dio a conocer nuevas soluciones para ofrecer nuevas experiencias a sus usuarios mexicanos, la mayoría de ellas siendo impulsadas por la Inteligencia Artificial.

Como primera implementación en el mercado mexicano, la tecnológica anunció Meta Advantage, un paquete que ofrecerá soluciones impulsadas por la Inteligencia Artificial. A través de estas herramientas, los especialistas del marketing podrán mejorar el rendimiento de sus campañas digitales, incrementando hasta en un 32% sus retornos de inversión. Entre algunas de las ventajas que ofrecerá el paquete, sobresale el generar hasta 150 combinaciones de anuncios para optimizar aquellos que generen mayor interacción, así como generar catálogos de productos según los intereses del consumidor, haciéndolos más atractivos de forma visual.

Por muchos años hemos usado la Inteligencia Artificial y el aprendizaje automático para mostrar a las personas el mejor contenido, mejorar nuestros productos y habilitar nuevas experiencias. Actualmente, ninguna otra plataforma conecta mejor los puntos entre el descubrimiento y la transacción como nosotros“, comentó Marco Casarin, Director General de Meta para México.

Además de dar a conocer lo relevante que resulta la Inteligencia Artificial para su desarrollo estratégico, Meta compartió con los asistentes otro pilar fundamental: el uso de videos cortos. Según información proporcionada por la empresa estadounidense, tan solo en el 2022, se registraron 140 mil millones de reproducciones en Reels (por día) desde Instagram y Facebook, siendo México uno de los países donde se genera más contenido en este formato.

En ese sentido, reforzaron la importancia de herramientas similares en social media, pues hacer uso de Reels se ha convertido en una técnica que no solo facilita el reconocimiento y visibilidad de las marcas, sino que también logra generar conexiones con los usuarios. Actualmente, según la empresa, 40% de los anunciantes ya utilizan la herramienta para publicitar sus productos y servicios.

Por otro lado, un punto importante abordado en el evento fue el comercio conversacional, el cual se ha perfilado como una gran oportunidad de interacción entre marcas y usuarios. Para reforzar la importancia que tienen los canales conversacionales para la compañía, Nikila Srinivasan, Vicepresidenta de Producto de Mensajería de Negocios en Meta, pronunció lo siguiente: “El uso de aplicaciones de mensajería para conectarse con los clientes es una de las formas más efectivas de pasar del descubrimiento de productos y marcas a la transacción. Alrededor de mil millones de personas a la semana se comunican con una empresa en WhatsApp, Messenger e Instagram y en México 66% de internautas se comunican con una cuenta comercial o de servicio a través de mensajería por lo menos una vez a la semana.”

La compañía, liderada y creada por Mark Zuckerberg, ha presentado recientemente distintas innovaciones, siendo una de ellas la extensión de la duración de Reels en Facebook, la cual ahora es de 90 segundos; o más recientemente la creación de Barcelona, la plataforma que planea competir con Twitter.

De este modo, eventos como el Meta Summit continuarán fungiendo como parte fundamental para compartir con los usuarios y las marcas de México (y el mundo) las nuevas incorporaciones que tomarán lugar en nuestros dispositivos a lo largo del actual 2023.

C.

Google DeepMind, la respuesta de Google para posicionarse en la IA

Google DeepMind

Google, de Alphabet Inc., ha consolidado sus grupos de investigación de Inteligencia Artificial (IA) en una sola unidad. El cambio une al equipo Brain de Google Research y DeepMind de Alphabet en un solo equipo y busca “combinar todo este talento en un equipo enfocado, respaldado por los recursos computacionales de Google, acelerará significativamente nuestro progreso en IA”, de acuerdo al director ejecutivo, Sundar Pichai. Demis Hassabis liderará el grupo como CEO de DeepMind.

DeepMind de Alphabet, con sede en Londres, ha sido conocida durante mucho tiempo como la unidad de la empresa matriz de Google que introdujo regularmente avances en inteligencia artificial, incluido su trabajo en AlphaFold, la tecnología que puede predecir la forma de las proteínas, así como AlphaGo, el software que aprendió por sí mismo a jugar el juego de estrategia Go mejor que cualquier humano en la tierra. Internamente, la unidad generalmente se ha visto como un grupo que trabaja en conceptos de inteligencia artificial que pueden no tener aplicaciones directas en los productos de Google.

Mientras tanto, Google Research fue responsable de la tecnología de “transformadores”, componentes clave para grandes modelos linguisticos. Esa tecnología impulsa la cosecha actual de chatbots, incluidos Bard de Google y ChatGPT de OpenAI Inc.

Ahora, la reorganización de Google parece consolidar ese trabajo de investigación bajo un mismo paraguas, Google DeepMind, lo que indica una integración más estrecha con el resto de Alphabet. Durante el reporte de resultados del cuarto trimestre de Alphabet en febrero, la compañía anunció que, a partir de este año, DeepMind se incluiría en los costos corporativos de Alphabet para reflejar cómo se está incorporando la tecnología a otros negocios, y no en la categoría de “Otras apuestas”, que tiene un impacto menos inmediato, dijo Alphabet.

James Manyika, vicepresidente sénior de tecnología y sociedad de Google, asumirá el cargo de director de Google Research. La unidad está destinada a continuar su trabajo en áreas como privacidad y seguridad, computación cuántica, salud, clima e inteligencia artificial responsable. Manyika también amplió su alcance cuando el ejecutivo de Google Clay Bavor, dejó la compañía asumiendo la responsabilidad de los proyectos de tecnología emergente que había supervisado anteriormente.

Google DeepMind quiere reunir al talento mundial que existe en relación a la IA con toda la infraestructura y recursos que se disponen para “crear la próxima generación de avances y productos de IA en Google y Alphabet”. Y es que algo que tiene Google sin duda son recursos económicos para poder avanzar en los grandes retos que enfrenta este tipo de tecnología y las limitaciones que se encuentran en la actualidad.

En la nota de Google, el CEO Sundar Pichai, ha querido ir un poco más allá afirmando que el primer proyecto en el que estará involucrado este equipo son los modelos de IA multimodales (y que también son los más poderosos). Pero no ha detallado los productos de Google donde se terminarán aplicando, salvo el recordatorio que tanto en YouTube como en la propia cámara de los Google Pixel se encuentra este tipo de tecnología.

C.

Meta presenta SAM: una IA que potencia el desarrollo de la visión artificial

Demo de SAM presentada por META

Meta presentó hoy un modelo de Inteligencia Artificial (IA) que puede seleccionar elementos individuales dentro de una imagen. Le llamaron SAM: Segment Anything Model. Sus desarrolladores explicaron que con el sistema pretenden democratizar un aspecto clave de la visión artificial.

Esta nueva IA logra lo que se conoce como “segmentación”, que es la capacidad de identificar qué píxeles de una imagen pertenecen a un objeto específico. SAM funciona de forma muy sencilla: solo hay que hacer clic en el elemento que se quiere seleccionar o escribir su nombre. En una demostración, al apuntar la palabra “gato”, la herramienta dibujó cuadros alrededor de varios gatos que aparecían en una foto.

El lanzamiento de SAM vino acompañado de la presentación de SA-1B (Segment Anything 1-Billio), el conjunto de datos de segmentación más grande hasta la fecha, asegura Meta en un comunicado. Esta IA ha sido entrenada para tener una “noción general” de lo que son los objetos, lo que le permite encontrar todo tipo de cosas en cualquier imagen o video.

¿Cuál podría ser su uso práctico? La aplicación más obvia está en la edición de fotografías. Pero Meta explica que, en el futuro, SAM podría usarse para identificar artículos cotidianos a través de lentes de Realidad Aumentada. Los usuarios podrían, de esta manera, recibir recordatorios o instrucciones. La compañía también destacó su posible aplicación en el análisis de imágenes científicas.

El nuevo modelo de IA está capacitado en un conjunto de datos de más de mil millones de “máscaras de segmentación”, el sistema de visión artificial que permite singularizar un objeto por medio de una sección delimitadora. Esto es lo que le permite generalizar nuevos tipos de elementos más allá de lo que observó durante el entrenamiento. Meta destaca, además, que SAM permite recopilar nuevas máscaras de manera interactiva en menos de 14 segundos.

Meta, la casa matriz de Facebook e Instagran, ya utiliza una tecnología similar para tareas internas como clasificar imágenes, filtrar contenido inapropiado y sugerir publicaciones a los usuarios de sus redes sociales. El modelo y el conjunto de datos SAM se pueden descargar para uso no comercial. Los usuarios que quieran probar un prototipo con sus propias imágenes también deben aceptar que sea solo para fines de investigación.

Además del desarrollo de SAM, Meta se ha puesto como objetivo clave para este año integrar más “herramientas creativas”de IA generativa en sus aplicaciones, según ha explicado director ejecutivo, Mark Zuckerberg.

La empresa anunció en febrero pasado el lanzamiento de LLaMA, su propio modelo de lenguaje. A diferencia ChatGPT (de OpenAI) o de Bard (creado por Google), Meta presentó su propuesta como una herramienta más “pequeña y de mayor rendimiento”. Fue puesta a disposición a grupos de investigación específicos también bajo una licencia no comercial.

C.

Artifact: La nueva APP de noticias de los creadores de Instagram

Artifact

En los últimos días se ha empezado a hablar de Artifact. Esta es la nueva red social de los creadores de Instagram es una especie TikTok mezclado con Twitter pero para el consumo de artículos o noticias. Esto significa que el feed de la app se renueva con opciones de lectura de acuerdo a cómo el algoritmo comprende los intereses de cada usuario.

Si bien los desarrolladores de Artifact aseguran que el gestor de noticias todavía se encuentra en desarrollo, ya es posible instalarlo en un iPhone o en móviles Android desde cualquier parte del mundo.

Así, la app incluye una portada con los artículos que la inteligencia artificial cree que son más relevantes. Pero también presenta una segunda pestaña llamada Headlines (Titulares, en inglés), donde se agrupan contenidos de actualidad provenientes de distintas fuentes.

Una tercera sección muestra nuestro perfil y llega con varias funciones muy interesantes. Por un lado, Artifact cuenta cuántos artículos leímos y la racha de días consecutivos en que utilizamos la aplicación. Además, permite acceder a los enlaces guardados para ver más tarde, así como acceder al historial de lectura. Vale aclarar que para ingresar a este último es necesario leer al menos 10 noticias.

Otro elemento interesante de Artifact es que incluye estadísticas de categorías y medios más leídos. Pero eso no es todo, puesto que da la opción de sincronizar los contactos del móvil para saber quiénes de ellos también la utilizan. En el caso de que nuestros conocidos usen la app, podremos ver cuáles son los temas más populares en dicha «red».

Configurar Artifact es realmente muy sencillo. Al instalar la aplicación tendremos que seleccionar sobre qué temas queremos ver artículos y noticias, y hasta podremos añadir suscripciones pagas a medios como The New York TimesBloomberg o The Wall Street Journal, entre otros.

La app no requiere de un correo electrónico o de la creación de un usuario y contraseña para utilizarla, aunque sí permite emparejar nuestro perfil a un número telefónico para no perder las preferencias.

Los creadores de Artifact aseguran que es necesario leer unos 25 artículos en dos semanas para que el algoritmo de Inteligencia Artificial personalice correctamente el feed principal. Por ende, es probable que en principio veamos artículos que no son muy relevantes a nuestros intereses, o que tienen hasta dos o tres días de antigüedad.

También es importante remarcar que si mantenemos pulsado sobre una publicación, veremos un menú secundario con varias opciones. Allí podemos dar «no me gusta» a determinados contenidos, para que no aparezcan frecuentemente. O hasta ocultar determinadas fuentes de información, silenciarlas o hasta reportarlas.

Además, desde la configuración de Artifact es posible solicitar contenidos de medios específicos. Solo debemos introducir la dirección del sitio web o del feed RSS, y la app se encarga del resto.

C.