Eu já usei, Você já usou: Entenda a Tecnologia por trás do Novo Óculos da Apple de R$ 17.000

#Realidade Virtual (RV)

Hey developers, what's up?

Bem, vamos começar entusiasmando vocês e fazendo-lhes um convite para conhecer o assunto do momento no mundo tech, o novo lançamento do óculos da Apple.

Não sei se vocês chegaram a ler algum artigo, mas umas das primeiras coisas que me deparei foi com o seu valor no mercado exterior, com o orçamento de R$ 17.000,00 algo bem salgadinho para o brasileiro né? Então reflitam, vocês prefeririam um óculos ou uma moto...? 🏍️

Colocando a brincadeira de lado, não teríamos nunca como comparar esse lançamento com qualquer óculos até então conhecidos por nós, até mesmo porque tal produto ainda não chegou no Brasil.

Esse óculos foi uma das novas tecnologias apresentadas no WWDC 23, conferência anual da Apple realizada neste ano entre 5 de junho e 9 de junho de forma presencial na Califórnia (EUA), que mostrou lançamentos e tecnologias que fazem uso de um termo bastante conhecido.

Tal termo é o de CNNs ou Redes Neurais Convolucionais, não conhece? Fica aqui e fique por dentro dessa tecnologia que você com certeza já teve contato e nem sabe.

Sumário:

Introdução
O que são Redes Neurais
Redes Neurais Convolucionais
Aplicativos com Redes Neurais Convolucionais
Redes Neurais Convolucionais nos Óculos da Apple
Conclusões
Referências

1 – Introdução

A tecnologia está avançando a passos largos, superando expectativas e transformando radicalmente a forma como vivemos. Desde a inteligência artificial até a realidade virtual, novas descobertas e inovações estão moldando o futuro.

Nesse sentido, vemos um coadjuvante nesse processo de inovação e explosão tecnológica, a empresa milionária Apple, que realiza conferências anuais, apresentando lançamentos de software.

Na conferência desse ano, no WWDC 23, foram apresentadas diversas novidades, como o novo óculos de realidade aumentada da empresa, a nova versão do sistema operacional do iphone e novos modelos de MacBook.

Um fator a se destacar, é sobre como é possível utilizar a realidade aumentada nos óculos da Apple e quais tecnologias e ferramentas são utilizadas nesses lançamento da Apple.

Este artigo trata da aplicação de redes convolucionais em diversos softwares existentes, bem como nos lançamentos de 2023 feitos no WWDC 23, como no óculos da Apple de realidade aumentada.

2 – O que são Redes Neurais

Redes neurais são modelos computacionais inspirados no funcionamento do cérebro humano. Elas consistem em uma coleção de nós interconectados, conhecidos como neurônios artificiais, organizados em camadas. Cada neurônio recebe entradas, realiza um cálculo ponderado e produz uma saída ativada por uma função de ativação.

A interconexão entre os neurônios permite que as informações fluam por toda a rede, permitindo o processamento de dados e a tomada de decisões. Elas aprendem e generalizam padrões a partir de exemplos de treinamento.

Durante o treinamento, os pesos das conexões entre os neurônios são ajustados iterativamente para minimizar uma função de perda que mede a diferença entre as saídas esperadas e as saídas produzidas pela rede. Esse processo de aprendizado é conhecido como retropropagação do erro.

As redes neurais têm sido amplamente utilizadas em várias áreas, incluindo reconhecimento de padrões, processamento de imagem, processamento de linguagem natural, previsões de séries temporais e tomada de decisões. Elas são capazes de lidar com dados complexos e realizar tarefas como classificação, regressão, segmentação e geração de conteúdo.

Devido à capacidade das redes neurais de aprender representações complexas e realizar tarefas de forma eficaz, elas se tornaram uma ferramenta poderosa em aprendizado de máquina e inteligência artificial, impulsionando avanços significativos em diversas aplicações do mundo real.

As redes neurais podem variar em tamanho e complexidade, desde modelos simples com algumas camadas até redes profundas com dezenas ou centenas de camadas:

Redes neurais profundas, como as redes neurais convolucionais (CNNs) e as redes neurais recorrentes (RNNs), têm sido especialmente eficazes em tarefas de visão computacional, processamento de linguagem natural e outras áreas que envolvem dados sequenciais.

3 – Redes Neurais Convolucionais

Na nossa vida temos diversos casos em que passamos por situações que utilizam as redes convolucionais, mas por falta de conhecimento nem percebemos isso, como:

Um usuário de mídia social vê instantâneos de pessoas que ele pode conhecer com base na tecnologia de reconhecimento facial e pergunta se deseja adicioná-los como amigos no aplicativo.

Um carro autônomo movendo-se por uma rua da cidade usa tecnologia de reconhecimento visual para detecção de objetos, “vendo” que um pedestre está prestes a sair do meio-fio e passar na frente dele e decide responder diminuindo a velocidade.

Um médico diagnostica com confiança a condição de seu paciente e descarta a presença de células cancerígenas malignas ao ser capaz de usar a tecnologia para comparar milhares de imagens de saúde comparáveis de ligamentos radiografados.

Um departamento de polícia gera uma foto clara de um suspeito que os policiais podem manter à mão. Mas isso não é tudo: com redes adversárias generativas (GANs), as imagens podem ser usadas para treinar modelos de aprendizado profundo para reconhecimento facial.

Um varejista online sugere que as pessoas “completem o visual” do jeans que estão considerando com tops, jaquetas e acessórios que outras pessoas escolheram usar com eles, conforme evidenciado por dados de imagens de mídia social.

Uma rede neural convolucional é uma arquitetura de rede para aprendizado profundo que aprende com os dados que recebe, se destacando na identificação de imagens (além de vídeos, sinais de fala e áudio), sendo a melhor escolha dentre as diversas redes neurais quando a entrada de dados envolve imagens.

Uma arquitetura de rede neural convolucional compreende um modelo, uma série de funções estatísticas que calcula e recalcula o vetor pixelizado de números até que a imagem seja reconhecida e classificada. Sua eficácia se dá devido à utilização de números (pesos), estatísticas e processamento de dados através de nós (neurônios ou entradas).

Como funciona?

O primeiro passo nessa tecnologia de reconhecimento de imagem: converter os valores de pixel da imagem em valores numéricos chamados vetores, o que permite a interpretação da imagem e a extração de padrões. Quando isso é alcançado, os dados podem ser inseridos.

Uma CNN de aprendizado profundo possui vários tipos de camadas de nós, cada um dos quais aprende a detectar diferentes recursos de uma imagem. Em cada camada, um filtro é aplicado, movendo-se pelos campos receptivos da imagem, verificando se determinados recursos estão presentes e ativando determinados recursos.

Todos os nós em uma camada estão conectados a cada unidade de ativação ou nó na próxima camada. Um nó é ativado - seus dados são transmitidos para o nó de conexão - se sua saída for maior que o limite atribuído.

Nas camadas iniciais de processamento, o foco está em decifrar características diretas da imagem, como cores e bordas de elementos. A cada iteração sucessiva da camada, a atividade do filtro se aprofunda em mais complexidade, reconhecendo os elementos que representam a entrada.

A imagem parcialmente reconhecida criada em cada camada é enviada como entrada para a próxima camada. A cada camada, a CNN identifica segmentos maiores da imagem.

Após cada varredura, um produto escalar é calculado. A saída da série de pontos é conhecida como mapa de recursos.

Com várias varreduras, toda a imagem é processada e o algoritmo identifica o que está na imagem.

Esse processo de refinamento pode ser repetido para dezenas, centenas ou até milhares de camadas, tornando a imagem cada vez melhor e mais detalhada.

Como potencialmente milhões de imagens são processadas pela CNN, o modelo anota, calibra e realinha seus pesos. Ele fica tão confiante visualmente sobre o que está vendo que pode reconhecer quase qualquer imagem. Como comenta a publicação O que é uma rede neural convolucional do site Algolia.

Várias camadas

A chave para uma CNN identificar uma imagem é aumentar os níveis de complexidade de uma camada para a próxima. Diferentes especialistas da CNN citam diferentes números de tipos de camadas da CNN (algumas das quais são camadas ocultas). Independentemente dessas inconsistências, o resultado é o mesmo: interpretação precisa da imagem.

Além da camada de entrada de linha de base e da camada de saída, as camadas de blocos de construção incluem:

A camada convolucional

Esta primeira camada é onde a maioria dos cálculos são feitos. Uma segunda camada convolucional para categorização adicional após a inicial pode ser incluída para facilitar a extração de recursos de alto nível da imagem.

A camada de agrupamento

Essa camada reduz a complexidade/dimensionalidade na representação visual — o número de parâmetros na entrada — portanto, algumas informações são perdidas. Essa camada de downsampling melhora a eficiência e limita o risco de overfitting .

A camada totalmente conectada

Esta é a camada na qual, com base nas feições extraídas, a imagem é classificada. Esta última camada é “totalmente conectada” (FC) porque seus nós estão conectados com nós ou unidades de ativação em outra camada.

CNNS são superiores

Quando se trata de percepção visual, por que as CNNs são melhores que as redes neurais (NNs) regulares?

As redes neurais (NNs) regulares não podem ser dimensionadas. Eles não incorporam o poder computacional e os recursos que uma CNN faz. As NNs podem tentar aprender quantidades excessivas de detalhes nos dados de treinamento (conhecido como overfitting).

Se você inserir milhões de fotos em um computador e pedir que ele considere cada detalhe importante em seu trabalho de reconhecimento de imagem, incluindo o que equivale a “ruído” visual, isso pode distorcer a classificação da imagem.

CNN é melhor para imagens porque utiliza um método de compartilhamento de parâmetros, que reduz a intensidade computacional em comparação com uma NN. Em cada uma de suas camadas, cada nó está conectado a outro nó. À medida que os filtros avançam pela imagem em uma determinada camada, os pesos associados permanecem fixos.

4 – Aplicativos com Redes Neurais Convolucionais

Como mencionado no início do artigo, você com certeza já utilizou algum software que faz uso das redes convolucionais, abaixo vou citar os 5 principais aplicativos que utilizam essa tecnologia:

• Snapchat: um aplicativo de compartilhamento de fotos e vídeos, utiliza redes convolucionais para aplicar filtros faciais em tempo real. Esses filtros são capazes de reconhecer e rastrear os rostos dos usuários com precisão, adicionando efeitos e animações de forma interativa.

• Instagram: uma popular plataforma de compartilhamento de fotos e vídeos, usa redes convolucionais para alimentar seu recurso de reconhecimento de objetos. Isso permite que o aplicativo reconheça e marque objetos, como pessoas, animais e alimentos, facilitando a busca e a organização do conteúdo.

• Google Photos: um serviço de armazenamento e compartilhamento de fotos, usa redes convolucionais para recursos como reconhecimento facial e pesquisa visual. Elas são empregadas para identificar rostos de pessoas nas fotos e agrupá-los em álbuns, além de permitir a busca de objetos e locais nas imagens.

• Facebook: utiliza redes convolucionais em várias áreas. Por exemplo, o recurso de reconhecimento facial da plataforma utiliza para identificar e marcar pessoas automaticamente nas fotos. O Facebook também usa essas redes para melhorar a precisão da classificação de imagens e vídeos em seu feed de notícias.

• Tesla Autopilot: utiliza redes convolucionais em seu sistema de condução autônoma conhecido como Autopilot. Essas redes são usadas para processar dados de sensores, como câmeras e radares, e identificar objetos, veículos, pedestres e sinais de trânsito para permitir uma condução autônoma mais segura.

5 – Redes Neurais Convolucionais nos Óculos da Apple

A Apple anunciou dia 5 de junho de 2023, o Apple Vision Pro, seus óculos de realidade aumentada. O aparelho permite visualizar apps e interfaces completas como se elas estivessem dentro do ambiente em que o usuário está.

Ele conta com sensores que identificam movimentos dos olhos e das mãos, facilitando a interação com o conteúdo. Há também controle por voz, via Siri.

O Vision Pro conta com um display 4K de uma tecnologia chamada micro-OLED, que traz 23 milhões de pixels no total. Ele é equipado com o chip M2 e o novo R2, ambos de fabricação própria da maçã.

O Apple Vision Pro é um dispositivo totalmente novo no portfólio da Apple, e pode ser considerado de realidade mista (que une as realidades aumentada e virtual).

É possível estar totalmente imerso no conteúdo, mas os óculos garantem comunicação com o mundo externo, permitindo também visualizar apps dentro do ambiente, e enxergar e se comunicar com pessoas ao seu redor. Por meio do recurso EyeSight, seus olhos ficam visíveis para quem está perto de você.

De acordo com a Apple, é o produto mais ambicioso já criado pela fabricante. A empresa categoriza o dispositivo como um "computador espacial". Há um botão para tirar fotos e uma digital crown similar à do Apple Watch, que permite controlar as experiências imersivas também de forma física.

Em termos de processamento, o Vision Pro traz dois chips. O processamento tradicional do aparelho é feito pelo chip M2, o mesmo já presente em alguns Macs, como o MacBook Air. Já o novo chip R2 tem o objetivo de garantir que o usuário perceba tudo como se realmente estivesse acontecendo na sua frente, dentro do ambiente.

O Vision Pro é desbloqueado por meio do novo Optic ID, um sistema que identifica o padrão da íris nos olhos do usuário para guardar os dados do dispositivo, incluindo as senhas e os cartões salvos no Apple Pay.

Outra grande possibilidade do Apple Vision Pro é o entretenimento. Segundo a Apple, "nenhum outro dispositivo no mundo pode entregar esta qualidade em um filme em 3D". Embora já entreguem áudio de forma nativa, os óculos são compatíveis com os fones de ouvido externos e até mesmo controles de videogame.

Acima foram citados diversos exemplos práticos que vemos as redes neurais convolucionais sendo usadas com objetivos específicos nos novos óculos da Apple.

6 – Conclusões

A Apple anunciou o lançamento de seus óculos de realidade aumentada, chamados Apple Vision Pro, durante a conferência WWDC 23. Esses óculos utilizam redes neurais convolucionais (CNNs) para melhorar a experiência de realidade aumentada e possibilitar a visualização de apps e interfaces no ambiente do usuário.

As CNNs são modelos computacionais inspirados no funcionamento do cérebro humano e são especialmente eficazes em tarefas de visão computacional, como reconhecimento de objetos e rostos.

Em resumo, nesse artigo buscou-se destacar o avanço tecnológico e a aplicação das redes neurais convolucionais nos óculos de realidade aumentada da Apple, mostrando exemplos de seu uso em outros aplicativos e enfatizando o potencial dessas tecnologias na transformação do mundo atual.

7 – Referências

[1] Techtudo, WWDC 23: evento da Apple apresenta Vision Pro e iOS 17. Disponível em: <https://www.techtudo.com.br/noticias/2023/06/wwdc-23-evento-da-apple-apresenta-novo-ios-do-iphone-veja-anuncios-edapps.ghtml>. Acesso em: 14/06/2023

[2] Techtudo, Apple Vision Pro: óculos de realidade aumentada são apresentados na WWDC. Disponível em: <https://www.techtudo.com.br/noticias/2023/06/apple-vision-pro-oculos-de-realidade-sao-apresentados-na-wwdc-2023-edmobile.ghtml>. Acesso em: 14/06/2023

[3] Algolia, O que é uma rede neural convolucional e como ela é usada para reconhecimento de imagem na pesquisa?. Disponível em: <https://www.algolia.com/blog/ai/whats-a-convolutional-neural-network-and-how-is-it-used-for-image-recognition-in-search/?utm_source=google&utm_medium=paid_search&utm_campaign=rl_amer_search_plg_nb_dynamic&utm_content=blog_ai_dynamic&utm_term=&utm_region=amer&utm_model=nonbrand&utm_ag=rl&utm_persona=dev&_bt=566443924541&_bm=&_bn=g&gad=1&gclid=CjwKCAjwyqWkBhBMEiwAp2yUFpXdeYKW9izKXwfagJ9LSR_pQzXrnd92p7a3Hs_VvGe0pMJZo-hzcBoCFWEQAvD_BwE>. Acesso em: 15/06/2023

[4] Canaltech, 10 novidades que a Apple anunciou na WWDC 23. Disponível em: <https://canaltech.com.br/wwdc/novidades-que-a-apple-anunciou-na-wwdc-23/>. Acesso em: 15/06/2023

[5] Tecmundo, WWDC 2023: iOS 17, óculos da Apple, novo MacBook e o que mais esperar. Disponível em: <https://www.tecmundo.com.br/mercado/264570-apple-wwdc-2023-o-que-esperar.htm>. Acesso em: 15/06/2023