Jogue fora o controle e fale com a televisão Antes de morrer em 5 de outubro, Steve Jobs deixou pistas de que estava trabalhando em um novo produto que revolucionaria a maneira como interagimos com nossos televisores. "Será a interface de usuário mais simples que você possa imaginar", disse ele ao biógrafo Walter Isaacson, e vai eliminar aquele monte de controles remotos que entulham as salas de estar. Após anos labutando com o decodificador de TV da Apple, que nunca foi um grande sucesso, Jobs disse: "Eu finalmente consegui!". Ninguém sabe com certeza a que ele se referia, e Isaacson não revela em seu livro. Mas muitos executivos do setor de tecnologia concordam que o aparelho de TV da Apple deverá fazer uso da interface mais espontânea da humanidade: a voz. Milhões de clientes da Apple já falam com seus novos iPhones 4S, graças a um programa chamado Siri que tenta fornecer uma resposta a perguntas como: "Como está o tempo hoje?". Se forem verdadeiros os rumores de que a Apple está planejando lançar um televisor até 2013, o reconhecimento de voz nos moldes do Siri está chegando às salas de estar. A Microsoft já chegou lá, com seu console de videogames Xbox 360, e a Comcast, Samsung Electronics, LG e Sharp estão trabalhando em funções acionadas pela voz para aparelhos de TV, decodificadores e produtos relacionados. Mike Thompson, vice-presidente sênior da Nuance Communications, a maior fornecedora de tecnologia de reconhecimento de voz do mundo, diz que os fabricantes de aparelhos surgirão como "uma onda", no ano que vem, lançando seus produtos que entendem comandos de voz. É fácil ver o apelo disso. Poucas pessoas ficariam contrariadas se, em vez de tentar descobrir qual dos controles remotos precisariam usar, elas pudessem se sentar no sofá e dizer: "Grave o próximo episódio de Modern Family". Embora um número crescente de novos televisores possa ser conectado à internet, muitos consumidores são afastados pelos controles excessivamente complexos ou teclados na tela que exigem que o usuário faça a digitação movendo um cursor em um ritmo dolorosamente lento, diz Jakob Nielsen, especialista em aplicação de produtos e cofundador da consultoria especializada em design Nielsen Norman. "Qualquer coisa seria melhor do que o que temos hoje", diz ele. "A partir daqui só podemos melhorar". Uma nova onda de aparelhos acionados por linguagem natural deve começar a chegar ao mercado em 2012. A Microsoft tem a liderança inicial graças ao Kinect, um periférico do Xbox com câmeras e sensores de movimentos para jogos em que as mãos ficam livres. O Kinect também possui microfones sensíveis. Após acionar o sistema dizendo "Xbox", os assinantes do serviço Xbox Live da Microsoft (US$ 60 por ano) podem procurar programas, filmes e jogos falando com o mecanismo de busca Bing, da Microsoft. "Tem muita gente que diz: 'Vamos transformar a televisão'", afirma Ross Honey, gerente-geral de entretenimento e propaganda do Xbox Live para a Microsoft. "Nós já transformamos.". A primeira oportunidade da maioria dos consumidores de falar com seus televisores - e eles ouvirem - será através dos aplicativos acionados por voz de seu smartphone ou tablet. Mais de 3 milhões de assinantes da Comcast já baixaram um aplicativo que transforma seus smartphones em controles remotos para o serviço de banda larga Xfinity da companhia. A Comcast está estudando acrescentar funções de controle de voz ao aplicativo, segundo afirma a porta-voz Jennifer Khoury. A Samsung e a Sharp estão desenvolvendo aplicativos próprios parecidos, segundo pessoas a par de seus planos. Esta pode muito bem ser a abordagem que Jobs tinha em mente. Segundo um ex-administrador da Apple que pediu para não ter seu nome revelado, porque não está autorizado a falar publicamente, Jobs via poucos motivos para um controle remoto único pois considerava que os iPhones e iPads poderiam dar conta do recado melhor. Outros estão estudando a possibilidade de solidificar o controle remoto, em vez de eliminá-lo. Thomson, da Nuance, diz que os fabricantes de televisores, tocadores de DVD e decodificadores estão trabalhando em modelos que se parecem mais com iPhones, alguns com telas que funcionam na base do toque, em vez daquele monte de botões que ninguém usa. Alguns dos protótipos são projetados em torno de um único botão de destaque que ativa um microfone, diz ele. O custo será um desafio, uma vez que tal dispositivo precisaria de um microfone e uma antena de Wi-Fi, em vez dos sensores infravermelhos comumente usados atualmente. As políticas do setor também serão um problema. Considerando que ter todos os aparelhos eletrônicos ao alcance da voz respondendo ao mesmo tempo seria um pesadelo, os fabricantes de equipamentos precisam chegar a um acordo sobre qual dispositivo passará a comandar o show. A melhor abordagem de todas, diz o especialista em design da Nielsen, é não ter controle remoto algum. A Nuance está pesquisando meios de embutir microfones pela sala de estar, assim como os alto-falantes dos "home-theaters" - para o melhor discernimento das palavras, diz Thomson. E os fabricantes de televisores estão estudando a possibilidade de colocar os microfones nos próprios televisores. Gene Munster, analista da Piper Jaffray, acredita que a Apple deve lançar esses dispositivos em 2013, mas outros poderão estar no mercado até lá. Thomson estima que 5% dos aparelhos de TV poderão ter controle de voz embutido até o Natal de 2012. Dave Grannan, presidente-executivo da fabricante de softwares de voz Vlingo (adquirida pela Nuance na semana passada), diz acreditar que muitas tecnologias em algum momento serão integradas. No cenário de seus sonhos, ele poderá dizer ao seu televisor para não entrar na fila no Netflix. Então, usando um controle de movimento ao estilo do Kinect, ele poderá pesquisar seu acervo. Graças ao programa embutido no televisor ou decodificador que acompanha os movimentos dos olhos, ele simplesmente olhará para o filme que quer assistir e dirá: "Passe este". "A combinação de voz, movimentos e acompanhamento dos olhos é o futuro", diz Grannan. Segundo ele, a Vlingo vai anunciar seu primeiro produto de reconhecimento de voz para televisores na Consumer Electronics Show (CES), que acontece entre 10 e 13 de janeiro, em Las Vegas. Mas grandes obstáculos persistem. "A sala de estar é um ambiente difícil", diz Dag Kittlaus, cofundador da Siri, a companhia de tecnologia de controle de voz comprada pela Apple em 2010. Kittlaus saiu da Apple em outubro e agora está escrevendo um romance de ficção científica [sim, a história envolve computadores que ouvem as pessoas]. Produtos de reconhecimento de voz na sala de estar precisam ser capazes de distinguir os comandos de voz das conversas fortuitas, dos gritos das crianças e dos sons emitidos pelo próprio televisor. Além disso, a maioria dos aparelhos de TV não compartilha um sistema operacional comum, como o Windows, para o qual os desenvolvedores podem criar novos aplicativos. "No minuto em que alguém surgir com uma loja de aplicativos para TV, haverá uma grande ruptura e a experiência será transformada", diz Kittlaus. "Do jeito que a coisa está, as únicas pessoas que têm acesso ao que você vê na televisão são os fabricantes de televisores e o pessoal dos canais a cabo". Uma companhia iniciante chamada Zypr, fundada pela fabricante de produtos eletrônicos de consumo Pioneer, desenvolveu padrões para dispositivos acionados por voz, mas ainda precisa anunciar parceiros. O maior desafio, porém, é simplesmente tornar o software mais inteligente. Os usuários do Kinect estão limitados a um punhado de comandos, e muitos donos do iPhone 4S já estão cansados de ouvir o Siri dizer a eles "não entendo". Isso significa que as intervenções mais pesadas ainda precisam ser feitas pelas companhias de tecnologia que trabalham há décadas com inteligência artificial. A SRI International, o laboratório de pesquisas do Vale do Silício que criou a tecnologia Siri antes de transformá-la em uma companhia separada, está trabalhando em um software que permite um diálogo muito mais avançado entre o computador e o ser humano. Existe até mesmo um projeto para permitir à tecnologia discernir o humor de uma pessoa através de pistas verbais. "O Siri é o começo da história, ou quase o começo da história", afirma Norman Winarsky, vice-presidente da SRI e defensor inicial do Siri. "Muita coisa vem por aí".