Machine Learning é sobre a construção de sistemas que podem aprender com os dados. Aprender significa melhorar em alguma tarefa.

Machine Learning é ótimo para problemas complexos para os quais não temos solução algorítmica, para substituir longas listas de regras ajustadas manualmente, para criar sistemas que se adaptam a ambientes flutuantes, e finamente, ajudar os humanos a aprender (por exemplo, mineração de dados).

O que é um conjunto de treinamento rotulado?

Um conjunto de treinamento rotulado é um conjunto de treinamento que contém a solução desejada (também conhecida como label/rótulo) para cada instância.

Quais são as tarefas supervisionadas mais comuns?

As duas tarefas supervisionadas mais comuns são regressão e classificação.

Você poderia citar quatro tarefas não supervisionadas comuns?

Tarefas comuns não supervisionadas incluem armazenamento em cluster, visualização, redução de dimensionalidade e aprendizado de regras de associação.

Que tipo de algoritmo de máquina você usaria para permitir um robô andasse em vários terrenos desconhecidos?

É provável que o aprendizado por reforço tenha melhor desempenho se quisermos que um robô aprenda a andar em vários terrenos desconhecidos, pois esse é normalmente o tipo de problema que a aprendizagem por reforço aborda. Pode ser possível expressar o problema como um problema de aprendizado supervisionado ou semi-supervisionado, mas seria menos natural.

Que tipo de algoritmo você usaria para segmentar seus clientes em vários grupos?

Se você não souber definir os grupos, poderá usar um algoritmo de agrupamento (aprendizado não supervisionado) para segmentar seus cliente em grupos de cliente semelhantes No entanto, se você souber quais grupos você gostaria de ter, poderá alimentar muitos exemplos de cada grupo com um algoritmo de classificação (aprendizado supervisionado), que classificará todos os seus clientes dentro desses grupos.

Você classificaria o problema de detecção de spam como um problema de aprendizado supervisionado ou não supervisionado?

A detecção de spam é um problema típico de aprendizado supervisionado: o algorítimo recebe muitos e-mails juntamente com seus rótulos (spam ou não spam).

O que é um sistema de aprendizado online?

Um sistema de aprendizado on-line pode aprender de forma incremental, em oposição a um sistema de aprendizado em lote. Isso o torna capaz de se adaptar rapidamente a dados alterados e sistemas autônomos, além de treinar quantidades muitos grandes de dados.

O que é um aprendizado fora out-of-core?

Os algoritmos Out-of-Core podem lidar com grandes quantidades de dados que não cabem na memória principal de um computador. Um algoritmo de aprendizado out-of-core divide os dados em mini lotes e usa técnicas de aprendizado on-line para aprender com esses mini lotes.

Qual é a diferença entre um parâmetro de modelo e o hiperparâmetro de um algoritmo de aprendizagem?

Um modelo possui um ou mais parâmetros de modelo que determinam o que ele irá prever, dada uma nova instância (por exemplo, a inclinação de um modelo linear). Um algorítimo de aprendizado tenta encontrar valores ótimos para esses parâmetros, de modo que o modelo generalize bem para novas instâncias. Um hiperparâmetro é um parâmetro do próprio algorítimo de aprendizado, não do modelo (por exemplo, a quantidade de regularização a ser aplicada).

O que os algoritmos de aprendizado baseados em modelo pesquisam? Qual é a estratégia mais comum que eles usam para ter sucesso? como eles fazem previsões?

Os algorítimos de aprendizado baseados em modelo procuram um valor ideal para os parâmetros de modelo, de modo que o modelo generalize bem para novas instâncias. Normalmente, treinamos esses sistemas, minimizando uma função de custo que mede o quão ruim o sistema está fazendo previsões nos dados de treinamento, além de uma penalidade pela complexidade do modelo, se o modelo for regularizado. Para fazer previsões, alimentamos os recursos da nova instância na função de previsão do modelo, usando os valores dos parâmetros encontrados pelo algorítimo de aprendizado.

Você pode citar quatro dos principais desafios de Machine Learning?

Alguns dos principais desafios da Machine Learning é a falta de dados, a baixa qualidade dos dados, os dados não representativos, os recursos não informativos, os modelos excessivamente simples que subestimam os dados de treinamento (underfit) e os modelos excessivamente complexos que superestimam os dados (overfit).

Se o seu modelo tiver um ótimo desempenho nos dados de treinamento, mas generaliza mal para novas instâncias, o que está acontecendo?

Se um modelo tiver um ótimo desempenho nos dados de treinamento, mas generalizar mal para novas instâncias, é provável que o modelo esteja sobrescrevendo os dados de treinamento (ou tivemos muita sorte com os dados de treinamento). As possíveis soluções para o overfitting é basicamente obter mais dados e simplificando o modelo. (selecionando um algoritmo mais simples, reduzindo o número de parâmetros ou recursos utilizados ou regularizando o modelo) ou reduzindo o ruído nos dados de treinamento.

O que é um conjunto de testes?

Um conjunto de teste é usado para estimar o erro de generalização que um modelo fará em novas instâncias, antes que o modelo seja lançado na produção.

Qual é o objetivo de um conjunto de validação?

Um conjunto de validação é usado para comparar modelos. Permite selecionar o melhor modelo e ajustar os hiperparâmetros.

O que pode dar errado se você ajustar hiperparâmetros usando o conjunto de teste?

Se você ajustar os hiperparâmetros usando o conjunto de testes, corre o risco de superajustá-lo, e o erro de generalização que você medir será otimista(você pode iniciar um modelo com desempenho pior do que o esperado)

Referências

--

--

Francke Peixoto
Francke Peixoto

Written by Francke Peixoto

Software Engineer | Data Engineer | Data & Analytics Enthusiastic | Machine Learning | Azure | Fullstack Developer | Systems Analist | .Net — Acta, non verba

No responses yet